Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемnsumedia.ru
1 Архитектура поисковых систем
2 Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея поиска нужных страниц по ключевым словам в индексе
3 Функции поисковых систем Хранение больших объёмов информации Добавление, изменение и удаление хранимой информации Быстрый поиск требуемой информации Вывод информации в удобном для человека виде
4 Общая архитектура
5 Базовые части Робот – отвечает за сбор информации База данных – хранение собранной информации Клиент – обработка запросов
6 Робот поисковых систем Поисковый робот – программа, которая отвечает за сбор информации Эмулирует работу пользователя, загружая страницы и сохраняя их в базе данных
7 Робот поисковых систем Crawler – Червяк – отвечает за сбор адресов Задача: сформировать список адресов, по которым поползёт… Spider – Паук – отвечает за закачку веб-страниц и сохранение в базе Скачивает html-код страниц Подобен браузеру, но ничего не отображает
8 Робот поисковых систем У робота есть стратегия… Обойти больше доменов Пройти «глубже» по одному домену …и различные: порядок обхода страниц глубина просмотра частота обхода страниц защита от зацикливания
9 Поисковые системы дают возможность самостоятельно добавлять сайты в очередь для обхода сайта роботом Преимущества: ускоряет процесс обхода сайта иногда это единственная возможность заявить о существовании сайта
10 База данных Программа, которая отвечает за хранение и обработку собранной информации Хранилище (репозиторий) Индексатор Индекс
11 База данных Индексатор – программа, которая анализирует скачанные веб- страницы разбирает их на составные части – абзацы, предложения, слова и т.д. собирает различную служебную информацию о страницах
12 База данных Индекс: Прямой Обратный (инвертированный) Вспомогательный
13 База данных Прямой индекс Упорядоченный список страниц Для страницы указаны все слова, которые входят в документ, количество и формат
14 База данных Обратный индекс Список слов Для каждого списка указаны все страницы, на которых это слово встречается, и полная информация о вхождении
15 База данных Вспомогательный индекс Список страниц и любая другая информация о ней, нужная конкретной ПС Используется, как правило, для ранжирования результатов поиска
16 Клиент Программа, которая отвечает за обработку запросов Принимает запросы пользователей Обрабатывает запросы Упорядочивает запросы Выдаёт страницу результатов поиска (SERP)
17 Клиент Запрос – набор ключевых слов на естественном языке + география + время +соц.демографические характеристики + история поиска и т.д.
18 Клиент Обработка запросов Проверка на опечатки Вычет стоп-слов Словоформы Колдунщики Построение списка документов, в которых встречаются заданные слова
19 Клиент Ранжирование – «чёрный ящик» всех поисковых систем Ранжирование – упорядочивание результатов поиска по релевантности Есть много ранжирующих факторов…
20 Клиент Ранжирующие факторы: Количество вхождений Частота Форматирование Расстояние между словами запроса Близость к началу документа Учёт морфологии Количество и тексты внешних ссылок на сайт и страницу
21 Построение SERP Search Engine Result Page Заголовок Сниппет – куски текста, релевантные запросу Адрес (URL) + Сохранённая копия Ещё с сайта…
22 Качество поиска Релевантность – соответствие документа запросу Полнота – процент найденных релевантных страниц среди всех существующих релевантных в Сети Точность – доля релевантных документов от общего количества найденных Пертинентность – соответствие потребности пользователя
23 Общая архитектура
24 Google
25 Вопросы ?
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.