Архитектура поисковых систем. Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея.

Презентация:



Advertisements
Похожие презентации
ПОИСКОВАЯ СИСТЕМА Поисковая система Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и.
Advertisements

Тема Структура представления информации в мировых информационных сетях.
Информационный поиск в Интернете Павел Морозов
"Информационные технологии, Интернет и мультимедиа на службе Церкви и религиозного образования" 1. Принципы работы поисковых систем - Концепция web поиска.
Анализ данных Введение в информационный поиск. План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.
Построение поисковых индексов Автор: Елисафенко М.Е. гр
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Информационно-поисковая система. Классификация информационно- поисковых систем.
Мировые информационные ресурсы Поисковые системы.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Ранжирование документов в поисковых машинах Сергей Людкевич, руководитель департамента Интернет-маркетинга.
Д.А.Россиев Поиск в Интернет и создание Интернет-обзоров.
Страничные факторы ранжирования Михаил Костин, Mail.ru.
Директор по развитию УЧЕТ ТРЕБОВАНИЙ К БУДУЩЕМУ ПРОДВИЖЕНИЮ НА ЭТАПЕ РАЗРАБОТКИ САЙТА Алексей Довжиков.
Ачинский район, 2010 г. Районный конкурс педагогических работников – молодых специалистов «ПОЗИТИВ» Богданова Дарья Вячеславовна, учитель информатики МОУ.
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа.
Технология поиска информации в Интернете. Поиск по адресам URL URL (Uniform Resource Locator) используется в World Wide Web для задания местоположения.
Доменная система имен. Всемирная паутина. Поисковые системы В этой лекции вы найдете ответы на следующие вопросы: Как построена и как работает система.
Директор по развитию УЧЕТ ТРЕБОВАНИЙ К БУДУЩЕМУ ПРОДВИЖЕНИЮ НА ЭТАПЕ РАЗРАБОТКИ САЙТА Алексей Довжиков.
Транксрипт:

Архитектура поисковых систем

Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея поиска нужных страниц по ключевым словам в индексе

Функции поисковых систем Хранение больших объёмов информации Добавление, изменение и удаление хранимой информации Быстрый поиск требуемой информации Вывод информации в удобном для человека виде

Общая архитектура

Базовые части Робот – отвечает за сбор информации База данных – хранение собранной информации Клиент – обработка запросов

Робот поисковых систем Поисковый робот – программа, которая отвечает за сбор информации Эмулирует работу пользователя, загружая страницы и сохраняя их в базе данных

Робот поисковых систем Crawler – Червяк – отвечает за сбор адресов Задача: сформировать список адресов, по которым поползёт… Spider – Паук – отвечает за закачку веб-страниц и сохранение в базе Скачивает html-код страниц Подобен браузеру, но ничего не отображает

Робот поисковых систем У робота есть стратегия… Обойти больше доменов Пройти «глубже» по одному домену …и различные: порядок обхода страниц глубина просмотра частота обхода страниц защита от зацикливания

Поисковые системы дают возможность самостоятельно добавлять сайты в очередь для обхода сайта роботом Преимущества: ускоряет процесс обхода сайта иногда это единственная возможность заявить о существовании сайта

База данных Программа, которая отвечает за хранение и обработку собранной информации Хранилище (репозиторий) Индексатор Индекс

База данных Индексатор – программа, которая анализирует скачанные веб- страницы разбирает их на составные части – абзацы, предложения, слова и т.д. собирает различную служебную информацию о страницах

База данных Индекс: Прямой Обратный (инвертированный) Вспомогательный

База данных Прямой индекс Упорядоченный список страниц Для страницы указаны все слова, которые входят в документ, количество и формат

База данных Обратный индекс Список слов Для каждого списка указаны все страницы, на которых это слово встречается, и полная информация о вхождении

База данных Вспомогательный индекс Список страниц и любая другая информация о ней, нужная конкретной ПС Используется, как правило, для ранжирования результатов поиска

Клиент Программа, которая отвечает за обработку запросов Принимает запросы пользователей Обрабатывает запросы Упорядочивает запросы Выдаёт страницу результатов поиска (SERP)

Клиент Запрос – набор ключевых слов на естественном языке + география + время +соц.демографические характеристики + история поиска и т.д.

Клиент Обработка запросов Проверка на опечатки Вычет стоп-слов Словоформы Колдунщики Построение списка документов, в которых встречаются заданные слова

Клиент Ранжирование – «чёрный ящик» всех поисковых систем Ранжирование – упорядочивание результатов поиска по релевантности Есть много ранжирующих факторов…

Клиент Ранжирующие факторы: Количество вхождений Частота Форматирование Расстояние между словами запроса Близость к началу документа Учёт морфологии Количество и тексты внешних ссылок на сайт и страницу

Построение SERP Search Engine Result Page Заголовок Сниппет – куски текста, релевантные запросу Адрес (URL) + Сохранённая копия Ещё с сайта…

Качество поиска Релевантность – соответствие документа запросу Полнота – процент найденных релевантных страниц среди всех существующих релевантных в Сети Точность – доля релевантных документов от общего количества найденных Пертинентность – соответствие потребности пользователя

Общая архитектура

Google

Вопросы ?