Анализ данных Введение в информационный поиск
План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста и изображений 3.Ранжирование результатов 4.Веб-пауки (краулеры) 5.Виды обмана и защиты поисковых систем
План лекции 1.Определение и задачи IR 2.Проблемы информационного поиска 3.Основные компоненты поисковика Основная цель: получить представление и задачах и проблемах систем информационного поиска
Информационный поиск Информационный поиск (Information Retrieval) - процесс поиска в большой коллекции неструктурированного материала, удовлетворяющего информационной потребности Основная задача: быстро получить верный и актуальный ответ на запрос необученного пользователя
Структурированные и неструктурированные данные Где и какие данные являются неструктурированными? Файлы логов работы сервера Википедия Фотогалерея База биллинга Веб-страницы Статистики погоды Youtube
Требования Составление запроса не требует определенных навыков Быстрое получение результатов Полнота и точность результатов
Точность и полнота Точность - доля релевантных документов среди найденных Полнота - доля найденных релевантных документов среди всех релевантных документов Сравнить: студента на экзамене и частного детектива
Проблемы поисковых систем Поиск источников информации Обработка источников информации Индексация данных Хранение данных Обработка запроса Ранжирование
Поиск источников Ссылки на другие сайты Списки новых доменов от регистраторов Сканирование всего диапазона IP по портам 80, 8080, 443 Добавление сайта владельцем
Обработка источников Разные языки Разные кодировки Некорректная верстка Хорошая страница: UTF-8, внутренняя SEO- оптимизация Лучшая страница: семантический веб Реальность: KOI8-R, Narod.ru, doorway, невидимый текст
Построение индекса Множество лингвистических задач: Определение однокоренных слов Связь синонимов Анализ связи слов в предложении Множество математических задач: Метрика значимости слова в данном документе и коллекции в целом Определение сгенерированных текстов
Ранжирование Сотни параметров зависящих от условий запроса (время, место, язык). Метрики определения авторитетности источников информации (Google PR, Яндекс тИЦ, Alexa Ranking и т.д.) – сложные секретные мат.модели. Доступны только рекомендации по улучшению рейтинга.
Общая структура поисковой системы Страницы интернета Краулер Индексатор Кэш Нормализованные документы Запрос Обработчик запроса Поисковая машина Ранжирование Результаты
Краулер Составляет список страниц, по которым будет проходить поиск Ходит по ссылкам, как обычный пользователь Опирается на robots.txt (для защиты приватных данных) Ссылки отправляются индексатору
Индексатор Анализирует содержимое страницы Находит модульную сетку Составляет индекс страницы: слов и их значимости Переводит содержимое страницы из простыни текста в вид удобный для поиска информации
Обработчик запроса Исправляет опечатки Добавляет синонимы Анализирует омонимы Убирает стоп-слова Определяет правила обработки списка результатов (AND, OR, NOT) Приводит запрос в тот же вид, что и нормализатор
Непосредственно поиск Смотрит, есть ли уже результаты по этому запросу Ищет приведенный запрос в индексе Применяет булевые правила к результатам подзапросов
Оценка качества поиска Если пользователь после перехода по ссылке вернулся на страницу результатов, то он не удовлетворен Если не вернулся – повысить авторитет страницы последнего перехода Социальные сети + рекомендации источников
Виды поисковиков Классические текстовые поисковики Реверсивный поиск по изображению Реверсивный поиск по музыке Специализированные поисковики (товары, недвижимость, авто) Агрегаторы поисковых результатов Голосовой поиск
Реверсивный поиск изображений Составляет индекс изображений, а не текста, ужимая их до минимума, необходимого для последующего сравнения с картинкой-запросом
Реверсивный поиск музыки То же самое для музыки (Tunatic)
Агрегатор поисковых результатов Ищет ответ на вопрос, а не страницу с ответом Сам при этом использует чужой индекс и результаты
Прочие специализированные поисковики Строка ввода немного модифицированная
Прочие специализированные поисковики (примеры) Яндекс.Маркет – поиск по товарам Google Maps – поиск мест, адресов Koders – поиск по коду