Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.

Презентация:



Advertisements
Похожие презентации
Информационный поиск в Интернете Павел Морозов
Advertisements

3.1. Назначение онтологий. Информационный поиск..
Поиск информации. Поиск информации – из чего он складывается? Как мы задаем документы? Как задаем запросы? Как вычисляем близость между запросом и документом?
Анализ данных Введение в информационный поиск. План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста.
Информационно-поисковые системы. Сычев А.В г. 1 Введение. Проблема информационного поиска Воронежский государственный университет Факультет компьютерных.
Ачинский район, 2010 г. Районный конкурс педагогических работников – молодых специалистов «ПОЗИТИВ» Богданова Дарья Вячеславовна, учитель информатики МОУ.
Архитектура поисковых систем. Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея.
Информационный поиск. План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения.
Пополнение информационных ресурсов Интернета происходит высокими темпами, и найти необходимую информацию становиться всё труднее.
Поиск данных. Постановка, организация, последовательность поиска МОУ СОШ 2 городского округа город Буй Костромской области.
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста.
Поисковые системы. Цель Сравнить поисковые системы Гипотеза Наиболее эффективно осуществляет поиск информации поисковая система Google.
Доклад «Теоретические аспекты информационного поиска» Автор Гречиц Алёна Анатольевна.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция.
Поиск информации в ИНТЕРНЕТЕ Для слушателей курсов. ХалкечеваЛ.В.
Учитель математики, информатики и ВТ Земскова В.Х п. Кушокы.
Информационно-поисковые системы. Сычев А.В г. 1 Спамдексирование Воронежский государственный университет Факультет компьютерных наук Кафедра информационных.
Лекция 21 Лекция 21 Логическая и физическая схема организации пространства в документальных БД. Примеры моделей хранения и организации доступа.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.
Транксрипт:

Linguistic tools Лекция 5

ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для составления конкорданса ключевых слов к Библии Журнальные индексы (Королевское научное общество, 1600-е)

Orville James Nave ( )

Информационный поиск INFORMATION RETRIEVAL (IR) Поиск неструктурированных данных (обычно текстовых документов), в которых находится нужная информация в больших коллекциях/корпусах (обычно хранятся в компьютерах)

1950 – библиотечное дело 1952 г Кельвин Муерс: information retrieval WWW Google > 8 млрд страниц –Яндекс 6 млн страниц, 2,5 млн сайтов

Архитектура поисковой системы Робот ( краулер, спайдер, индексатор) Базы данных Клиент (обработка запроса)

ЗАПРОС Логический запрос 1=true 0= false Булевская модель поиска

Manning & Raghavan 2005

ЗАПРОС: Brutus AND Caesar NOT Calpurnia

Для больших коллекций матрица невозможна Инвертированный индекс ( запоминаем только вхождения, но не их отсутствия) Записи отсортированы по словам

Индексирование Документы Токенизация Лемматизация Индексатор

ИНДЕКСАТОР: шаг 1 Пара (слово, ID документа)

Индексатор: шаг 2 СОРТИРОВКА !

Индексатор: шаг 3 Вхождения в один и тот же документ объединяются Добавляются сведения о частоте

ОБРАБОТКА ЗАПРОСА POINTER

1.Двигаемся одновременно по двум рядам пойнтеров. 2.На каждом шаге сравниваем оба пойнтера. 3.Если они равны – то это искомое пересечение. 4.Если они не равны, то двигаем меньший. ОБРАБОТКА ЗАПРОСА

Оптимизация обработки запросов Начинай с наименее частотного (почему?) Частота двух терминов объединенных оператором OR может быть примерно оценена как сумма частот каждого

упражнение

Оценка качества поиска Релевантность –Полнота (recall) R –Точность (precision) P Точность P = a/a+c Полнота R = a/ a+b F мера = (p+r)/ 2pr документывыданныеневыданные релевантныеac нерелевантныеbd