Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.

Презентация:



Advertisements
Похожие презентации
Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru Текстовое ранжирование в Яндексе. Особенности подхода TF*IDF.
Advertisements

Страничные факторы ранжирования Михаил Костин, Mail.ru.
Информационный поиск в Интернете Павел Морозов
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
3.1. Назначение онтологий. Информационный поиск..
РОМИП в 2004 году М.С. Агеев, НИВЦ МГУ Губин М.В., ИК «Кодекс» Добров Б.В., НИВЦ МГУ Кураленок И.Е., СПбГУ Некрестьянов И.С., СПбГУ Плешко В.В., Гарант-Парк-Интернет.
ОБУЧЕНИЕ КЛАССИФИКАТОРОВ НА ОСНОВЕ ВЫДЕЛЕНИЯ ФРАГМЕНТОВ Васильев В.Г.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.
ИЗУЧЕНИЕ СТАТИСТИКИ ВСТРЕЧАЕМОСТИ ТЕРМИНОВ И ПАР ТЕРМИНОВ В ТЕКСТАХ ДЛЯ ВЫБОРА МЕТОДОВ СЖАТИЯ ИНВЕРТИРОВАННОГО ФАЙЛА. Губин Максим Вадимович «Информационная.
Особенности регионального ранжирования Яндекса. Украинская формула Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Методы извлечения ключевых фраз Рязанцев Дмитрий 428.
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста.
Инициативный проект Российского семинара по оценке методов информационного поиска (РОМИП)
Архитектура поисковых систем. Поисковая система Поисковая система – веб-сервис, предоставляющий возможность поиска информации в Интернет В основе - идея.
Информационный поиск. План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Федеральное государственное бюджетное образовательное учреждение высшего образования «Омский государственный технический университет» Кафедра «Прикладная.
Транксрипт:

Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова

Romip-base project | РОМИП, ad hoc РОМИП: Российский семинар по Оценке Методов Информационного Поиска [ Проводится с 2003 года Поиск по запросу [ad hoc], тематическая классификация, Кластеризация новостного потока, вопросно-ответный поиск… ad hoc: Поиск по запросу Оценка производится при помощи экспертов Коллекции документов: коллекция нормативных документов [legal] и коллекция narod.ru [web], смешанная коллекция

Romip-base project | Мотивация, Факторы Мотивация: Современные поисковые системы учитывают множество факторов для определения релевантных документов В течении гг. участникам РОМИП удалось значительно улучшить качество поиска: значительно превзойти «классическую» TF*IDF формулу Использовалось множество других факторов для определения итогового веса Полученные участниками результаты трудно или невозможно воспроизвести по описаниям Воспроизвести результаты использовать те же факторы

Romip-base project | Факторы Факторы: Современные поисковые системы учитывают множество факторов для определения релевантных документов: относительной частоты встречаемости слов запроса в найденном документе; относительной частоты встречаемости слов запроса в документах коллекции; взаимного расположения слов; близости слов запроса в документе; использование морфологии при анализе текста; выделение ключевых областей структурированных документов; поиск пассажей запроса входящих целиком в документ или в одно предложение; вхождение всех слов запроса в документ; использование псевдо-ранжирующей обратной связи по релевантности (pseudo-relevance feedback).

Romip-base project | Факторы Факторы: Современные поисковые системы учитывают множество факторов для определения релевантных документов: + относительной частоты встречаемости слов запроса в найденном документе; + относительной частоты встречаемости слов запроса в документах коллекции; взаимного расположения слов; + близости слов запроса в документе; + использование морфологии при анализе текста; выделение ключевых областей структурированных документов; поиск пассажей запроса входящих целиком в документ или в одно предложение; + вхождение всех слов запроса в документ; использование псевдо-ранжирующей обратной связи по релевантности (pseudo-relevance feedback).

Romip-base project | Исходные данные, Метрики Исходные данные: web- и legal- коллекции документов семинара РОМИП. Исходные документы и запросы были разобраны «на леммы» при помощи инструмента морфологического анализа, используемого в УИС РОССИЯ [ Запросы 2004/2005/2006 годов Метрики: average precision, 11-point matrix (TREC) Принятые ограничения: количество документов - 50, слабые требования к релевантности

Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: весовая функция основанная на одном из факторов вектор всевозможных параметров скалярный коэффициент линейной комбинации Схема исследования: 1.Для каждого фактора* выбираем «лучшую» функцию (принадлежащую некоторому множеству) и вектор параметров 2.Последовательно увеличивая найти 3.Проверить формулу на другой коллекции/запросах

Romip-base project | TF*IDF TF*IDF: freq(d,t) – число вхождений леммы t в документ d docLen(d) – длина документа d в различных леммах df(t) – число документов коллекции в которые входит лемма t. Были также опробованы еще 2 варианта для TF*IDF,

Romip-base project | Пары слов Пары слов: где равняется, если леммы t и s входят в документ d на расстоянии не большем чем b (параметр алгоритма) и равняется нулю иначе – расстояние между леммами t и s в запросе В качестве p были опробованы 1+3 других варианта

Romip-base project | Учет всех слов – минимальное окно Минимальное окно: mv(d,Q) – размер минимального «окна» в документе d, содержащего все слова запроса Q |Q| - длина запроса Была также опробована формула:,

Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: весовая функция основанная на одном из факторов вектор всевозможных параметров скалярный коэффициент линейной комбинации

Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: весовая функция основанная на одном из факторов вектор всевозможных параметров скалярный коэффициент линейной комбинации Итоговая формула с учетом последовательно подобранных коэффициентов:

Romip-base project | 11-точечные графики,

, Сравнение результатов на коллекции legal-2004 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно Сравнение результатов на коллекции legal-2005 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно

Romip-base project | 11-точечные графики, Сравнение результатов на коллекции web-2006 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно Сравнение результатов на коллекции legal-2006 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно

Romip-base project | Выводы Выводы: В данном исследовании удалось приблизить результаты на коллекции нормативных документов и коллекции narod.ru путем подбора оптимальных параметров небольшого числа факторов Для 2006 года – достичь результаты не удалось: pseudo- relevance feedback? Учет двух дополнительных факторов (пары слов, минимальное окно) позволяет улучшить классическую TF*IDF формулу При учете пар слов выгодно использовать слова из запроса находящиеся даже на большом расстоянии. В документе – не более чем через 2 слова

Romip-base project | ПО, Исходные коды и коллекции ПО и Исходные коды: Доступны по адресу romip-base.narod.ru Написаны на Java, используют MySQL для хранения коллекций Ждут вашего участия :) Коллекции: Доступны после согласования с оргкомитетом РОМИПа Уже обработаны инструментом морфологического анализа, используемым в УИС РОСCИЯ Можно получить в виде DVD-диска Gb – необходимо, чтобы загрузить обе коллекции в MySQL