Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова
Romip-base project | РОМИП, ad hoc РОМИП: Российский семинар по Оценке Методов Информационного Поиска [ Проводится с 2003 года Поиск по запросу [ad hoc], тематическая классификация, Кластеризация новостного потока, вопросно-ответный поиск… ad hoc: Поиск по запросу Оценка производится при помощи экспертов Коллекции документов: коллекция нормативных документов [legal] и коллекция narod.ru [web], смешанная коллекция
Romip-base project | Мотивация, Факторы Мотивация: Современные поисковые системы учитывают множество факторов для определения релевантных документов В течении гг. участникам РОМИП удалось значительно улучшить качество поиска: значительно превзойти «классическую» TF*IDF формулу Использовалось множество других факторов для определения итогового веса Полученные участниками результаты трудно или невозможно воспроизвести по описаниям Воспроизвести результаты использовать те же факторы
Romip-base project | Факторы Факторы: Современные поисковые системы учитывают множество факторов для определения релевантных документов: относительной частоты встречаемости слов запроса в найденном документе; относительной частоты встречаемости слов запроса в документах коллекции; взаимного расположения слов; близости слов запроса в документе; использование морфологии при анализе текста; выделение ключевых областей структурированных документов; поиск пассажей запроса входящих целиком в документ или в одно предложение; вхождение всех слов запроса в документ; использование псевдо-ранжирующей обратной связи по релевантности (pseudo-relevance feedback).
Romip-base project | Факторы Факторы: Современные поисковые системы учитывают множество факторов для определения релевантных документов: + относительной частоты встречаемости слов запроса в найденном документе; + относительной частоты встречаемости слов запроса в документах коллекции; взаимного расположения слов; + близости слов запроса в документе; + использование морфологии при анализе текста; выделение ключевых областей структурированных документов; поиск пассажей запроса входящих целиком в документ или в одно предложение; + вхождение всех слов запроса в документ; использование псевдо-ранжирующей обратной связи по релевантности (pseudo-relevance feedback).
Romip-base project | Исходные данные, Метрики Исходные данные: web- и legal- коллекции документов семинара РОМИП. Исходные документы и запросы были разобраны «на леммы» при помощи инструмента морфологического анализа, используемого в УИС РОССИЯ [ Запросы 2004/2005/2006 годов Метрики: average precision, 11-point matrix (TREC) Принятые ограничения: количество документов - 50, слабые требования к релевантности
Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: весовая функция основанная на одном из факторов вектор всевозможных параметров скалярный коэффициент линейной комбинации Схема исследования: 1.Для каждого фактора* выбираем «лучшую» функцию (принадлежащую некоторому множеству) и вектор параметров 2.Последовательно увеличивая найти 3.Проверить формулу на другой коллекции/запросах
Romip-base project | TF*IDF TF*IDF: freq(d,t) – число вхождений леммы t в документ d docLen(d) – длина документа d в различных леммах df(t) – число документов коллекции в которые входит лемма t. Были также опробованы еще 2 варианта для TF*IDF,
Romip-base project | Пары слов Пары слов: где равняется, если леммы t и s входят в документ d на расстоянии не большем чем b (параметр алгоритма) и равняется нулю иначе – расстояние между леммами t и s в запросе В качестве p были опробованы 1+3 других варианта
Romip-base project | Учет всех слов – минимальное окно Минимальное окно: mv(d,Q) – размер минимального «окна» в документе d, содержащего все слова запроса Q |Q| - длина запроса Была также опробована формула:,
Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: весовая функция основанная на одном из факторов вектор всевозможных параметров скалярный коэффициент линейной комбинации
Romip-base project | Схема исследования Вес документа d для данного запроса Q ищется в виде: весовая функция основанная на одном из факторов вектор всевозможных параметров скалярный коэффициент линейной комбинации Итоговая формула с учетом последовательно подобранных коэффициентов:
Romip-base project | 11-точечные графики,
, Сравнение результатов на коллекции legal-2004 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно Сравнение результатов на коллекции legal-2005 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно
Romip-base project | 11-точечные графики, Сравнение результатов на коллекции web-2006 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно Сравнение результатов на коллекции legal-2006 для TF*IDF + пары слов и TF*IDF + пары слов + минимальное окно
Romip-base project | Выводы Выводы: В данном исследовании удалось приблизить результаты на коллекции нормативных документов и коллекции narod.ru путем подбора оптимальных параметров небольшого числа факторов Для 2006 года – достичь результаты не удалось: pseudo- relevance feedback? Учет двух дополнительных факторов (пары слов, минимальное окно) позволяет улучшить классическую TF*IDF формулу При учете пар слов выгодно использовать слова из запроса находящиеся даже на большом расстоянии. В документе – не более чем через 2 слова
Romip-base project | ПО, Исходные коды и коллекции ПО и Исходные коды: Доступны по адресу romip-base.narod.ru Написаны на Java, используют MySQL для хранения коллекций Ждут вашего участия :) Коллекции: Доступны после согласования с оргкомитетом РОМИПа Уже обработаны инструментом морфологического анализа, используемым в УИС РОСCИЯ Можно получить в виде DVD-диска Gb – необходимо, чтобы загрузить обе коллекции в MySQL