Информационный поиск
План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения
Модель векторного пространства Идея: -представление документа и запроса в виде векторов -нахождение пространственно-близких векторов word1 q d1 d2 word2
Косинусная мера сходства, word1 q d1 d2 word2
Взвешивание термина «The information retrieval» Нам надо: 1.Уменьшить вес слова, если оно встречается в большом количестве документов (Например, слово The) 2.Сделать вес максимальным, если слово встречается часто только в некоторых документах 3.Сделать вес поменьше, если слово встречается реже, чем во 2 пункте
Взвешивание термина 1. Частота термина: tf – количество вхождений термина в документ 2. Документная частота: df – количество документов, содержащих термин 3. Обратная документная частота Решение: t -> tf × idf
Ранжирование Необходимо определить 10 лучших результатов Как это сделать?
Ранжирование CosineScore(q) float Scores[N]=0 Инициализация Length[N] for each термина запроса do вычисляем w t, q for each пары (d, tf t, d ) do Scores[d]+=wf t, d × w t, q for each d do Scores[d] = Scores[d] / Length[d] return 10 лучших
Проблема Некоторые документы имеют метаданные либо разбиты на части (заголовок, автор, …) Как учесть эти данные при ранжировании?
Параметрические и зонные индексы поля метаданных зоны метаданных Дата создания Формат документа Название документа Аннотация
Индексирование полей Для каждого поля – один параметрический индекс Для такого индексирования используются B-деревья
Индексирование зон Для каждой зоны можно создать стандартный инвертированный список документов, в которых встречается это слово
Но зоны можно представлять в виде словопозиций «Найти документы, в которых слово William встречается в названии документа и в списке авторов»
Взвешенное зонное ранжирование «Information» Всего 3 зоны: author, title, body. вес ВЗР определяется как соответствие между q и k-ой зоной Если «Information» входит только в title и body, то релевантность документа равна
Вычисление весов на основе машинного обучения 1.Имеем множество обучающих примеров, состоящий из a)q j b)d j c)r(q j,d j ) Каждому документу дается значение релевантности вручную(r)
2. Веса определяются на основе обучение на этих примерах Вводим функцию Цель: найти g на основе машинного обучения Вычисление весов на основе машинного обучения
Все ошибки суммируются. Так что теперь задача состоит в том, чтобы минимизировать эту ошибку путем выбора g.
Заключение -Модель векторного пространства -Методы ранжирования -Определение весов на основе машинного обучения