Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемРуслан Юренев
1 Информационный поиск
2 План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения
4 Модель векторного пространства Идея: -представление документа и запроса в виде векторов -нахождение пространственно-близких векторов word1 q d1 d2 word2
5 Косинусная мера сходства, word1 q d1 d2 word2
6 Взвешивание термина «The information retrieval» Нам надо: 1.Уменьшить вес слова, если оно встречается в большом количестве документов (Например, слово The) 2.Сделать вес максимальным, если слово встречается часто только в некоторых документах 3.Сделать вес поменьше, если слово встречается реже, чем во 2 пункте
7 Взвешивание термина 1. Частота термина: tf – количество вхождений термина в документ 2. Документная частота: df – количество документов, содержащих термин 3. Обратная документная частота Решение: t -> tf × idf
8 Ранжирование Необходимо определить 10 лучших результатов Как это сделать?
9 Ранжирование CosineScore(q) float Scores[N]=0 Инициализация Length[N] for each термина запроса do вычисляем w t, q for each пары (d, tf t, d ) do Scores[d]+=wf t, d × w t, q for each d do Scores[d] = Scores[d] / Length[d] return 10 лучших
10 Проблема Некоторые документы имеют метаданные либо разбиты на части (заголовок, автор, …) Как учесть эти данные при ранжировании?
11 Параметрические и зонные индексы поля метаданных зоны метаданных Дата создания Формат документа Название документа Аннотация
12 Индексирование полей Для каждого поля – один параметрический индекс Для такого индексирования используются B-деревья
13 Индексирование зон Для каждой зоны можно создать стандартный инвертированный список документов, в которых встречается это слово
14 Но зоны можно представлять в виде словопозиций «Найти документы, в которых слово William встречается в названии документа и в списке авторов»
15 Взвешенное зонное ранжирование «Information» Всего 3 зоны: author, title, body. вес ВЗР определяется как соответствие между q и k-ой зоной Если «Information» входит только в title и body, то релевантность документа равна
16 Вычисление весов на основе машинного обучения 1.Имеем множество обучающих примеров, состоящий из a)q j b)d j c)r(q j,d j ) Каждому документу дается значение релевантности вручную(r)
17 2. Веса определяются на основе обучение на этих примерах Вводим функцию Цель: найти g на основе машинного обучения Вычисление весов на основе машинного обучения
18 Все ошибки суммируются. Так что теперь задача состоит в том, чтобы минимизировать эту ошибку путем выбора g.
19 Заключение -Модель векторного пространства -Методы ранжирования -Определение весов на основе машинного обучения
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.