Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователем2010.sp-ic.ru
1 Региональное ранжирование в эпоху MatrixNet Сергей ЛЮДКЕВИЧ, начальник отдела аналитики
2 ОБУЧАЮЩАЯ ВЫБОРКА Набор запросов q (i) Набор документов d j (i) для каждого запроса q (i) Rel(q (i), d j (i) ) - ручная оценка соответствия документа запросу (выполняется асессорами) Конкурс «Интернет-математика – 2009»: Rel(q, d) - значения из диапазона [0, 4] (4 – «высокая релевантность»,…, 0 – «нерелевантно»)
3 ФАКТОРЫ РАНЖИРОВАНИЯ Набор факторов ранжирования F = (f 1 (q,d), …, f N (q,d)) Базовые факторы – 420 (апрель 2010) Производные факторы (произведения базовых факторов) – несколько тысяч
4 ФУНКЦИЯ РЕЛЕВАНТНОСТИ Числовое соответствие документа запросу Fr(q, d) = Fr(F(q,d)) = Fr(f 1 (q,d), …, f N (q,d)) Метод построения функции релевантности в релизе «Снежинск»: Жадный (greedy) алгоритм MatrixNet Подробнее о MatrixNet:
5 МАШИННОЕ ОБУЧЕНИЕ Обучающие данные (q (i), d j (i) ), i=1,…,n; j=1,…m(n). Определение значений факторов Асессоры Обучающий алгоритм Ранжирующий алгоритм F(q (i), d j (i) ) Rel(q (i), d j (i) ) Fr(F(q,d)) Тестовые данные (q, d j ), j=1,…,m Fr(F(q, d j )) Определение значений факторов F(q, d j )
6 РЕГИОНАЛЬНЫЕ ФОРМУЛЫ Отдельные функции релевантности: Москва Санкт-Петербург + Екатеринбург + 16 городов России релиза «Арзамас+16»: Новосибирск, Самара, Воронеж и др. Украина Белоруссия Казахстан Общероссийская + все остальные города России + остальные зарубежные страны + выдача без учета региона (Земля)
7 ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Запросные длина запроса в словах; коммерциолизированность запроса. Текстовые наличие точного вхождения запроса в тексте документа; наличие точного вхождения запроса в заголовке документа; tf*idf; различные модификации формулы Okapi_BM25.
8 ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Ссылочные статические PageRank; ТИЦ; количество ссылок на документ. Ссылочные динамические процент ссылок на документ, содержащих точное вхождение запроса; tf*idf по текстам ссылок.
9 ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Свойства документа и сайта это важный сайт (Wikipedia); это главная страница сайта; порнографичность контента. Антиспамовые содержит ли попандеры или кликандеры; естественность текста; уникальность контента.
10 ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Поведенческие посещаемость сайта; кликабельность документа в выдаче. Региональные совпадение региона запроса и документа; региональность ссылок на документ; употребление названия региона в тексте документа и в тексте ссылок на документ.
11 УЛУЧШЕНИЕ РЕГИОНАЛЬНЫХ ФАКТОРОВ РАНЖИРОВАНИЯ Присвоение сайту данного региона Получение входящих ссылок с сайтов данного региона Употребление названия данного региона в тексте документа Употребление названия данного региона в текстах входящих ссылок на документ
12 Спасибо за внимание! Для продолжения темы посетите , Россия, Москва, ул. Б. Тульская, д. 13, 4-й этаж ТЦ «Ереван Плаза» Телефон: (495) (многоканальный)
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.