Региональное ранжирование в эпоху MatrixNet Сергей ЛЮДКЕВИЧ, начальник отдела аналитики
ОБУЧАЮЩАЯ ВЫБОРКА Набор запросов q (i) Набор документов d j (i) для каждого запроса q (i) Rel(q (i), d j (i) ) - ручная оценка соответствия документа запросу (выполняется асессорами) Конкурс «Интернет-математика – 2009»: Rel(q, d) - значения из диапазона [0, 4] (4 – «высокая релевантность»,…, 0 – «нерелевантно»)
ФАКТОРЫ РАНЖИРОВАНИЯ Набор факторов ранжирования F = (f 1 (q,d), …, f N (q,d)) Базовые факторы – 420 (апрель 2010) Производные факторы (произведения базовых факторов) – несколько тысяч
ФУНКЦИЯ РЕЛЕВАНТНОСТИ Числовое соответствие документа запросу Fr(q, d) = Fr(F(q,d)) = Fr(f 1 (q,d), …, f N (q,d)) Метод построения функции релевантности в релизе «Снежинск»: Жадный (greedy) алгоритм MatrixNet Подробнее о MatrixNet:
МАШИННОЕ ОБУЧЕНИЕ Обучающие данные (q (i), d j (i) ), i=1,…,n; j=1,…m(n). Определение значений факторов Асессоры Обучающий алгоритм Ранжирующий алгоритм F(q (i), d j (i) ) Rel(q (i), d j (i) ) Fr(F(q,d)) Тестовые данные (q, d j ), j=1,…,m Fr(F(q, d j )) Определение значений факторов F(q, d j )
РЕГИОНАЛЬНЫЕ ФОРМУЛЫ Отдельные функции релевантности: Москва Санкт-Петербург + Екатеринбург + 16 городов России релиза «Арзамас+16»: Новосибирск, Самара, Воронеж и др. Украина Белоруссия Казахстан Общероссийская + все остальные города России + остальные зарубежные страны + выдача без учета региона (Земля)
ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Запросные длина запроса в словах; коммерциолизированность запроса. Текстовые наличие точного вхождения запроса в тексте документа; наличие точного вхождения запроса в заголовке документа; tf*idf; различные модификации формулы Okapi_BM25.
ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Ссылочные статические PageRank; ТИЦ; количество ссылок на документ. Ссылочные динамические процент ссылок на документ, содержащих точное вхождение запроса; tf*idf по текстам ссылок.
ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Свойства документа и сайта это важный сайт (Wikipedia); это главная страница сайта; порнографичность контента. Антиспамовые содержит ли попандеры или кликандеры; естественность текста; уникальность контента.
ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Поведенческие посещаемость сайта; кликабельность документа в выдаче. Региональные совпадение региона запроса и документа; региональность ссылок на документ; употребление названия региона в тексте документа и в тексте ссылок на документ.
УЛУЧШЕНИЕ РЕГИОНАЛЬНЫХ ФАКТОРОВ РАНЖИРОВАНИЯ Присвоение сайту данного региона Получение входящих ссылок с сайтов данного региона Употребление названия данного региона в тексте документа Употребление названия данного региона в текстах входящих ссылок на документ
Спасибо за внимание! Для продолжения темы посетите , Россия, Москва, ул. Б. Тульская, д. 13, 4-й этаж ТЦ «Ереван Плаза» Телефон: (495) (многоканальный)