Особенности регионального ранжирования Яндекса. Украинская формула Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики
ТЕКУЩИЙ АЛГОРИТМ. МАШИННОЕ ОБУЧЕНИЕ Обучающие данные Набор запросов q (i) Набор документов d j (i) для каждого запроса q (i) Rel(q (i), d j (i) ) - ручная оценка соответствия документа запросу Конкурс «Интернет-математика – 2009»: Rel(q, d) - значения из диапазона [0, 4] (4 – «высокая релевантность»,…, 0 – «нерелевантно»)
ФАКТОРЫ РАНЖИРОВАНИЯ Набор факторов ранжирования F = (f 1 (q,d), …, f N (q,d)) Конкурс «Интернет-математика – 2009»: N=245 «Яндекс на РОМИП2009»: N=163 (коллекция BY.WEB); N=69 (коллекция KM.RU, без ссылочных факторов)
ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Запросные длина документа в словах; язык запроса. Текстовые наличие точного вхождения запроса в тексте документа; наличие точного вхождения запроса в заголовке документа; tf*idf; различные модификации формулы Okapi_BM25.
ПРИМЕРЫ ФАКТОРОВ РАНЖИРОВАНИЯ Ссылочные PageRank; логарифм количества ссылок на документ; процент ссылок на документ, содержащих точное вхождение запроса. Географические регион сайта; язык документа.
ФУНКЦИЯ РЕЛЕВАНТНОСТИ Числовое соответствие документа запросу Fr(q, d) = Fr(F(q,d)) = Fr(f 1 (q,d), …, f N (q,d)) Построение функции релевантности с помощью генетических алгоритмов: 1. Выбор метрики («Яндекс на РОМИП2009»: pfound – максимизация вероятности найти релевантный результат) 2. Подбор вида функции («Яндекс на РОМИП2009»: полином a I f 1 i 1 f 2 i 2 … f N i N ) 3. Подбор коэффициентов
СХЕМА ОБУЧАЮЩЕГО АЛГОРИТМА Обучающие данные (q (i), d j (i) ), i=1,…,n; j=1,…m(n). Определение значений факторов Асессоры Обучающий алгоритм Ранжирующий алгоритм F(q (i), d j (i) ) Rel(q (i), d j (i) ) Fr(F(q,d)) Тестовые данные (q, d j ), j=1,…,m Fr(F(q, d j )) Определение значений факторов F(q, d j )
РЕГИОНАЛЬНЫЕ ФОРМУЛЫ Отдельные функции релевантности: 19 городов России: Москва, Санкт-Петербург, Екатеринбург, Новосибирск и др. Общероссийская Украина Белоруссия Казахстан Отличаться могут не только коэффициенты, но и сам вид функций!
ИССЛЕДОВАНИЕ ФУНКЦИИ РЕЛЕВАНТНОСТИ Постановка эксперимента Выбор исследуемого фактора Генерация тестовых коллекций Варьирование исследуемого фактора Фиксация остальных факторов Индексация тестовых коллекций Анализ результатов Принятие решения о характере влияния исследуемого фактора на функцию релевантности
УКРАИНСКАЯ ФОРМУЛА Фактор: Количество употреблений термина запроса (tf) Характер зависимости: Прямая Фактор: Длина документа в словах Характер зависимости: Обратная Фактор: Количество употреблений самого частотного термина Характер зависимости: Обратная
Спасибо за внимание! Пожалуйста, задавайте вопросы Для продолжения темы посетите Корпорация РБС , Россия, Москва, ул. Б. Тульская, д. 13, 4-й этаж ТЦ «Ереван Плаза» Телефон: (495) (многоканальный) ICQ-консультант: | | |