Алгоритм построения оценок весов интентов для многозначных запросов Артём Григорьев 445-ая группа Кафедра Системного программирования Математико-механический факультет СПбГУ Научный руководитель: к. ф.-м. н. Грауэр Л.В. ООО «Яндекс»
Предметная область Многозначный запрос – запрос, по которому возможны несколько пользовательских интентов (намерений пользователя). Примеры: ягуар, наполеон, титаник… IA-метрики (intent-aware) – метрики качества поиска, учитывающие различные интенты по многозначным запросам. 2
3 Сейчас: Расчёт весов для IA-метрик производится вручную. Асессоры получают небольшой набор случайных сессий, должны определить по сессии интент. Доля сессий с данным интентом = вес. Минусы: ограниченные возможности асессоров, => малое количество сессий по запросу, редкие обновления. Задача: Придумать и реализовать алгоритм, вычисляющий по заданному на вход запросу набор пользовательских интентов и оценки их весов. Постановка задачи
Алгоритм Формирование множества связанных запросов Кластеризация Построение графа запросов и документов Случайное блуждание по графу Кластеризация по векторам предельных вероятностей документов Распределение сессий по кластерам и расчёт весов 4
Построение графа Вершины – запросы (Q) и документы (D) Рёбра: Q 1 -> Q 2 (вес = вероятность переформулировки) Q -> D (вес = вероятность клика) Петли D -> D (вес = 1) Полученный граф – марковская цепь Документы – конечные состояния 5
Результаты Разработан алгоритм 65% наборов интентов найдено полностью 94% без одного интента Ошибки в точности в среднем
Дальнейшая работа Создание полуавтоматической системы проверки точности и полноты «Правильная» фильтрация «мусорных» данных Использование лингвистических данных при распределении сессий по кластерам Определение интентов из коротких, малоинформативных сессий Другие алгоритмы кластеризации и функции сходства 7