Алгоритм построения оценок весов интентов для многозначных запросов Артём Григорьев 445-ая группа Кафедра Системного программирования Математико-механический.

Презентация:



Advertisements
Похожие презентации
Санкт - Петербургский Государственный Университет Математико - механический факультет Кафедра системного программирования Система проверки данных на полноту.
Advertisements

Проверка эквивалентности срединной и линейной осей многоугольника Дипломная работа студента 545 группы Подколзина Максима Валериевича Санкт-Петербургский.
Поиск путей в сложных полигонах для динамических систем реального времени. Работа Порошина И.А., 544 гр. Научный руководитель Уфнаровский В.В. Рецензент,
Инструмент анализа пользовательских логов поисковых систем Руководитель: к. ф.-м. н. Лидия Грауэр Курсовая работа студента 4 курса Андрея Солозобова.
Разработка кроссплатформенного приложения для кластерного анализа данных на основе рандомизированных алгоритмов Дипломная работа студента 544 группы Морозкова.
Поддержка избыточного кодирования. Оптимизация, настройка и аппробация выбранного алгоритма под поставленную задачу. Оценка полученных результатов Мальчевский.
1.3. Марковские процессы. Определение и примеры Время t Состояние E Если вероятность перехода в новое состояние не зависит от предыстории, случайный процесс.
Темы курсовых работ кафедры системного анализа Ярмарка курсовых работ УГП им. А.К.Айламазяна, осень
Информационный поиск в Интернете Павел Морозов
ПОТОКО-ЧУВСТВИТЕЛЬНЫЙ АНАЛИЗ УКАЗАТЕЛЕЙ ЯЗЫКА С, ОСНОВАННЫЙ НА ДИАГРАММАХ ДВОИЧНЫХ РЕШЕНИЙ Санкт-Петербургский Государственный Университет Математико-Механический.
Параллельные алгоритмы для симплициального подразделения области с итерационным измельчением вблизи границы Кафедра параллельных алгоритмов Математико-Механический.
Две задачи физики нейтрино студента 607 группы А. В. Лохова. Научный руководитель доктор физ.-мат. наук, профессор А. И. Студеникин. Резенцент доктор физ.-мат.
Анализ и предсказание пользовательской активности САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Математико-механический факультет Кафедра системного.
Генерация скрипта создания базы данных с учетом зависимостей Автор : Максим Масунов, 545 группа Санкт - Петербургский государственный университет Математико.
Санкт-Петербургский Государственный Университет Математико-механический факультет Кафедра системного программирования Курсовая работа студентки 361 группы.
Санкт-Петербургский Государственный Университет Математико-механический факультет Кафедра системного программирования Научный руководитель: Б.А. Новиков.
Алгоритм приближённого joinа на потоках данных Выполнил : Юра Землянский, 445 группа Научный руководитель : Б.А. Новиков СПб, 2011 Санкт-Петербургский.
Курсовая работа студента 345 группы Чуновкина Фёдора Дмитриевича Научный руководитель: Бондарев А.В. Санкт-Петербургский Государственный Университет Математико-механический.
САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Математико-механический факультет Кафедра системного программирования Автоматизация выбора оптимальной.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ Белорусский государственный университет Факультет прикладной математики и информатики Кафедра математической.
Транксрипт:

Алгоритм построения оценок весов интентов для многозначных запросов Артём Григорьев 445-ая группа Кафедра Системного программирования Математико-механический факультет СПбГУ Научный руководитель: к. ф.-м. н. Грауэр Л.В. ООО «Яндекс»

Предметная область Многозначный запрос – запрос, по которому возможны несколько пользовательских интентов (намерений пользователя). Примеры: ягуар, наполеон, титаник… IA-метрики (intent-aware) – метрики качества поиска, учитывающие различные интенты по многозначным запросам. 2

3 Сейчас: Расчёт весов для IA-метрик производится вручную. Асессоры получают небольшой набор случайных сессий, должны определить по сессии интент. Доля сессий с данным интентом = вес. Минусы: ограниченные возможности асессоров, => малое количество сессий по запросу, редкие обновления. Задача: Придумать и реализовать алгоритм, вычисляющий по заданному на вход запросу набор пользовательских интентов и оценки их весов. Постановка задачи

Алгоритм Формирование множества связанных запросов Кластеризация Построение графа запросов и документов Случайное блуждание по графу Кластеризация по векторам предельных вероятностей документов Распределение сессий по кластерам и расчёт весов 4

Построение графа Вершины – запросы (Q) и документы (D) Рёбра: Q 1 -> Q 2 (вес = вероятность переформулировки) Q -> D (вес = вероятность клика) Петли D -> D (вес = 1) Полученный граф – марковская цепь Документы – конечные состояния 5

Результаты Разработан алгоритм 65% наборов интентов найдено полностью 94% без одного интента Ошибки в точности в среднем

Дальнейшая работа Создание полуавтоматической системы проверки точности и полноты «Правильная» фильтрация «мусорных» данных Использование лингвистических данных при распределении сессий по кластерам Определение интентов из коротких, малоинформативных сессий Другие алгоритмы кластеризации и функции сходства 7