Анализ неявных предпочтений интернет-пользователей поисковой системы Агеев М.С. Лаборатория анализа информационных ресурсов НИВЦ МГУ им.М.В.Ломоносова
Mikhail Ageev Dmitry LagunEugene Agichtein
Анализ поведения пользователей поисковых систем Современное состояние Клики (переходы по ссылкам) – ключевой фактор ранжирования документов в результатах поиска, показа рекламы и рекомендации новостей Цель исследования Улучшение характеристик поисковой системы путем учета новых поведенческих сигналов Мотивация В процессе просмотра web-страниц пользователь совершает действия, которые можно регистрировать через JavaScript API (MouseMove, Scroll, Text Typing, Text Selection) Как эту информацию использовать?
Исследование неявных предпочтений пользователей по движениям мыши Движения мыши похожи на траекторию зрачка глаза Ключевые вопросы: – Как собрать данные? – Как по движениям мыши понять, что именно заинтересовало пользователя на странице? – Как это использовать на практике? Проблемы: – Объем данных – Разные устройства ввода – Разные привычки пользователей
Методика сбора данных UFindIt: онлайн-игра «найди ответ на вопрос в интернете» – Протоколирование: HTTP Reverse Proxy + JavaScript – Участники: Amazon Mechanical Turk
Предсказание фрагментов документов, заинтересовавших пользователя – 6 поведенческих факторов Длительность нахождения курсора мыши над фрагментом … рядом с фрагментом (±100px) Средняя скорость курсора мыши над фрагментом … рядом с фрагментом Время показа фрагмента в видимой части окна просмотра (scrollbar) Время показа фрагмента в середине окна просмотра – Предсказание вероятности интересного фрагмента – Метод машинного обучения: GBRT
Алгоритм быстрой кластеризации похожих по форме траекторий мыши, фильтрация шума
Улучшение поисковых аннотаций (сниппетов) Добавляем в сниппет фрагменты, которые заинтересовали пользователей, задававших тот же запрос ранее Улучшение характеристик сниппета: удобочитаемости, информативности и соответствия запросу
Публикации Mikhail Ageev, Qi Guo, Dmitry Lagun, and Eugene Agichtein. Find it if you can: a game for modeling different types of web search success using interaction data. // In Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval (SIGIR '11). - ACM, New York, NY, USA, pp (SIGIR 2011 Best Paper Award, Scopus, 34 цитирования в Google Scholar) Mikhail Ageev, Dmitry Lagun, and Eugene Agichtein. Improving Search Result Summaries by Using Searcher Behavior Data. // In Proceedings of the 36th Int. ACM SIGIR conference on Research and development in Information Retrieval (SIGIR '13). - ACM, New York, NY, USA, pp (SIGIR 2013 Best Paper Award Shortlisted Nominee, Scopus) Dmitry Lagun, Qi Guo, Mikhail Ageev, and Eugene Agichtein. Discovering Common Motifs in Cursor Movement Data for Improving Web Search Ranking. // In Proceedings of the 7th ACM International Conference on Web Search and Data Mining. ACM, New York, NY, USA. (WSDM 2014 Best Student Paper Award, Scopus) Mikhail Ageev, Dmitry Lagun, and Eugene Agichtein. The Answer is at your Fingertips: Improving Passage Retrieval for Web Question Answering with Search Behavior Data. // In Proceedings of the international ACL SIGDAT conference on Empirical Methods in Natural Language Processing (EMNLP 2013) - ACL, Stroudsburg, PA, USA, pp Агеев М.С. Ранжирование документов по запросу на основе лога действий пользователей поисковой системы // Вычислительные методы и программирование Т С