Методы предварительной обработки данных для алгоритма Клейнберга А. Корявко И. Некрестьянов

Презентация:



Advertisements
Похожие презентации
Инновации в автоматизации продвижения сайтов Хиврин Николай Николаевич Генеральный директор ALTWeb Group
Advertisements

Важность структурирования информации сайта Карпович Сергей Руководитель SEO Деловой Мир Онлайн.
Обнаружение структурного подобия HTML-документов И. Некрестьянов Е. Павлова
Оптимизируя сайт, думай о пользователях. 31 марта 2011г. Рахимьянов Артур Компания Матрица.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
© ElVisti Лекция 8 Ранжирование результатов поиска Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Ранжирование документов в поисковых машинах Сергей Людкевич, руководитель департамента Интернет-маркетинга.
Факторы ранжирования Яндекса Сергей ЛЮДКЕВИЧ, начальник отдела аналитики.
Бесплатное продвижение возможно, или внутренняя оптимизация сайта. Якимов Василий телефон:
Информационный поиск в Интернете Павел Морозов
Поиск информации. Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноармейск 2009 г.
ИСПОЛЬЗОВАНИЕ ВОЗМОЖНОСТЕЙ ЯЗЫКА ЗАПРОСОВ ЯНДЕКСА ДЛЯ ИССЛЕДОВАТЕЛЬСКИХ ЗАДАЧ Сергей ЛЮДКЕВИЧ, начальник отдела аналитики.
«Контекстная реклама как инструмент повышения продаж» Тел.: 8(412) Сайт: citrus-online.ru.
Анализ данных Кластеризация. План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать.
Расширение представления документов при поиске в Веб Владимир Иванов, Игорь Некрестьянов, Надежда Пантелеева Санкт-Петербургский Государственный Университет.
Работа с базой данных РЖ ВИНИТИ on-line Руководство пользователя научной библиотеки ВятГУ Киров, 2008.
Николай Хиврин Генеральный директор ALTWeb Group Алгоритмы автоматизированного составления семантического ядра.
Алгоритм Page Rank Тверь, 2012г.. Page Rank был представлен и опубликован Сергеем Брином и Ларри Пейджем на 7ой международной конференции World Wide Web.
Проект «Научный архив» декабрь 2014 – декабрь 2016.
Изучение алгоритмов поисковых систем с помощью автоматизированной системы комплексной аналитики Евгений Трофименко Начальник отдела исследований и аналитики,
Транксрипт:

Методы предварительной обработки данных для алгоритма Клейнберга А. Корявко И. Некрестьянов

Зачем нужно ранжировать? Большой объем доступной информации. Низкая селективность запросов пользователей. Нежелание пользователей тратить время на анализ результата.

Источники информации Содержимое документа – Совсем не работают для коротких запросов Поведение других пользователей (DirectHit) – Плохо масштабируемо по числу запросов Структура Веб – Глобальные (PageRank) – Локальные (алгоритм Клейнберга - HITS)

Тематические сообщества Сообщество - множество страниц близкой тематики, где со страницы большая часть ссылок ведет на другие страницы этого же сообщества Роли страниц - первоисточники и посредники

Подход Клейнберга Как считать ранг? Первоисточник ценнее, если на него ссылаются авторитетные посредники Посредник лучше, если он цитирует хорошие первоисточники Где считать ранг? Окрестность тех страниц, которые надо ранжировать

BaseSet RootSet Алгоритм Клейнберга 1. Находим множество страниц для ранжирования 2. Строим их окрестность (BaseSet) 3. Итеративно вычисляем ранги A=S T H; H=SA

Достоинства и недостатки Учитывает тематический контекст (зависит от запроса пользователя) Может найти новые результаты (высоко ранжированные страницы не из RootSet) Проблема смещения тематики (неудачный BaseSet)

Модификации HITS Модификация исходного набора данных Модификация метода вычисления рангов (использование иерархической структуры документа) Анализ неглавных тематических сообществ

Рассматриваемые методы предварительной обработки Постраничная обработка – Близость к исходному запросу – Тематическая близость к RootSet Обработка на уровне отдельных ссылок – Удаление внутридоменных ссылок – Тематическая схожесть страниц Итеративные методы – Сокращение – Уточнение

Набор данных Базовая поисковая система – Яндекс Запрос|RootSet||BaseSet| атеизм электронные библиотеки русский tex программирование crack ленинград

Критерии оценки качества Релевантность страниц - g(d) – Автоматическая оценка (tfidf) – Экспертная оценка (от 0 до 1, шаг 0.1) Оценка ранжирования – Совокупная выгода – Обесцениваемая совокупная выгода Характеристики матрицы

Результаты для запроса атеизм МетодАвтоматический выбор Экспертная оценка Главний вектор ||S|| M0 34( )35( ) M2 0( )8( ) M3 49( )17( ) M1+M3 15( )24( ) M3+M4 12( )

Результаты для запроса атеизм M3 – отсутствие корреляции. M2, M3+M4 – есть корреляция. M1+M3 – хорошее главное сообщество.

Результаты итеративных подходов После второй итерации получен лучший результат Улучшается качество главного сообщества Нет сходимости

Типы сообществ Гетерогенные Сайт с посредниками сам не содержит полезной информации Первоисточники – конкуренты и друг на друга не ссылаются Гомогенные Сайты содержат и оригинальные материалы, и подборки ссылок

Дальнейшие планы Расширение набора тестовых запросов Удаление ссылок по результатам выявления шаблонов оформления страниц Критерий завершения итеративных подходов Исследование гомогенных сообществ Применение теории возмущений для формального анализа стабильности