Информационно-поисковые системы. Сычев А.В. 2006 г. 1 Анализ гиперссылок при информационном поиске в Веб Воронежский государственный университет Факультет.

Презентация:



Advertisements
Похожие презентации
Информационно-поисковые системы. Сычев А.В г. 1 Спамдексирование Воронежский государственный университет Факультет компьютерных наук Кафедра информационных.
Advertisements

Алгоритм Page Rank Тверь, 2012г.. Page Rank был представлен и опубликован Сергеем Брином и Ларри Пейджем на 7ой международной конференции World Wide Web.
Информационно-поисковые системы. Сычев А.В г.1 Контекстно- сфокусированный поиск Воронежский государственный университет Факультет компьютерных наук.
Информационный поиск в Интернете Павел Морозов
Информационно-поисковые системы. Сычев А.В. 1 Самоорганизация в сети Веб Воронежский государственный университет Факультет компьютерных наук Кафедра информационных.
Методы предварительной обработки данных для алгоритма Клейнберга А. Корявко И. Некрестьянов
© ElVisti Лекция 8 Ранжирование результатов поиска Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Некоторые задачи планирования сети магистрального оператора Бутурлин И.А. Российский Университет Дружбы Народов.
3.1. Назначение онтологий. Информационный поиск..
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Построение наукометрического индекса, устойчивого к спаму Докладчик : Александр Пироженко.
НазваниеОписание ОбъектПример, шаблон, наблюдение АтрибутПризнак, независимая переменная, свойство Метка класса Зависимая переменная, целевая переменная,
Поиск информации. Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноармейск 2009 г.
Численные методы линейной алгебры. Методы решений нелинейных уравнений и систем. Лекция 3:
Информационно-поисковые системы. Сычев А.В г.1 Математические модели документального поиска Воронежский государственный университет Факультет компьютерных.
Информационно-поисковые системы. Сычев А.В г. 1 Информационный поиск vs. выборка данных Воронежский государственный университет Факультет компьютерных.
Информатика в школе Расчеты с использование электронных таблиц Обработка числовой информации.
База данных внешних гиперссылок Гостевой вход: guest/guest.
Ачинский район, 2010 г. Районный конкурс педагогических работников – молодых специалистов «ПОЗИТИВ» Богданова Дарья Вячеславовна, учитель информатики МОУ.
Имитация межотраслевых взаимодействий (с) Н.М. Светлов, /17 Лекция 7. Имитация межотраслевых взаимодействий Содержание лекции: 1. Система уравнений.
Транксрипт:

Информационно-поисковые системы. Сычев А.В г. 1 Анализ гиперссылок при информационном поиске в Веб Воронежский государственный университет Факультет компьютерных наук Кафедра информационных систем

Информационно-поисковые системы. Сычев А.В г. 2 Базовые допущения при анализе гиперссылок Допущение о рекомендательности: Если страница содержит ссылку на другую, то тем самым автор первой страницы рекомендует вторую Допущение о тематической локальности: Если страницы связаны между собой гиперссылками, то с большей вероятностью они относятся к той же тематике нежели к разным. Допущение об анкерном описании: Текст связанный с анкерным тэгом ( ) гиперссылки описывает целевой документ, на который указывает гиперссылка. Замечание: гиперссылки могут содержать как дополнительную полезную информацию так и шум (в т.ч. спам)

Информационно-поисковые системы. Сычев А.В г. 3 Алгоритмы анализа гиперссылок Используются для косвенной оценки качества документов и для оптимизации работы сетевого робота. Принято выделять: Методы глобального анализа (независящие от запроса), например PageRank. Методы локального анализа (зависящие от запроса), например HITS.

Информационно-поисковые системы. Сычев А.В г. 4 Алгоритм PageRank Был предложен Сергеем Брином и Ларри Пейджем, использован для ранжирования в ИПС Google. В основу заложена модель случайного блуждания по веб-графу, которая используется для вычисления веса страницы (показатель PageRank) как вероятности ее достижимости. Страница имеет высокий PR (показатель PageRank), если на нее ссылаются страницы с высоким PR.

Информационно-поисковые системы. Сычев А.В г. 5 Модель случайного блуждания: Вначале пользователь случайным образом выбирает веб-страницу Далее на каждом шаге он Либо переходит на другую страницу, выбранную таким же случайным образом с вероятностью d Либо переходит к другой случайно выбранной странице из числа тех, которые связаны с текущей гиперссылками, с вероятностью 1-d Другими словами, средняя доля шагов до страницы a определяется через величину PR(a) Алгоритм PageRank

Информационно-поисковые системы. Сычев А.В г. 6 Расчет коэффициента PageRank Коэффициент PR для текущей веб страницы a рассчитывается по формуле: где n – количество страниц в веб-графе G C(b) – количество исходящих ссылок со страницы b D – коэффициент настройки, выбирается в пределах от 0.1 до 0.2.

Информационно-поисковые системы. Сычев А.В г. 7 Как видно, для вычисления PR(a) требуется рекурсивная процедура, которая продолжается до достижения сходимости (на практике до 100 итераций). Следует иметь в виду, что коэффициенты PR рассчитываются только один раз и не зависят от конкретных запросов. Расчет коэффициента PageRank

Информационно-поисковые системы. Сычев А.В г. 8 Алгоритм HITS Hypertext Induced Topic Search Поскольку короткие запросы приводят к выборке большого множества документов, то в рамках подхода, сформулированного в 1997 г. Кляйнбергом (Kleinberg), было предложено среди всех веб-страниц выделять два особых класса страниц: авторитеты и концентраторы.

Информационно-поисковые системы. Сычев А.В г. 9 Хорошие авторитеты – страницы, которые содержат релевантную информацию (хорошие источники информации). Хорошие концентраторы – страницы, ссылающиеся на нужные страницы (хорошие источники ссылок). Эффект взаимного усиления: Высокая авторитетность происходит из входящих ссылок от хороших концентраторов Хороший концентратор имеет исходящие ссылки на хорошие авторитеты. Авторитеты и концентраторы

Информационно-поисковые системы. Сычев А.В г. 10 Авторитеты и концентраторы Показатель авторитетности a(v) = h(u 1 )+h(u 2 )+h(u 3 ) u1u1 u2u2 u3u3 v Показатель концентрации h(u) = a(v 1 )+a(v 2 )+a(v 3 ) v1v1 v2v2 v3v3 u

Информационно-поисковые системы. Сычев А.В г. 11 На основе ранжированной выборки по запросу пользователя формируется стартовое множество S документов (порядка двухсот первых документов из выданного списка). Путем использования входящих и исходящих ссылок на документы из S строится расширенное множество T документов (не более 50-ти для каждого стартового документа), находящихся на расстоянии 1 ребро от стартовых узлов в веб-графе. Простой учет количества входящих и исходящих ссылок на документы не является эффективным, поэтому далее следует итерационная процедура расчета показателей авторитетности и концентрации для всех узлов множества T. Алгоритм HITS

Информационно-поисковые системы. Сычев А.В г. 12 Процедура расчета весов авторитетности и концентрации Все веса инициализируются значением 1. Повторяется цикл до достижения сходимости: Для узла u рассчитывается вес авторитетности Для узла u рассчитывается вес концентрации После каждой итерации выполняется нормализация весов

Информационно-поисковые системы. Сычев А.В г. 13 Так как алгоритм фактически вычисляет главные собственные векторы двух матриц, то векторы H и A должны сходиться, хотя точное значение числа итераций не известно. На практике вектора сходятся очень быстро. Процедура расчета весов авторитетности и концентрации

Информационно-поисковые системы. Сычев А.В г. 14 Поскольку используется относительно небольшая часть веб-графа, то добавление ребер к нескольким узлам может сильно изменить конечный результат. В большей степени подвержен манипулированию Взаимное усиление между хостами (за счет дочерних страниц) Динамически генерируемые ссылки Возможность попадания нерелевантных, но сильно связанных документов Как следствие - смещение темы Алгоритм HITS Проблемы

Информационно-поисковые системы. Сычев А.В г. 15 Алгоритм HITS Расширения ARC (Automated Resourse Compilation) Расширение стартового подмножества за счет узлов на расстоянии 2 ребер Использование текста анкерных тэгов (и их окружения) при расчете весов SALSA (Stochastic algorithm for link structure analysis).

Информационно-поисковые системы. Сычев А.В г. 16 Различие между PageRank и HITS PageRank вычисляет веса для всех проиндексированных веб-страниц до запросов. HITS применяется только к веб-страницам, выданным по конкретному запросу пользователя. HITS находит авторитеты и концентраторы, PageRank – только авторитеты. PageRank – требует нетривиальных вычислений, HITS – простой алгоритм, но очень затратный по времени вычисления

Информационно-поисковые системы. Сычев А.В г. 17 Литература S.Brin, L.Page "The anatomy of a large-scale hypertextual web search engine". Proc. 7th World Wide Web Conf. (WWW7), p. 107–117. S.Brin, L.Page "The anatomy of a large-scale hypertextual web search engine". Proc. 7th World Wide Web Conf. (WWW7), p. 107–117 L.Page, S.Brin, R.Motwani, T.Winograd. "The PageRank citation ranking: Bringing order to the Web". Stanford, Digital Library Technologies, Working Paper , L.Page, S.Brin, R.Motwani, T.Winograd. "The PageRank citation ranking: Bringing order to the Web". Stanford, Digital Library Technologies, Working Paper , 1998 M. Kleinberg "Authoritative sources in a hyperlinked environment". Journal of the ACM, 46(5):604–632, M. Kleinberg "Authoritative sources in a hyperlinked environment". Journal of the ACM, 46(5):604–632, 1999.

Информационно-поисковые системы. Сычев А.В г. 18 M.Henzinger "Link Analysis in Web Information Retrieval". Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, M.Henzinger "Link Analysis in Web Information Retrieval". Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, A.Borodin, G.O.Roberts, J.S.Rosenthal, P.Tsaparas"Link Analysis and Experiments". ACM Transactions on Internet Technology, Vol.5, No.1, February 2005, P. 231–297. A.Borodin, G.O.Roberts, J.S.Rosenthal, P.Tsaparas"Link Analysis and Experiments". ACM Transactions on Internet Technology, Vol.5, No.1, February 2005, P. 231–297.Литература