Исследование регламентируемых фрагментов российского Веба Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с. Институт прикладных математических исследований.

Презентация:



Advertisements
Похожие презентации
База данных внешних гиперссылок Гостевой вход: guest/guest.
Advertisements

Математические модели согласованного поведения малых Интернет-сообществ Печников А.А., Чуйко Ю.В. Институт прикладных математических исследований Карельского.
Являются ли сайты конференций RCDL научными веб-коммуникаторами? Печников Андрей Анатольевич Луговая Наталья Борисовна Институт прикладных математических.
СТРУКТУРНЫЕ ИССЛЕДОВАНИЯ НАУЧНОГО ВЕБА Печников Андрей Анатольевич Луговая Наталья Борисовна Институт прикладных.
Исследование строения и динамики развития научного веб-пространства на примере СО РАН Клименко О.А. Петров И.С. Новосибирск, 30 ноября - 3 декабря 2010.
Спецкурс СДМ 01 «Технологии специализированных баз данных для вебометрических исследований» Лектор: Печников Андрей Анатольевич, ведущий научный сотрудник.
Модуль анализа и планирования содержания учебных курсов для LCMS 1С:Электронное обучение. Конструктор курсов И. О. Семенов, Г. С. Сиговцев Петрозаводский.
Пользовательский курс Задания из ЕГЭ – 3, 5, 7, 12, 15.
Графы Волновой метод. Задание графов Пусть граф задан графически. Составить матрицу смежности и матрицу инцидентности для этого графа
«Создание информационной системы, обеспечивающей разработку типологии субъектов Российской Федерации для целей проведения образовательной политики с учетом.
Алгоритмы на графах Волновой метод. Постановка задачи Постановка задачи. Пусть G – неориентированный связный граф, а и b – две его вершины. Требуется.
Алгоритмы на графах Волновой метод. Постановка задачи Постановка задачи. Пусть G – неориентированный связный граф, а и b – две его вершины. Требуется.
Минэкономразвития России «Динамика степени доступности информации о деятельности федеральных органов исполнительной власти, публикуемой на официальных.
Теория игр Теория игр – это совокупность математических методов анализа и оценки конфликтных ситуаций. Задача теории игр состоит в выборе такой линии поведения.
Задачи поддержки принятия решений (ЗПР) Задачи принятия решений – НПС 1. Детерминированные ЗПР2. ЗПР при неконтролируемых параметрах 2.1. Совпадающая информированность.
Теория графов Алгоритмы на графах. Медиана графа Медиана вершина графа, у которой сумма кратчайших расстояний от неё до вершин графа минимальная возможная.
V-множество вершин, E- множество ребер Граф - G(V, Е). Л. Эйлер 1736 г. G(V, Е, f) V,E – множества, отображение инциденции f: Е V&V множества Е в V&V Основы.
Теория графов Основные определения. Задание графов Графический способ – Привести пример графического задания графа, состоящего из вершин А, В и С, связанных.
Интернет-технологии – составная часть информатизации сельского хозяйства и аграрной науки В.И. Меденников, доктор технических наук, заведующий отделом.
Введение в теорию графов. ЗАДАЧА ПРОКЛАДКИ КОММУНИКАЦИЙ
Транксрипт:

Исследование регламентируемых фрагментов российского Веба Печников Андрей Анатольевич, к.ф.-м.н., ст.н.с. Институт прикладных математических исследований Карельского научного центра РАН

2 Регламентируемый веб-ресурс - это веб-ресурс, для которого существует (должен существовать) нормативный документ, в котором изложены цели, задачи, основные структурные составляющие, правила обновления, добавления и изменения информации веб-ресурса. Целевое множество - задаваемое прямым перечислением множество регламентируемых сайтов. Сопутствующее множество - множество сайтов, не входящих в целевое множество, на которые существуют гиперссылки с сайтов целевого множества. Фрагмент Веба - объединение сайтов целевого и сопутствующего множеств и множество связывающих их гиперссылок. 2

3 Объекты исследований : академический фрагмент Веба (целевое множество – официальные сайты научных учреждений РАН); университетский фрагмент Веба (целевое множество – официальные сайты классических университетов РФ); бюрократический фрагмент Веба (целевое множество – официальные сайты органов государственной власти Республики Карелия). 3

Информационная система для вебометрических исследований: 1.Робот-сборщик гиперссылок 2.База данных Операции, функции, фильтры БД ВИ: Разработаны около 20 штук по мере возникновения необходимости. Первая – ВЫБОРКА,.... затем – ССЫЛКИ НА ЗАДАННЫЙ САЙТ, ССЫЛКИ С ЗАДАННОГО САЙТА, СОПУТСТВУЮЩЕЕ МНОЖЕСТВО,.... МАТРИЦА СМЕЖНОСТИ,..... И т.д. 4

5 Академический Веб: 288 сайтов целевого множества, отсканированы все, 2,190,000 страниц, обнаруженных ссылок – 720,000, из них уникальных Из сайтов сопутствующего множества отсканировано 2300, обнаруженных ссылок – 1,100,000, из них уникальных уровень, откуда, зачем, куда Пример Уникальная гиперссылка – это ссылка из множества всех гиперссылок, имеющих одинаковый контекст и адрес целевой страницы, сделанная со страницы с наивысшим уровнем.

6 Много ссылок – с 10 и более сайтов из T, Мало – менее, чем с 10 сайтов из T. На примере академического Веба

Диаграмма академического Веба Дробь N/R обозначает количество сайтов, входящих в данное подмножество ( N ) и среднее количество уникальных гиперссылок, сделанных на сайты этого подмножества с целевого множества ( R ).

Вывод 1: слабая связность на целевом множестве Максимальная компонента сильной связности содержит 175 сайтов и имеет диаметр, равный 6 (вершины более темного цвета), а каждая из остальных 113 состоит из единственной вершины (более светлые вершины).

Прикладные проблемы управления макросистемами Академические коллекторы (17) 1РФФИ1029 2Научная электронная библиотека621 3ВАК443 4Московский государственный университет334 5МАИК Наука_Интерпериодика532 6Роснаука РФ263 Примеры: Сайты-коммуникаторы академического Веба Академические посредники (8) 1Новосибирский государственный университет2710 2Отделение ГПНТБ СО РАН2314 3Междисциплинарный научный сервер Московский физико-технический институт2213 5Библиотека по естественным наукам РАН Новосибирский государственный технический университет1610 Академические индукторы (8) 1Все о геологии824 2Общероссийский математический портал813 3Портал для аспирантов717 4Библиотека Академии Наук620 5Исторический факультет МГУ619 6Издательство СО РАН620

Вывод 2 : ценность коммуникаторов При добавлении коллекторов: мощность максимальной компоненты связности увеличивается до 214. При добавлении индукторов: мощность максимальной компоненты связности увеличивается до 190. При добавлении посредников: мощность максимальной компоненты связности увеличивается до 191. При добавлении всех трех подмножеств коммуникаторов: мощность максимальной компоненты связности увеличивается до 237. Во всех четырех случаях диаметр наибольшей компоненты связности становится равным 7.

11 Пример взвешенного веб-графа для 4 сайтов. Граф – сильно связный. Дуги имеют различные веса. d(i,t) – длина кратчайшего пути из вершины i в вершину t в графе G( T,Е), где i,t T. Критерий доступности сайта t на множестве T - средняя длина пути в заданную вершину t T из любой вершины i T, it, которая задается следующим образом: На примере для вершины 1: midd(1)=(1+3+1)/3=5/3. Далее будем использовать просто сумму, а не среднюю сумму, т.к. это не влияет на результат. Задача дележа затрат (1)

12 Вариант 2. сайтmidd(i)midd hub (i) выигрыш v(i) Задача дележа затрат (2)

13 Вариант 3. Кооперативные игры. Вектор Шепли принцип оптимальности распределения выигрыша между игроками в задачах теории кооперативных игр. Представляет собой распределение, в котором выигрыш каждого игрока равен его среднему вкладу в благосостояние тотальной коалиции при определенном механизме ее формирования. Задача дележа затрат (3)

14 На нашем примере сайтmidd(i) (i) выигрыш w(i) 154,670, ,837,17 392,676, ,838,17 выигрыш v(i) Вар 2 выигрыш w(i) Вар 3 14,55%0,331,50% 731,82%7,1732,59% 313,64%6,3328,77% 1150,00%8,1737,14% Задача дележа затрат (4)

Пусть n – количество участников, c i – значимость i-го участника, c i >0, i=1..n, m i – максимально возможное количество прямых ссылок от i-го на других участников, m i >0, i=1..n. Матрица ссылок X=(x ij ), i,j=1..n, где x ij =1, если существует ссылка от i-го участника к j-му, и x ij =0, если нет. Ограничения будут определены несколько ниже. F(X) функция, характеризующая некоторый интегральный показатель значимости всех участников веб-системы и зависящая от того, каким образом расставлены ссылки между ее участниками. Функция приращения значимости: – чем больше ссылок на ресурс, тем он становится «значимее», – чем больше значимость ресурса i, тем больше возрастает значимость ресурса j, если x ij =1, – чем больше исходящих ссылок от ресурса i, тем меньше приращение значимости каждого ресурса j, для которого x ij =1. Задача расстановки ссылок в локализованной системе веб-ресурсов (1)

Ограничения Целевая функция 1 Чем меньше, тем больше Целевая функция 2 Задача расстановки ссылок в локализованной системе веб-ресурсов (2)

Задача расстановки ссылок в локализованной системе веб-ресурсов (3) Апробация и модификация моделей на данных Яндекса ограничение заменено на строгое равенство, в качестве приняты значения тИЦ, отобрано 20 реальных сообществ, содержащих от 7 до 84 участников. По модели 1: Религия. Православие, Баннерная сеть Ket.Ru, Министерства РФ, Сайты КарНЦ РАН (0.905), Целлюлозно-Бумажная Баннерная Сеть По модели 2: Сайты КарНЦ РАН, Министерства РФ, Баннерная сеть Ket.Ru, Религия. Православие, Целлюлозно-Бумажная Баннерная Сеть., Задача расстановки ссылок в локализованной системе веб-ресурсов (3)

18