Исследование строения и динамики развития научного веб-пространства на примере СО РАН Клименко О.А. Петров И.С. Новосибирск, 30 ноября - 3 декабря 2010 г. XIII РОССИЙСКАЯ КОНФЕРЕНЦИЯ С УЧАСТИЕМ ИНОСТРАННЫХ УЧЕНЫХ "РАСПРЕДЕЛЕННЫЕ ИНФОРМАЦИОННЫЕ И ВЫЧИСЛИТЕЛЬНЫЕ РЕСУРСЫ" (DICR'2010)
Введение Проблема исследования научного веб- пространства является актуальной в связи со стремительным развитием сети интернет и научных ресурсов. В частности, эти исследования позволяют определить научные связи организации, ресурсы, которые наиболее интересны в научном сообществе, направления перспективных исследований.
Веб-пространство Под веб-пространством мы понимаем совокупность документов, представленных в сети Интернет и соединенных ссылками. Веб-пространство - новый тип информационной системы без централизованного контроля, без координированного индексирования содержания. Однако веб-пространство - не хаотическая система, в нем происходит самоорганизация в группы. Связи между документами устанавливаются с помощью ссылок. Изучение этих ссылок позволяет определить устройство веб-пространства.
Обзор текущих исследований Исследования веб-пространства ведутся лабораторией Cybermetrics Lab, которая принадлежит Consejio Superior de Investigaciones Cientificas – крупнейшему исследовательскому центру Испании. Другим центром исследования веб–пространства является Statistical Cybermetrics Research Group, на базе научной школы информационных технологий Вулвергемптонского университета, Великобритания. В России исследования проводятся в Институте прикладных математических исследований Карельского научного центра РАН.
Методы исследования веб-пространства Первый подход заключается в использовании возможностей поисковых машин, таких как Google, Yahoo, и др. Второй подход состоит в анализе данных с помощью методов вебометрики. Третий подход связан с написанием своей программы- крауера, которая путём обхода и анализа всех страниц на заданном множестве сайтов, выявляет связи между элементами множества.
Результаты работы В процессе работы было написано несколько версий краулера. Сначала однопоточная версия, потом многопоточная, где одновременно обрабатываются все сайты. Была разработана структура хранения данных на основе файлов, для экономии ресурсов системы. В последней версии программы учитываются только уникальные гиперссылки. Программа имеет большую точность работы. Краулер находится в стадии тестирования, но уже сейчас им удобно пользоваться, и его может использовать любой исследователь.
Результаты работы На основе собранных данных был построен ориентированный граф взаимосвязей. В этом графе G (V, E) узлы соответствуют организациям. Дуга (u, v) E; u, v V, если существует страница на сайте организации u, на которой находится гиперссылка на сайт организации v. На множестве дуг графа G также определено отображение N E : E N +.
Результаты работы Построены графы взаимосвязей: Всех организаций СО РАН Отдельные графы для каждого из научных центров СО РАН Отдельные графы для каждого из направлений научной деятельности Отдельные графы для интеграционных проектов СО РАН Было выявлено, что некоторые организации взаимно ссылаются друг на друга, другие организации имеют множество исходящих ссылок, третьи изолированы, а четвертые имеют много входящих ссылок, что говорит о ценности информации, размещенной на сайте.
Результаты работы Дополнительную информацию можно извлечь, используя поиск по ключевым словам, которые присутствуют в ссылках и заголовках страниц. На графах ясно видно какие сайты хорошо представлены в сети интернет, а какие слабо. Более того, наглядно видно как сайты различных организаций взаимодействуют друг с другом, и на основе этого можно сделать выводы, что в данный момент взаимодействие организаций СО РАН достаточно слабое.
0
Публикации Клименко О.А., Петров И.С. Исследование строения и динамики развития научного Веб- пространства на примере СО РАН // Труды XVI Байкальской Всеросийской конференции "Информационные и матетматические технологии в науке и управлении". Часть III. - Иркутск: ИСЭМ СО РАН, с.