Использование web-метрики для исследования информационного пространства Дальневосточного отделения РАН Наумова В.В., Дальневосточный геологический институт ДВО РАН, г.Владивосток Владивосток, 2011 г.
Научные сайты Наряду с традиционными источниками информации для ученых представляют интерес web -сайты научной тематики. Поиск по этим сайтам открывает перед учеными возможность получения оперативных сведений о научных исследованиях институтов, университетов, научных лабораторий, групп и отдельных ученых. Классификация научных сайтов: Официальные сайты институтов, университетов и научных организаций, научных лабораторий, групп и отдельных ученых; Научные электронные библиотеки, в том числе и сайты научных журналов; Центры хранения данных, научные информационные системы, ГИС- порталы; Научные тематические ресурсы; Научно-популярные ресурсы; Каталоги научных ресурсов.
Доступ к научной информации в глобальной сети Интернет Доступ к информации глобальной сети Интернет для пользователей осуществляется, в основном, с помощью поисковых систем. Наличие высоких рейтинговых оценок для сайта очень важно с точки зрения его более высокой доступности широкой аудитории пользователей Интернет, поскольку рейтинговые оценки используют практически все поисковые системы. Наличие рейтинговых систем для сайтов, разрабатываемых и применяемых крупными поисковиками: Google, Yandex и др. при выдаче результатов поиска пользователям Интернет позволяет пользователям всего мира быстрее находить наиболее качественную и отвечающую запросу информацию. Результаты запросов пользователей сортируются поисковыми машинами и предоставляются пользователям в порядке уменьшения их рейтингов. Таким образом, наличие высоких рейтингов ставит сайт в лучшее положение по отношению к другим сайтам. Одной из важнейших задач Дальневосточного отделения РАН на сегодняшнем этапе является разработка и развитие высоко рейтинговых научных Интернет-ресурсов. Этими исследованиями мы намереваемся дать дополнительный стимул для значительно более профессионального научного присутствия Дальневосточного отделения РАН в Интернет.
WEB-метрика Работа выполнялась методами web-метрики раздела информатики, в котором исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к World Wide Web. Современную web-метрическую методологию исследований сайтов научных организаций мира представляют результаты Киберметрической лаборатории Центра научной информации и документации Национального исследовательского совета Испании. Ranking Web of World Research Centers. В этой же методологии с незначительными изменениями проводится регулярный анализ сайтов Сибирского отделения РАН. Шокин Ю.И., Клименко О.А., Рычкова Е.В., Шабальников И.В. Рейтинг сайтов научных организаций СО РАН // Вычислительные технологии Т С Также можно отметить Вебометрические исследования Web-сайтов университетов России Печников А.А. Вебометрические исследования Web-сайтов университетов России//Информационные технологии, 2008, 11
Подходы и методики Cybermetrics Lab Для построения алгоритмов ранжирования сайтов задаются следующие 4 индикатора: количество уникальных гипертекстовых ссылок с других ресурсов (V – visibility, цитируемость), общее количество страниц сайта (S – size, размер), количество полнотекстовых файлов, под которыми понимаются файлы с расширениями pdf, ps, doc, xls, ppt и rtf (R - "rich files" ), количество статей, размещенных на сайте и их цитирований (Sc – scholar, «научность сайта»). Индикатор S измеряется с использованием поисковых машин Google, Yahoo, Live Search and Exalead, индикатор V - Yahoo Search, Live Search и Exalead, индикатор R – Google, а индикатор Sc - Google Scholar. Результирующие значения для S и V определяются как сумма результатов замеров, причем в первом случае минимальное и максимальное значение отбрасываются. Затем по каждому из критериев сайты ранжируются по убыванию соответствующего параметра. По каждому индикатору производится ранжирование сайтов по убыванию значений соответствующих индикаторов. Для обозначения ранга по заданному индикатору используются обозначения RankV, RankS, RankR и RankSc, соответственно (наивысший ранг равен 1). Интегральный показатель, называемый «вебометрическим рангом» (WR - Webometrics Rank), получается в результате ранжирования суммы рангов, умноженных на коэффициенты: Webometrics Rank (position) = 4*RankV+2*RankS+1*RankR+1*RankSc. Исходя из значений коэффициентов, можно сделать вывод о том, что наибольшая значимость придается размещенным на сайте полнотекстовым файлам, статьям и их цитированию другими сайтами, что соответствует принципам Открытого доступа, когда интернет рассматривается в первую очередь как средство функционального объединения глобальной базы научных знаний [4]. Следующим по значимости является число страниц на сайте, а затем - количество гипертекстовых ссылок на сайт с других ресурсов, позволяющее, по мысли испанских коллег, оценить актуальность и значимость сайта для профессионального сообщества.
Основные задачи проведенного анализа 1.Определение ресурсов, на которых расположены сайты ДВО РАН? 2.Определение web-активности по научным центрам Отделения. 3.Определение web-активности по основным научным направлениям. 4.Анализ временной устойчивости сайтов ДВО РАН. 5.Ранжирование сайтов ДВО РАН на разных множествах: –мировых научных сайтов, –научных сайтах РФ, –сайтах РАН, –сайтах ДВО РАН. 6.Определение свойств и характеристик научных сайтов ДВО РАН, которые определяют их рейтинги в Интернет? 7.Анализ временной динамики сайтов ДВО РАН.
Целевое множество анализа В анализе Информационного пространства ДВО РАН участвовали все сайты, которые были найдены с использованием трех Каталогов ресурсов ДВО РАН, размещенных официальном сайте Президиума ДВО РАН и на двух других ресурсах: Базовой сети ДВО РАН (ИАПУ ДВО РАН) и Информационном сервере Дальневосточного геологического института ДВО РАН В Целевое множество аналиа включены: все сайты, расположенные на доменах второго и третьего уровня, за исключением доменов второго уровня, на которых осуществляется хостинг посторонних для данной организации сайтов: и
Единица анализа Cybermetrics Lab отмечает серьезные проблемы с точным определением того, что понимать под «единицей анализа». Например, многие учреждения поддерживают несколько различных доменных областей. Таким образом, их реальное присутствие в Сети на самом деле должно определяться множеством адресов. Кроме того, различные подразделения одной организации могут иметь собственные Интернет- ресурсы с адресами, не ассоциируемыми поисковыми машинами с адресом основного сайта. Если говорить об Интернет-ресурсах институтов РАН в целом, то они представляют собой сложный информационный комплекс. Как правило, в этом комплексе имеется официальный сайт института, а также независимые сайты лабораторий, научных журналов, электронных библиотек, страницы научных сотрудников, информационные системы, ГИС-порталы, сайты конференций, семинаров, тематические ресурсы и т.д. В описываемом исследовании «единицей анализа» является вся совокупность web-ресурсов института/организации. Нами предложен метод, позволяющий объединять в анализе ресурсы одной организации. Объединением множеств A и B называется множество элементов, принадлежащих по крайней мере одному из данных множеств (т. е. либо A, либо B, либо одновременно и A и B).
Результаты проведенного анализа В данном докладе представлены результаты анализа сайтов Дальневосточного отделения РАН, проведенные автором в 2009 г. и в августе г. Результаты исследования 2009 года представлены в статье: Ханчук А.И, Наумова В.В. Информационное пространство Дальневосточного отделения РАН//Вестник ДВО РАН, 2009, 4, стр
IP-хостинг сайтов ДВО РАН Результаты анализа 2009 г. По оси Х-владельцы IP-хостинга для сайтов Дальневосточного отделения РАН, по оси Y-количество сайтов.
Web-активность по научным центрам Отделения Результаты анализа 2009 г. По оси X – научный центр, по оси Y – кол-во сайтов в научном центре, нормированное на количество институтов в научном центре.
Web-активность по основным научным направлениям Результаты анализа 2009 г. По оси X- научные направления, по оси Y-кол-во сайтов.
Анализ временной устойчивости сайтов ДВО РАН Результаты анализа 2009 г. Продолжительность «жизни» сайтов ДВО РАН. По оси X- номера отсортированных по возрасту сайтов. По оcи Y- возраст сайтов. В Отделении 6 долгоживущих сайтов. Продолжительность их присутствия в Интернет более 10 лет. Это официальный сайт Президиума два сайта ДВГИ: Информационный сервер ДВГИ Региональный портал «Приморский край России» три ТОИ: Официальный сайт ТОИ ИС «Океанография и состояние морской среды Дальневосточного региона России» ТОИ Архив электронных научных публикаций InfoNet ТОИ
Ранжирование, проведенное автором, на множестве научных сайтов ДВО РАН Место в рейтинге Дальневосточного отделения РАН, 2009 г. 1.Дальневосточный геологический институт 2.Базовая сеть ДВО РАН 3.Официальный сайт Президиума 4.Институт экономических исследований 5.Камчатский филиал Тихоокеанского института географии 6.Биолого-почвенный институт 7.Амурская научная сеть 8.Камчатский научный центр 9.Институт морской геологии и геофизики 10.Институт машиноведения и металлургии 11.Институт комплексного анализа региональных проблем 12.Институт космофизических исследований и распространения радиоволн 13.Уссурийская астрофизическая обсерватория 14.Ботанический сад-институт Ранжирование сайтов ДВО РАН, 2011 г. находится на стадии счета. Результаты ранжирования будут доступны в статье по итогам этой Конференции
Ранжирование мировых научных сайтов Категория «НАУЧНЫЕ САЙТЫ РФ по информации Cybermetrics Lab. И юль 2011 г. Ранжирование мировых научных сайтов Категория «НАУЧНЫЕ САЙТЫ РФ» по информации Cybermetrics Lab. И юль 2011 г. WORLD RANK (место в мировом рейтинге) 54 Russian Academy of Sciences Siberian Branch 102 Russian Academy of Sciences 197 Joint Institute for Nuclear Research 241 State Institute of Information Technologies and Telecommunications 331 Space Research Institute RAS … 1569 Russian Academy of Sciences Far Eastern Branch … 1979 Institute for Automation and Control Processes RAS … For each country only the research centers ranked below the 2,500th position are included В рейтинг входят 4000 мировых научных сайтов
Ранжирование мировых научных сайтов Категория « САЙТЫ РАН по информации Cybermetrics Lab на июль 2011 г. Ранжирование мировых научных сайтов Категория « САЙТЫ РАН» по информации Cybermetrics Lab на июль 2011 г. RANKING (место в рейтинге РАН) 1 Russian Academy of Sciences Siberian Branch … 29 Russian Academy of Sciences Far Eastern Branch 33 Institute for Automation and Control Processes RAS 46 Far East Geological Institute RAS 66 Pacific Oceanology Institute RAS 74 Institute of Biology and Soil Sciences RAS 78 Institute of Cosmophysical Researches and Radio Wave Propagation RAS 92 Institute of Marine Biology AV Zhirmunskogo RAS 93 Institute of Marine Geology and Geophysics RAS 94 Central Scientific Library Far Eastern Branch of the Russian Academy of Sciences 98 Economic Research Institute RAS 99 Institute of Marine Technology Problems RAS 104 Pacific Institute of Geography RAS 108 Institute of Applied Mathematics RAS 118 Institute of History, Archeology and Ethnography RAS 119 International Scientific Center Arktika RAS 121 Gornotaezhnaya Research Station RAS В категорию входят 124 института и организации РАН, в том числе 16 сайтов ДВО РАН
Проведенный анализ Информационного пространства Дальневосточного отделения РАН позволяет сформулировать некоторые предложения для его дальнейшего развития i. Создание централизованного сегмента Дальневосточного отделения РАН в Интернет Официальный сайт Президиума ДВО РАН не несет в себе роли централизованного коммуникатора научных ресурсов Отделения в Интернет. На наш взгляд, необходимо создание по крайней мере двух централизованных ресурсов в Дальневосточном отделении РАН: Научного информационного портала ДВО РАН и Электронной библиотеки ДВО РАН, которые помимо своих информационных функций взяли бы на себя роль www-коммуникаторов Отделения. ii.Проведение работ по увеличению рейтинговых оценок сайтов ДВО РАН в Интернет Наличие домена второго уровня для сайта - необходимое условие для его продвижения в Интернет. Многие исследователи Интернет также утверждают, что наличие в имени домена ключевого слова резко повышает шансы на рост рейтинговых оценок. Временная устойчивость сайта (длительное время жизни, неизменность имени и адреса сайта) – также важное условие для достижения популярности сайта в Интернет в Интернет. Наличие большого количества уникальных научных материалов – необходимая характеристика научного сайта.
Проведенный анализ Информационного пространства Дальневосточного отделения РАН позволяет сформулировать некоторые предложения для его дальнейшего развития Здесь же необходимо отметить еще одну характеристику: периодичность обновления информации сайта. Именно она является тем условием, которое привлекает на сайт постоянных посетителей, тем самым, способствуя увеличению рейтинговых оценок сайта в поисковых системах. Статичные сайты быстро теряют свою популярность. Высокая степень рекламы сайта в Интернет – еще одно важное условие для увеличения Интернет - популярности сайтов. Причем важно обозначить свое присутствие не только в глобальных Каталогах и в БД поисковых машин, но и в научных каталогах, на сайтах близких по направлениям научных организаций, и др., что дает большое количество ссылок, в том числе и с высоко рейтинговых сайтов Необходимость проведения работ по увеличению количества проиндексированных страниц. Непрерывность и безотказность работы сервера в Интернет и высокая скорость ответа сервера на запросы пользователей- очевидная характеристика любого Интернет-сайта.
СПАСИБО ЗА ВНИМАНИЕ!