Печников Андрей Анатольевич Спецкурс СДМ 01. Технологии специализированных баз данных для вебометрических исследований
Экзамен! Лекции, часть 1: 27 февраля, 28 февраля, 02 марта Лекции часть 2: 4-я, 5-я,.... И экзамен – в апреле-мае Требования: 100% посещаемость - отлично У меня работа (встреча с руководителем, бассейн, - не катит)не катит) Варианты ликвидации задолженностей: - написать маленькую программку по теме, - сделать перевод небольшой статьи, - «показаться» (Катаев В. Сын полка. «...стало быть, ты им не показался.... раз они тебя не захотели принять за сына...»). Emergence is one of the key features of the Webwhether it is the emergence of the blogosphere or the appearance of Wikipedia, the increasing linking of scientific data or social networks..... Emergence – появление, феномен, пРоявление, «показаться»
Theodor Holm Nelson ARPA Timothy John «Tim» Berners-Lee, Robert Cailliau Tomas C. Almind, Peter Ingwersen Sergey Brin, Larry Page Réka Albert, Hawoong Jeong, Albert-László Barabási изобретатель понятия «гипертекст», 1965 Advanced Research Projects Agency, 1957 – начало, сеть ARPANET изобретатели Веба, 1989 ввели термин «webometrics», 1997 Измерили диаметр Веба, 1999 Google, 1998
Веб Всеми́рная паути́на (англ. World Wide Web) распределенная система, предоставляющая доступ к связанным между собой документам, расположенным на различных компьютерах, подключенных к Интернету. Для обозначения Всемирной паутины также используют слово веб (англ. web «паутина») и аббревиатуру WWW. (Википедия)
Как минимум четыре основных направления исследований: «Вебометрика» (webometrics) - раздел информатики, в рамках которого исследуются количественные аспекты конструирования и использования информационных ресурсов, структур и технологий применительно к Вебу (World Wide Web). Веб-индикаторы (индексы цитирования, наблюдаемость сайтов...), Социальные феномены в Веб (социальные сети, сообщества сайтов...). Сбор данных о Веб (роботы, краулеры, поисковые машины, информационный поиск...), Анализ гиперссылок (в частности, связи между сайтами вузов и научных организаций...),
В последнее время в рамках вебометрики стало тесновато, вовремя подоспел журнал Discussion Meeting Issue Web science: a new frontier
14 млрд веб-страниц 190 млн веб-сайтов
4 принципа Barabási 1. scale-free 2. small world 3. preferential attachment 4. fitness 1.Безмасштабная сеть (scale-free) Закон распределения степеней вершин – дискретный степенной закон (power law),
2. Малый мир (small world, я бы сказал «тесный мир») Цит. Барабаши: «A second important organizing principle is the small world property, which says that two nodes are likely to be connected, even in such a very large and sparse scale-free network as the Web, by a relatively short path of nodes in the case of the Web, the path length is about 19» 3. Предпочтительность установления связей (preferential attachment) Новый документ более вероятно будет иметь ссылку на такой уже существующий документ, на который уже есть много ссылок. 4. Пригодность (fitness - адекватность, соответствие) связей Цит. Барабаши: «But we know from the Web that this is not the only factor, as large hubs, such as Google and Facebook, have appeared relatively late in its history.» Например, вероятность появления ссылки на данную вершину после обнаружения её в соответствии с п.3.