Лекция «Самоподобие в информационном пространстве» ЛАНДЭ Д.В., д.т.н., профессор НТУУ «КПИ», ведущий научный сотрудник ИПРИ НАН Украины Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Информационное пространство Под информационным пространством принято понимать совокупность информационных ресурсов, технологий их сопровождения и использования, информационных и телекоммуникационных систем, образующих некую информационную инфраструктуру. Элементами информационного пространства могут быть документы, обобщающие самые различные виды информации – файлы, электронные письма, веб-страницы… Конечно же, термин «пространство» в данном случае, вообще говоря, не совпадает с понятием «пространство» в математике или физике. В качестве примеров удачных моделей информационного пространства можно приветсти «векторно-пространственную» модель Г. Солтона или модель старения информации Бартона-Кеблера. Модель такого информационного пространства, как сеть WWW была построена А. Брёдером и его соавторами из компаний IBM и Altavista. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Информационное пространство Топология и характеристики моделей веб- пространства оказываются приблизительно одинаковыми для его разных подмножеств, подтверждая тем самым наблюдение о том, что «веб – это фрактал». Как показано в роботах С. Иванова, для последовательности сообщений тематических информационных потоков количество сообщений, резонансов на события реального мира, пропорционально некоторой степени количества источников информации (кластеров). Множество сообщений в Интернете по одной тематике во времени представляет собой динамическую кластерную систему, которая возникает в результате итерационных процессов. Этот процесс обуславливается републикациями, односторонним или взаимным цитированием, различными публикациями – отражениями одних и тех же событий реального мира, прямыми ссылками и т.п. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Самоподобие Самоподобие или инвариантность относительно изменений масштаба или размера являет собой отличительную черту многих законов природы и бесчисленных явлений в мире. «Самоподобие является в действительности одной из решающих симметрий, которая формирует нашу вселенную и оказывает влияние на наши попытки ее понять» (М. Шредер). Самоподобие информационного пространства выражается в том, что гиперболичные частотные и ранговые распределения, получаемые в самых разных содержательных разрезах практически не изменяют своей формы. Закономерности, открытые такими учеными, как Зипф, Брэдфорд и другие свидетельствуют о самоподобии информационного пространства. С другой стороны, самоподобие можно рассматривать и как следствие общих структурных закономерностей информационного пространства. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Степенное распределение Б. Мандельброт был одним из первых, кто обратил пристальное внимание на то, что не менее универсальным, часто встречаемым законом распределения случайной величины является степенное (часто говорят гиперболическое) распределение с плотностью вероятности: или где – вероятность того, что, а A и α - некоторые положительные константы, параметры распределения. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Закон Ципфа, закон Парето Следует отметить, что приведенное выше распределение рассматривалось Б. Мандельбротом (B. Mandelbrot) как уточнение закона Ципфа и его часто называют распределением Ципфа-Мандельброта. При этом оказалось, что α - близкая к единице величина, которая может изменяться в зависимости от свойств текста и языка. Соответственно, Напомним, гиперболическое распределение названо в честь В. Парето, а дискретный закон распределения с ранжированной переменной был назван в честь Д. Ципфа, который сформулировал его для описания частоты употребления слов. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Масштабная независимость Явление, которое имеет свойство самоподобия, выглядит одинаково или одинаково себя ведет при его рассмотрении с разной степенью «увеличения» или в разном масштабе. Масштабирующей величиной может быть пространство (длина, ширина) или время. Рассматриваются, в частности, временные ряды, которые демонстрируют свойство самоподобия. Если рассматривать информационные потоки как ряды публикаций в течение времени, то также обнаруживается самоподобие. Анализ самоподобия может рассматриваться как технология, предназначенная для осуществления аналитических исследований с элементами прогнозирования. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Медленно затухающие распределения Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Формальное определение Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Функциональное определение Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Параметр Херста Параметр H, называемый параметром Херста (Hurst parameter) или параметром сомоподобия (self- similarity parametr), представляет собой ключевую меру самоподобия. Точнее, H представляет меру устойчивости статистического явления, или меру действия долговременной зависимости статистического процесса. Значение H=0,5 указывает на отсутствие долговременной зависимости. Чем ближе значение H к 1, тем выше степень устойчивости долговременной зависимости. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Броуновское движение Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Агрегированные серии Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Фактор Фано Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Обоснование самоподобия Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Некоторые выводы Исследования тематических информационных потоков подтверждают предположение о самоподобии и итеративности процессов в веб- пространстве. Републикации, цитирование, прямые ссылки и т.п. порождают самоподобие, проявляющееся в устойчивых статистических распределениях и известных эмпирических законах. В результате экспериментов было подтверждено наличие высокого уровня статистической корреляции в информационных потоках на продолжительных временных интервалах. Анализ самоподобия информационных массивов может рассматриваться как технология для осуществления прогнозирования. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
СПАСИБО ЗА ВНИМАНИЕ! Ландэ Д.В., Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.