Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемЖанна Цубатова
1 Лекция «Самоподобие в информационном пространстве» ЛАНДЭ Д.В., д.т.н., профессор НТУУ «КПИ», ведущий научный сотрудник ИПРИ НАН Украины Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
2 Информационное пространство Под информационным пространством принято понимать совокупность информационных ресурсов, технологий их сопровождения и использования, информационных и телекоммуникационных систем, образующих некую информационную инфраструктуру. Элементами информационного пространства могут быть документы, обобщающие самые различные виды информации – файлы, электронные письма, веб-страницы… Конечно же, термин «пространство» в данном случае, вообще говоря, не совпадает с понятием «пространство» в математике или физике. В качестве примеров удачных моделей информационного пространства можно приветсти «векторно-пространственную» модель Г. Солтона или модель старения информации Бартона-Кеблера. Модель такого информационного пространства, как сеть WWW была построена А. Брёдером и его соавторами из компаний IBM и Altavista. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
3 Информационное пространство Топология и характеристики моделей веб- пространства оказываются приблизительно одинаковыми для его разных подмножеств, подтверждая тем самым наблюдение о том, что «веб – это фрактал». Как показано в роботах С. Иванова, для последовательности сообщений тематических информационных потоков количество сообщений, резонансов на события реального мира, пропорционально некоторой степени количества источников информации (кластеров). Множество сообщений в Интернете по одной тематике во времени представляет собой динамическую кластерную систему, которая возникает в результате итерационных процессов. Этот процесс обуславливается републикациями, односторонним или взаимным цитированием, различными публикациями – отражениями одних и тех же событий реального мира, прямыми ссылками и т.п. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
4 Самоподобие Самоподобие или инвариантность относительно изменений масштаба или размера являет собой отличительную черту многих законов природы и бесчисленных явлений в мире. «Самоподобие является в действительности одной из решающих симметрий, которая формирует нашу вселенную и оказывает влияние на наши попытки ее понять» (М. Шредер). Самоподобие информационного пространства выражается в том, что гиперболичные частотные и ранговые распределения, получаемые в самых разных содержательных разрезах практически не изменяют своей формы. Закономерности, открытые такими учеными, как Зипф, Брэдфорд и другие свидетельствуют о самоподобии информационного пространства. С другой стороны, самоподобие можно рассматривать и как следствие общих структурных закономерностей информационного пространства. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
5 Степенное распределение Б. Мандельброт был одним из первых, кто обратил пристальное внимание на то, что не менее универсальным, часто встречаемым законом распределения случайной величины является степенное (часто говорят гиперболическое) распределение с плотностью вероятности: или где – вероятность того, что, а A и α - некоторые положительные константы, параметры распределения. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
6 Закон Ципфа, закон Парето Следует отметить, что приведенное выше распределение рассматривалось Б. Мандельбротом (B. Mandelbrot) как уточнение закона Ципфа и его часто называют распределением Ципфа-Мандельброта. При этом оказалось, что α - близкая к единице величина, которая может изменяться в зависимости от свойств текста и языка. Соответственно, Напомним, гиперболическое распределение названо в честь В. Парето, а дискретный закон распределения с ранжированной переменной был назван в честь Д. Ципфа, который сформулировал его для описания частоты употребления слов. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
7 Масштабная независимость Явление, которое имеет свойство самоподобия, выглядит одинаково или одинаково себя ведет при его рассмотрении с разной степенью «увеличения» или в разном масштабе. Масштабирующей величиной может быть пространство (длина, ширина) или время. Рассматриваются, в частности, временные ряды, которые демонстрируют свойство самоподобия. Если рассматривать информационные потоки как ряды публикаций в течение времени, то также обнаруживается самоподобие. Анализ самоподобия может рассматриваться как технология, предназначенная для осуществления аналитических исследований с элементами прогнозирования. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
8 Медленно затухающие распределения Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
9 Формальное определение Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
10 Функциональное определение Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
11 Параметр Херста Параметр H, называемый параметром Херста (Hurst parameter) или параметром сомоподобия (self- similarity parametr), представляет собой ключевую меру самоподобия. Точнее, H представляет меру устойчивости статистического явления, или меру действия долговременной зависимости статистического процесса. Значение H=0,5 указывает на отсутствие долговременной зависимости. Чем ближе значение H к 1, тем выше степень устойчивости долговременной зависимости. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
12 Броуновское движение Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
13 Агрегированные серии Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
14 Фактор Фано Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
15 Обоснование самоподобия Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
16 Некоторые выводы Исследования тематических информационных потоков подтверждают предположение о самоподобии и итеративности процессов в веб- пространстве. Републикации, цитирование, прямые ссылки и т.п. порождают самоподобие, проявляющееся в устойчивых статистических распределениях и известных эмпирических законах. В результате экспериментов было подтверждено наличие высокого уровня статистической корреляции в информационных потоках на продолжительных временных интервалах. Анализ самоподобия информационных массивов может рассматриваться как технология для осуществления прогнозирования. Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
17 СПАСИБО ЗА ВНИМАНИЕ! Ландэ Д.В., Летняя школа Компьютерной лингвистики 5-11 июля 2011 г.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.