Визуализация статистики вхождения слов Ландэ Дмитрий Владимирович, д.т.н., зам. директора ИЦ «ЭЛВИСТИ» Киев-2009.

Презентация:



Advertisements
Похожие презентации
MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий.
Advertisements

Д.т.н., заместитель директора Дмитрий Владимирович ЛАНДЭ, Информационного центра ЭЛВИСТИ Инструментарий анализа игроков рынка новостей на базе технологии.
Метод выявления неявных связей объектов Снарский А.А., Ландэ Д.В., Женировский М. И. НТУУ «Киевский политехнический институт», Информационный центр «ЭЛВИСТИ»,
3 декабря 2010 года, г. Харьков Система контент-мониторинга веб-ресурсов Дмитрий Владимирович ЛАНДЭ, д.т.н., с.н.с., заместитель директора Сергей Андреевич.
ИНФОРМАЦИОННЫЕ ПОТОКИ В ВЕБ - ПРОСТРАНСТВЕ И СОЦИАЛЬНО - ПРАВОВОЕ МОДЕЛИРОВАНИЕ Дмитрий Владимирович ЛАНДЭ, доктор технических наук, член-корреспондент.
© ElVisti Лекция 7 Кластерный анализ и информационный поиск Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
© ElVisti Лекция 6 Математические модели информационных потоков Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
© ElVisti Лекция 9 Элементы фрактального анализа информационных потоков Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Лекция «Самоподобие в информационном пространстве» ЛАНДЭ Д.В., д.т.н., профессор НТУУ «КПИ», ведущий научный сотрудник ИПРИ НАН Украины Летняя школа Компьютерной.
ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ Ландэ Д.В., Брайчевский С.М., Григорьев А.Н., Дармохвал А.Т., Радецкий А.Б. Информационный центр «ЭЛВИСТИ»,
Ранжирование источников информации в системе мониторинга новостей InfoStream Д.В. Ландэ, С.М. Брайчевский, А.Т. Дармохвал, А.Ю. Морозов Информационный.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
26 мая 2011 года, г. Киев, Украина Контент-мониторинг веб-ресурсов ГРИГОРЬЕВ Александр Николаевич, директор ИЦ ЭЛВИСТИ Информационный центр ЭЛВИСТИ (Киев)
Система мониторинга сетевых новостей – эффективный инструмент бизнес-аналитика Система мониторинга сетевых новостей – эффективный инструмент бизнес-аналитика.
Динамические частотные характеристики как основа для структурного описания разнородных лингвистических объектов Ландэ Дмитрий Владимирович, доктор технических.
» Дмитрий Владимирович Ландэ, к.т.н., заместитель директора Информационного центра «ЭЛВИСТИ» Использование технологии интеграции Интернет-контента для.
Страничные факторы ранжирования Михаил Костин, Mail.ru.
Кодирование
Богданов Марат Робертович Современные веб-технологии. Подробный курс Синтаксические основы JavaScript.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Транксрипт:

Визуализация статистики вхождения слов Ландэ Дмитрий Владимирович, д.т.н., зам. директора ИЦ «ЭЛВИСТИ» Киев-2009

При подборе ключевых слов для поиска важно учитывать такое их свойство, как «различительная» или дискриминантная сила. Ведь если слово равномерно распределено по тексту (очень часто или даже редко), то вряд ли оно может использоваться для эффективного содержательного поиска. Данная мысль была «материализована» Солтоном в его знаменитой векторно-пространственной модели поиска, где именно для учета дискриминантной силы слов он ввел понятие инверсной частоты появления слова в отдельных документах массива (IDF). В работе испанских исследователей [*] для этой же цели была предложена технология спектограмм слов, которые внешне напоминали штрих-коды товаров. Вместе с тем не позволяли рассматривать вхождения слов в разных масштабах измерений, как это делается например в средствах вейвлет-анализа. [*] P. Carpena, P. Bernaola-Galván, M. Hackenberg, A. V. Coronado, J. L. Oliver. Level statistics of words: Finding keywords in literary texts and symbolic sequences // PHYSICAL REVIEW E 79, , –P

Нами реализованы инструментальные средства позволяющие визуализировать плотность встречаемости слова в тексте в зависимости от ширины окна наблюдения. Через веб-интерфейс вводится текст и слово для анализа (

В результирующей спектограмме по горизонтали откладываются номера вхождения слова в тексте, а по вертикали - ширина окон наблюдения (начиная со значения 1 в самом низу, вхождения слова в данном случае выделяется светло-серым цветом). Если в соответствующее окно наблюдения попадает несколько целевых слов, то оно закрашивается более интенсивным оттенком темного. Всего предусмотрено 16 оттенков. Спектограмма вхождения слова «и» в рассказе Стругацких «Ночь на Марсе» Спектограмма вхождения слова «сказал» в рассказе Стругацких «Ночь на Марсе»

Окно наблюдения примерно 400 слов – в нем найдено 4 слова – это видно по расцетке наиболее темного участка В этой позиции найдено слово ~80 Окно наблюдения примерно 80 слов – в нем пока слово только одно ~200 Окно наблюдения примерно 200 слов – в нем найдено 2 слова Читать в этой последовательности

В этой позиции нет вхождения искомого слова Зато при окне наблюдения примерно в 380 (190 слов до данного слова и 190 после) – целых 5 слов – это место самого плотного вхождение слова на диаграмме. ~380

Спектограмма вхождения слова «сказал» в рассказе Стругацких «Ночь на Марсе» Спектограмма вхождения слова «подумал» в рассказе Стругацких «Ночь на Марсе»

Для исследований распределения слов представляет интерес числовая последовательность, составленная из расстояний между появлениями слов в тексте. Пример: Гоголь, Мертвые души, том первый. Слово: Собакевич

Такие последовательности позволяют ответить на вопросы, актуальные при автоматическом поиске и реферировании текстовых массивов/документов. Например, представляется, что автоматический реферат текста по аспекту, выраженному словом будет тем лучше, чем: более явно выражено скопление этих слов в текстах; таких «явно выраженных»скоплений больше. Собакевич Ноздрев Плюшкин

В естественных науках как величина меры «изрезанности» числовых последовательностей используется показатель Херста, который вычисляется на основании R/S-анализа. Нам показалась естественной аналогия с приведенными выше свойствами. Параметр Херста был рассчитан для рассмотренных выше персонажей «Мертвых душ». Собакевич – 0.71 Ноздрев – 0.57 Плюшкин – 0.44

СПАСИБО ЗА ВНИМАНИЕ! Ландэ Дмитрий Владимирович, Киев-2009