ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ Ландэ Д.В., Брайчевский С.М., Григорьев А.Н., Дармохвал А.Т., Радецкий А.Б. Информационный центр «ЭЛВИСТИ»,

Презентация:



Advertisements
Похожие презентации
Д.т.н., заместитель директора Дмитрий Владимирович ЛАНДЭ, Информационного центра ЭЛВИСТИ Инструментарий анализа игроков рынка новостей на базе технологии.
Advertisements

© ElVisti Лекция 7 Кластерный анализ и информационный поиск Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Ранжирование источников информации в системе мониторинга новостей InfoStream Д.В. Ландэ, С.М. Брайчевский, А.Т. Дармохвал, А.Ю. Морозов Информационный.
© ElVisti Лекция 6 Математические модели информационных потоков Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Система мониторинга новостей InfoStream ©. Информационное пространство из одних рук Ландэ Дмитрий Владимирович, доктор технических наук, заместитель директора.
Система мониторинга сетевых новостей – эффективный инструмент бизнес-аналитика Система мониторинга сетевых новостей – эффективный инструмент бизнес-аналитика.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий.
26 мая 2011 года, г. Киев, Украина Контент-мониторинг веб-ресурсов ГРИГОРЬЕВ Александр Николаевич, директор ИЦ ЭЛВИСТИ Информационный центр ЭЛВИСТИ (Киев)
СИСТЕМА МОНИТОРИНГА НОВОСТЕЙ Позиционирование информационного сервиса Д.В. Ландэ, к. т. н., заместитель директора Информационного центра "ЭЛВИСТИ"
3 декабря 2010 года, г. Харьков Система контент-мониторинга веб-ресурсов Дмитрий Владимирович ЛАНДЭ, д.т.н., с.н.с., заместитель директора Сергей Андреевич.
Метод выявления неявных связей объектов Снарский А.А., Ландэ Д.В., Женировский М. И. НТУУ «Киевский политехнический институт», Информационный центр «ЭЛВИСТИ»,
Визуализация статистики вхождения слов Ландэ Дмитрий Владимирович, д.т.н., зам. директора ИЦ «ЭЛВИСТИ» Киев-2009.
Динамические частотные характеристики слов для описания разнородных лингвистических объектов Ландэ Дмитрий Владимирович, доктор технических наук, ИПРИ.
ГРИД-ДИСПЕТЧЕР: РЕАЛИЗАЦИЯ СЛУЖБЫ ДИСПЕТЧЕРИЗАЦИИ ЗАДАНИЙ В ГРИД Шорин О.Н.
Юридически значимый электронный документооборот на ЕФРСФДЮЛ Директор по развитию проектов ЗАО «Интерфакс» Юхнин Алексей.
Использование информационно- образовательных ресурсов в образовательном процессе. Федеральный центр информационно- образовательных ресурсов обеспечивает.
11 Вечур А. В.Суяргулова Е. Б. Введение Предметная область Суть Выводы Титульный слайдЦель работы Модернизация расчета центроидов в алгоритме CMU.
СПРАВОЧНО-БИБЛИОГРАФИЧЕСКОЕ ОБСЛУЖИВАНИЕ – ОДНО ИЗ ВАЖНЫХ НАПРАВЛЕНИЙ ДЕЯТЕЛЬНОСТИ БИБЛИОТЕК.
Динамические частотные характеристики как основа для структурного описания разнородных лингвистических объектов Ландэ Дмитрий Владимирович, доктор технических.
Транксрипт:

ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ Ландэ Д.В., Брайчевский С.М., Григорьев А.Н., Дармохвал А.Т., Радецкий А.Б. Информационный центр «ЭЛВИСТИ», Киев Конференция «Диалог 2007»

Сюжеты VS Новые события Конференция «Диалог 2007» ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ Запрос пользователя О чем больше всего говорят Учет времени и количества публикаций О каких «актуальных» событиях говорят в последнее время «солидные» источники Учет …

Популярность документа D i за небольшой промежуток времени (локальная популярность- n i ) и за значительный промежуток (глобальная популярность - N i ). Вычисляются по количеству «подобных» документов в оперативной и ретроспективной базах данных. Конференция «Диалог 2007» ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ NiNi nini

Предположение, о том, что документ соответствует новому событию, если выполняются условия: минимальное время, прошедшее с момента публикации документа; близость лексического состава документа к лексическому составу массива документов за небольшой промежуток времени (массив оперативных новостей); существенное различие лексического состава документа от лексического состава массива документов за значительный период времени – окна наблюдения; наличие в документе терминов, входящих в плюс-словарь (включающий важные для содержания новостей слова типа «теракт», «конфликт», «сенсация» и т.п.); высокий ранг «авторитетности» источника, а также допустимости лексики заглавий новостей (определяемых экспертами). Конференция «Диалог 2007» ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ

Формула для расчета ранга новостного документа: Конференция «Диалог 2007» ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ N – величина окна наблюдения потока новостей; n – величина массива оперативных новостей (n < N); D i – i-й документ; PlusDic – плюс-словарь; sim(D i, D j ) – мера близости документа i документу j; sim(D i, PlusDic) – мера близости документа i плюс-словарю; Rang i – ранг источника, соответствующего i-му документу.

Интерфейс пользователя Конференция «Диалог 2007» ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ

Спасибо за внимание! Ландэ Д.В., Брайчевский С.М., Григорьев А.Н., Дармохвал А.Т., Радецкий А.Б. Информационный центр «ЭЛВИСТИ», Киев Конференция «Диалог 2007» ВЫЯВЛЕНИЕ НОВЫХ СОБЫТИЙ ИЗ ПОТОКА НОВОСТЕЙ