Автоматическая служба новостей – идеи, проблемы, решения Александр АНТОНОВ, Станислав БАГЛЕЙ, Дмитрий ЛАНДЭ Корпорация «ГАЛАКТИКА», Москва, Информационный.

Презентация:



Advertisements
Похожие презентации
Система мониторинга новостей InfoStream ©. Информационное пространство из одних рук Ландэ Дмитрий Владимирович, доктор технических наук, заместитель директора.
Advertisements

СИСТЕМА МОНИТОРИНГА НОВОСТЕЙ Позиционирование информационного сервиса Д.В. Ландэ, к. т. н., заместитель директора Информационного центра "ЭЛВИСТИ"
Ранжирование источников информации в системе мониторинга новостей InfoStream Д.В. Ландэ, С.М. Брайчевский, А.Т. Дармохвал, А.Ю. Морозов Информационный.
Дмитрий Чистов 04 декабря 2006 PR в Интернете Контекстные PR-инструменты.
Интернет-библиотека СМИ +7 (495) | Электронная библиотека русскоязычных СМИ. Современные технологии поиска и анализа информации.
ЗАО «Институт ситуационного анализа» (ЗАО «ИСА») Универсальный программный комплекс для информационно-аналитического сопровождения для информационно-аналитического.
Д.т.н., заместитель директора Дмитрий Владимирович ЛАНДЭ, Информационного центра ЭЛВИСТИ Инструментарий анализа игроков рынка новостей на базе технологии.
Межгосударственный статистический комитет Содружества Независимых Государств ( Статкомитет СНГ ) Совершенствование веб-сайтов национальных статистических.
ОТЧЕТ ПО ИСПОЛНЕНИЮ II ЭТАПА ГОСУДАРСТВЕННОГО КОНТРАКТА ОТ Развитие системы коммуникационного сопровождения процессов развития.
Опыт реализации системы контентной фильтрации Интернет-ресурсов на базе технологий АРИОН.
Microsoft Dynamics CRM. Управление сервисом Списки ожидания Обращение Контракты База знаний.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Платформа eDocLib: Удобный архив.Быстрый поиск.Надежное хранение данных из любых источников.
Роль ИТС в повышении БДД. ИТС в комплексе городского и регионального хозяйства.
ИНФОРМАЦИОННАЯ СИСТЕМА ПЛАНИРОВАНИЯ И МОНИТОРИНГА СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО РАЗВИТИЯ КРАСНОДАРСКОГО КРАЯ ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ «КУБНЕТ»
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Интернет-библиотека СМИ +7 (495) | Электронная библиотека русскоязычных СМИ. Новый интерфейс, новые возможности: комбинированный.
ГОРОДСКОЙ МЕТОДИЧЕСКИЙ ЦЕНТР mosmetod.ru Примерная программа учебного предмета «Информатика»
Рекламная деятельность библиотек в условиях развития Интернет-технологий Семенова Алла Евгеньевна, Заведующая сектором Научной библиотеки ГОУ ВПО ИГМА.
1 Тенденции развития поисковых систем Александр Садовский.
Транксрипт:

Автоматическая служба новостей – идеи, проблемы, решения Александр АНТОНОВ, Станислав БАГЛЕЙ, Дмитрий ЛАНДЭ Корпорация «ГАЛАКТИКА», Москва, Информационный центр «ЭЛВИСТИ», Киев, Проект WebGround.su Москва-2012 Прикладная лингвистика и искусственный интеллект 2012

Интеграторы новостей обеспечивают возможность доступа пользователей к материалам не всегда популярных веб- сайтов, которые иногда публикуют важную региональную или тематическую информацию. При этом большинство известных служб интеграции новостей работают практически в автоматическом режиме, подчеркнем, не автоматизированном, с участием человека- оператора, а именно автоматическом. И хорошо, когда эти автоматы работают для людей… Прикладная лингвистика и искусственный интеллект 2012

Автоматические интеграторы новостей зачастую стыкуются с информационно-аналитическими системами самого разного назначения, которые обеспечивают возможности контент- анализа текстов, извлечения информации, знаний. Именно проблемы, которые возникают при построении автоматических интеграторов новостей, пути их решения и некоторые идеи, возникающие при построении интеграторов и информационно-аналитических систем – предмет обсуждения в рамках данного доклада. Прикладная лингвистика и искусственный интеллект 2012

IPS 01.Охват данных в различных форматах Проблема: Неоднородность средств представления в Интернете информации различной структуры, в различных форматах Возможные решения: 1. Введение ограничений (напр., охват только RSS) 2. Реализация метаязыков охвата любых текстовых форматов 3. Разработка/подключение конверторов из различных форматов 4. Распознавание графических изображений 5. Распознавание мультимедиа (звук -> текст + признаки)… Прикладная лингвистика и искусственный интеллект 2012

IPS 02.Охват наибольшего количества необходимых источников. «Полнота» Проблема: Необходимость соблюдения авторских и смежных прав, этических норм и т.п. Возможные решения: 1. Использование новостей, не защищаемых законами об авторском праве. 2. Использование права «по умолчанию», зафиксированного на страницах ресурсов. 3. Заключение договоров о сотрудничестве с источниками. 4. Покупка информации с правами распространения... Прикладная лингвистика и искусственный интеллект 2012

IPS 03.Охват наибольшего количества необходимых источников. «Точность» Проблема: Отбор качественных и оригинальных источников Возможные решения: 1. Многопараметрическое ранжирование источников, вычисление значений репутации 1.1. Цитируемость 1.2. Продуктивность 1.3. Периодичность 1.4. Популярность 1.5. Оригинальность 2. Краудсорсинг для отбора источников Прикладная лингвистика и искусственный интеллект 2012

IPS 04. Гибкость работы с контентом Проблема: Изменение форм представления данных на ресурсах-источниках Возможные решения: 1. Не учитывать изменений, как в большинстве глобальных поисковиков. 2. Прямые договора с поставщиками с утверждением форматов, периодичности и т.п. 3. Создание комплексов мониторинга за состоянием источников. 4. Интеллектуальные автоматически настраиваемые парсеры Прикладная лингвистика и искусственный интеллект 2012

IPS 05. Синхронизация интегратора с источниками Проблема: Корректность ссылок на источники. Удаление информации с источников, переименование Возможные решения: 1. Не учитывать изменений. 2. Учет времени жизни публикаций на источниках при их включении в систему. 3. Мониторинг доступности отдельных документов 4. Создание комплексов мониторинга за состоянием источников. Прикладная лингвистика и искусственный интеллект 2012

IPS 06. Оптимизация работы роботов Проблема: объем трафика роботов интеграторов Возможные решения: 1. «Прозрачный» язык описания сценария работы робота. 2. Защита от зацикливания и др. возможных перегрузок. 3. Автоматизированная синхронизация времени сканирования с временем обновления источника. 4. Использование файлов типа sitemap.xml. Прикладная лингвистика и искусственный интеллект 2012

IPS 07. Юзабилити, улучшение навигации Проблема: необходимость использования строки поиска, ввода неизвестных критериев поиска Возможные решения: 1. RSS 2. Карта сайта 3. Иерархическая классификация документов и источников. 4. Кластеризация, выявление центроидов и новых рубрик. 5. Перевод в архивы наименее запрашиваемых (и наоборот – вывод из архива актуальных) 6. Отображение кластеров сниппетами из разных источников. 7. Автоматический сбор подкаста или видеовыпуска новостей из фрагментов Прикладная лингвистика и искусственный интеллект 2012

IPS 08. Улучшение индексирования интегратора поисковыми системами Проблема: перемещение части информации интегратора в категорию «скрытого веб» Возможные решения: 1. RSS 2. Карта сайта 3. Другие вышеназванные средства улучшения навигации по веб-сайту интегратора. Прикладная лингвистика и искусственный интеллект 2012

IPS 09. Персонализация Проблема: «Универсальная» информация для всех категорий пользователей Возможные решения: 1. Автоматическое формирование профиля по признакам -> Предсказание информационного интереса по текущей активности 2. Формирование страниц в зависимости от профиля (поискового запроса) 3. Общий аккаунт с другими сервисами. 4. Организация обратной связи, в т.ч. с социальными сетями Прикладная лингвистика и искусственный интеллект 2012

IPS 10. Аналитика Проблема: Отсутствие инструментов для формирования нового знания Возможные решения: 1. Определение тенденций 2. Определение связанных источников 3. Определение тональности 4. Выделение сущностей 5. Построение семантических сетей 6. Прогнозирование новостей на некоторый временной горизонт Прикладная лингвистика и искусственный интеллект 2012

IPS 11. Выявление новых сюжетов Проблема: Традиционные технологии построения сюжетов дают информацию об уже всем известных событиях Возможные решения: 1. Выявление аномальных сообщений в рейтинговых источниках 2. Резкое изменение превалирующей лексики 3. «Взрывное» появление дубликатов Прикладная лингвистика и искусственный интеллект 2012

IPS 12. Работа с данными на разных языках Проблема: Неполнота охватываемой информации Возможные решения: 1. Развитие технологий автоматического потокового перевода 2. Выявление дубликатов и близких по смыслу документов на разных языках. 3. Учет дубликатов и подобия при построении аналитических отчетов. Прикладная лингвистика и искусственный интеллект 2012

IPS 13. Визуализация результатов Проблема: потеря полноты охвата/ точности при выборочной визуализации Возможные решения: 1. Java, флеш-технологии, HTML5 2. Построение удобных интерфейсов между средствами визуализации и аналитическими модулями. 3. Миграция на мобильные устройства, автомобильные и lcd- панели и т.п. Прикладная лингвистика и искусственный интеллект 2012

IPS 14. Только релевантная реклама Проблема: уход от тематики, реклама не для людей Возможные решения: 1. Классификация рекламы в соответствии с классификацией ресурсов 2. Взаимодействие с надежными рекламными службами 3. Целевая продажа тематической медийной рекламы Прикладная лингвистика и искусственный интеллект 2012

Спасибо за внимание! Александр АНТОНОВ, Станислав БАГЛЕЙ, Дмитрий ЛАНДЭ Прикладная лингвистика и искусственный интеллект 2012