Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009.

Презентация:



Advertisements
Похожие презентации
ИСИДА-Т Интеллектуальная система извлечения и анализа данных из текстов.
Advertisements

ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных.
Система извлечения информации из текстов ИСИДА-Т Цель: извлечь значимую информацию определенного типа из (больших массивов) текста для дальнейшей аналитической.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Г.С.Осипов,И.В.Смирнов,И.В.Соченков,А.О.Шелманов, А.В.Швец Институт системного.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Конструирование информационных систем на основе интероперабельных сред информационных ресурсов.
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Семантические отношения как основа построения электронных тезаурусов Докладчик: аспирант КФУ Мансурова Гульнара Камилевна.
Участие парламента в реализации внешней политики Республики Беларусь Научный руководитель – к.и.н., доцент Михалькевич Г.Н.
МЕТОДЫ ОРГАНИЗАЦИИ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ С ПОДОБНЫМИ СТРУКТУРАМИ КАК ЕДИНЫЙ ИФОРМАЦИОННЫЙ РЕСУРС ХРАНИЛИЩА МНОГОМЕРНЫХ ДАННЫХ. Волков Антон Андреевич.
Обзор некоторых направлений интеграции гетерогенных ресурсов в электронных библиотеках Новицкий А.В. Институт программных систем НАН Украины.
ОНТОЛОГИЧЕСКИЙ ПОДХОД и аспекты обработки естественно- языковых объектов (ЕЯО) Содержание 1.Введение. 2.Известные определения онтологии ПдО. 3.Схема формальной.
Диагностика овладения межпредметными понятиями: социально-гуманитарный цикл.
Проект МЭДО. Участие ЭОС. Реализация на федеральном уровне и в регионах Алексей Осотов Заместитель начальника отдела маркетинга ЭОС.
Внедрение проектного управления в органах государственной власти субъектов Российской Федерации.
Регламент информационного обмена в сфере жилищно-коммунального хозяйства Олег Чумаков Заместитель директора бизнес-центра межведомственных проектов Группы.
ПОДХОД К РАЗРАБОТКЕ МЕТОДОВ АВТОМАТИЗИРОВАННОГО КОНТРОЛЯ ИНФОРМАЦИОННОЙ ЦЕЛОСТНОСТИ ТЕХНИЧЕСКИХ ТЕКСТОВ О.А Невзорова НИИММ им. Н.Г. Чеботарева, г. Казань.
Транксрипт:

Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009

Извлечение информации из текстов Выявления в электронных документах всех упоминаний об объектах и фактах, представляющих интерес для пользователя Сфера интересов пользователя определяется заранее (в процессе создания или настройки системы извлечения)

Извлечение в «слабом» смысле Поверхностный анализ близкий к семантическому маркированию текста Проекция на простую реляционную модель Анализ простых контекстов. Низкая полнота Неплохо работает как поисковая технология на больших коллекциях документов

Извлечение в «сильном» смысле Детальный анализ с опорой на модель предметной области, точная классификация объектов Проекция на объектно-ориентированную модель Нормализация извлекаемого Отождествление извлекаемого

Слабое и сильное

Слабое и сильное: примеры Исполнительный директор ОАО «Рога и копыта» Алексей Иванов… Заместителем Иванова в комитете Госдумы по вопросам внешней политики назначена Юлия Петрова.

Что нужно? Нужно знать язык Нужно обладать «фоновыми» знаниями о предметной области

Средства анализа естественного языка Средства общего лингвистического анализа Средства предметно-ориентированного анализа – выявление целевой лексики – распознавание целевых сущностей, их атрибутов и отношений между этими сущностями

CPSL (common pattern specification language) Декларация способа выражения в тексте сущности или факта в терминах грамматических атрибутов и используемой лексики.

Расширение CPSL Переменные Проверка взаимного расположения фрагментов текста (не только следование, но и различного рода вложение, пересечение) Функции для обращения к модели предметной области

Опора на модель Точная классификация сущностей – Президенту ОАЭ Газпром сделал предложение… – Президенту ОАО Газпром сделали предложение… Точное установление отношений – Отдел компании (является частью) – Совет директоров компании (возглавляет)

Модели недостаточно Для разрешения неоднозначностей иногда требуется обширная фактографическая база – По словам руководителя администрации президента Российской Федерации Сергея Нарышкина… – По словам руководителя администрации президента Медведева….

Ресурс знаний База априорных предметных знаний + Словарь предметной лексики + Фактографическая база

Классификация знаний

Сложности Таксономия (дифференцирующие критерии) Что выражать через атрибуты, а что через таксономию. Иногда идем от текстов (иерархия по гипонимам/гиперонимам) Аморфные понятия (власти, аппарат = администрация)

Унификация + вывод + отождествление = частичное целеориентированное разрешение референции Пример: – Украинский спикер – Спикер украинского парламента – Спикер Верховной Рады

Вывод: интерпретация признаков Ярославский губернатор Ярославский мэр

Сложность Курчатовский институт г. Курчатов

Вывод: для унификации Украинский спикер

Отождествление Правила отождествления Сопоставление подграфов в фактографической базе

Исида-Т Инструментальное средство для создания специализированных систем извлечения информации

Вопросы?

Спасибо за внимание!