Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009
Извлечение информации из текстов Выявления в электронных документах всех упоминаний об объектах и фактах, представляющих интерес для пользователя Сфера интересов пользователя определяется заранее (в процессе создания или настройки системы извлечения)
Извлечение в «слабом» смысле Поверхностный анализ близкий к семантическому маркированию текста Проекция на простую реляционную модель Анализ простых контекстов. Низкая полнота Неплохо работает как поисковая технология на больших коллекциях документов
Извлечение в «сильном» смысле Детальный анализ с опорой на модель предметной области, точная классификация объектов Проекция на объектно-ориентированную модель Нормализация извлекаемого Отождествление извлекаемого
Слабое и сильное
Слабое и сильное: примеры Исполнительный директор ОАО «Рога и копыта» Алексей Иванов… Заместителем Иванова в комитете Госдумы по вопросам внешней политики назначена Юлия Петрова.
Что нужно? Нужно знать язык Нужно обладать «фоновыми» знаниями о предметной области
Средства анализа естественного языка Средства общего лингвистического анализа Средства предметно-ориентированного анализа – выявление целевой лексики – распознавание целевых сущностей, их атрибутов и отношений между этими сущностями
CPSL (common pattern specification language) Декларация способа выражения в тексте сущности или факта в терминах грамматических атрибутов и используемой лексики.
Расширение CPSL Переменные Проверка взаимного расположения фрагментов текста (не только следование, но и различного рода вложение, пересечение) Функции для обращения к модели предметной области
Опора на модель Точная классификация сущностей – Президенту ОАЭ Газпром сделал предложение… – Президенту ОАО Газпром сделали предложение… Точное установление отношений – Отдел компании (является частью) – Совет директоров компании (возглавляет)
Модели недостаточно Для разрешения неоднозначностей иногда требуется обширная фактографическая база – По словам руководителя администрации президента Российской Федерации Сергея Нарышкина… – По словам руководителя администрации президента Медведева….
Ресурс знаний База априорных предметных знаний + Словарь предметной лексики + Фактографическая база
Классификация знаний
Сложности Таксономия (дифференцирующие критерии) Что выражать через атрибуты, а что через таксономию. Иногда идем от текстов (иерархия по гипонимам/гиперонимам) Аморфные понятия (власти, аппарат = администрация)
Унификация + вывод + отождествление = частичное целеориентированное разрешение референции Пример: – Украинский спикер – Спикер украинского парламента – Спикер Верховной Рады
Вывод: интерпретация признаков Ярославский губернатор Ярославский мэр
Сложность Курчатовский институт г. Курчатов
Вывод: для унификации Украинский спикер
Отождествление Правила отождествления Сопоставление подграфов в фактографической базе
Исида-Т Инструментальное средство для создания специализированных систем извлечения информации
Вопросы?
Спасибо за внимание!