Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных Систем РАН имени А. К. Айламазяна, г. Переславль - Залесский RCDL2012
Извлечение информации из текста в системе ИСИДА - Т Лингвистический модуль ( общая языковая информация ) Графематический анализ ; Морфологический анализ ; Частичный синтаксический анализ ( синтаксис именных групп ). Ресурс Знаний Словарь ; База знаний ( моделирование предметной области ). Правила извлечения информации ( язык PSL) Сохранение информации о фрагментах текста в аннотациях ; Разработанный механизм запросов к базе знаний при анализе текста. 2/12
Примеры извлечения информации Именованные сущности Временные выражения ; ФИО ; Геополитические единицы ; Названия организаций ; Названия должностей, званий. Отношения между извлечёнными сущностями лицо - должность, организация - название, ГПЕ - название ( информация в рамках именных групп ) 3/12
Примеры работы системы
Общая постановка задачи Задача извлечения информации из более сложных синтаксических конструкций в неструктурированном тексте ФАКТ – это информация, выраженная в рамках синтаксической группы предикатного слова и содержащая данные о некоторой ситуации и её участниках. Ситуации назначения, отставки, смены в должности, выборы. 5/12
Основные идеи Однородный состав участников ситуаций в конкретной задаче извлечения; Похожее устройство синтаксических конструкций со словами, описывающими ситуации; Именные группы - участники непосредственно примыкают к предикатному слову-ситуации; Анализ только предложений, содержащих слово- ситуацию. 6/12
Реализация. Исходные данные предикатные слова, описывающие ситуации, – в словаре ресурса знаний ; элементы в базе знаний, соответствующие словарным словам. информация об участниках, извлечённая на предыдущих этапах анализа 7/12
Примеры конструкций Президент Грузии Михаил Саакашвили назначил бригадного генерала Георгия Каландадзе начальником Объединенного штаба Вооруженных сил страны 8/12
Сбор информации об участниках ситуации Назначил ( личный глагол в активном залоге ) Участник ( Им. п.)– президент Участник ( Вин. п.) – Георгия Каландадзе Участник ( Тв. п.) - начальником 9/12
Интерпретация ролей Назначил ( личный глагол в активном залоге ) Участник ( Им. п.) – президент 1- ый участник ( кто _ назначил ) Участник ( Вин. п.) – Георгия Каландадзе 2 - ой участник ( кого _ назначил ) Участник ( Тв. п.) - начальником 3- ий участник ( кем _ назначил ) 10/12
Результаты извлечения
Выводы Преимущества нового подхода : оптимизация работы правил ; сокращение количества правил ; облегчение перенастройки на другую задачу извлечения ; представление результатов в удобной форме. 12/12