Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных.

Презентация:



Advertisements
Похожие презентации
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Advertisements

Система извлечения информации из текстов ИСИДА-Т Цель: извлечь значимую информацию определенного типа из (больших массивов) текста для дальнейшей аналитической.
ИСИДА-Т Интеллектуальная система извлечения и анализа данных из текстов.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Г.С.Осипов,И.В.Смирнов,И.В.Соченков,А.О.Шелманов, А.В.Швец Институт системного.
Resumagic: система автоматической обработки резюме Александр Сафронов.
Главное меню Форма ввода исходных данных Меню выбора результатов Область представления результатов моделирования.
Окружной конкурс педагогических проектов. Цель окружного конкурса педагогических проектов Выявление творчески работающих педагогов и педагогических коллективов.
26 мая 2008 г. Механизмы обеспечения связности в системах динамической генерации текстов 1 Дипломная работа Механизмы обеспечения связности в системах.
М.Ю. Харламов, ВНУ им. В.Даля, Генерация объектного кода это перевод компилятором внутреннего представ­ления исходной программы в цепочку символов.
Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.
«Поиск шаблонов в программном коде» Автор: студент 445 группы Евгений Куделевский Руководитель: к.ф.-м.н., ст. разработчик компании JetBrains Максим Мосиенко.
Автоматическая обработка ЕЯ (обработка текста) 2 курс.
ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
Построение правил для автоматического извлечения словосочетаний из текста Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова.
Формализация предметной области при обработке фактографической информации А.В. Босов ИПИ РАН Д.В. Краюшкин ООО «САЙТЕК»
НАЗВАНИЕ Работу выполнил: ст. 4 курса ФИО Научный руководитель: Должность, ФИО Г. Пермь, 2009 ГОУ ВПО Пермский государственный университет Физический факультет.
Название Фамилия Имя Отчество, студент XXXX группы Научный руководитель – звание, должность, ФИО Казанский государственный медицинский университет Студенческое.
Транксрипт:

Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных Систем РАН имени А. К. Айламазяна, г. Переславль - Залесский RCDL2012

Извлечение информации из текста в системе ИСИДА - Т Лингвистический модуль ( общая языковая информация ) Графематический анализ ; Морфологический анализ ; Частичный синтаксический анализ ( синтаксис именных групп ). Ресурс Знаний Словарь ; База знаний ( моделирование предметной области ). Правила извлечения информации ( язык PSL) Сохранение информации о фрагментах текста в аннотациях ; Разработанный механизм запросов к базе знаний при анализе текста. 2/12

Примеры извлечения информации Именованные сущности Временные выражения ; ФИО ; Геополитические единицы ; Названия организаций ; Названия должностей, званий. Отношения между извлечёнными сущностями лицо - должность, организация - название, ГПЕ - название ( информация в рамках именных групп ) 3/12

Примеры работы системы

Общая постановка задачи Задача извлечения информации из более сложных синтаксических конструкций в неструктурированном тексте ФАКТ – это информация, выраженная в рамках синтаксической группы предикатного слова и содержащая данные о некоторой ситуации и её участниках. Ситуации назначения, отставки, смены в должности, выборы. 5/12

Основные идеи Однородный состав участников ситуаций в конкретной задаче извлечения; Похожее устройство синтаксических конструкций со словами, описывающими ситуации; Именные группы - участники непосредственно примыкают к предикатному слову-ситуации; Анализ только предложений, содержащих слово- ситуацию. 6/12

Реализация. Исходные данные предикатные слова, описывающие ситуации, – в словаре ресурса знаний ; элементы в базе знаний, соответствующие словарным словам. информация об участниках, извлечённая на предыдущих этапах анализа 7/12

Примеры конструкций Президент Грузии Михаил Саакашвили назначил бригадного генерала Георгия Каландадзе начальником Объединенного штаба Вооруженных сил страны 8/12

Сбор информации об участниках ситуации Назначил ( личный глагол в активном залоге ) Участник ( Им. п.)– президент Участник ( Вин. п.) – Георгия Каландадзе Участник ( Тв. п.) - начальником 9/12

Интерпретация ролей Назначил ( личный глагол в активном залоге ) Участник ( Им. п.) – президент 1- ый участник ( кто _ назначил ) Участник ( Вин. п.) – Георгия Каландадзе 2 - ой участник ( кого _ назначил ) Участник ( Тв. п.) - начальником 3- ий участник ( кем _ назначил ) 10/12

Результаты извлечения

Выводы Преимущества нового подхода : оптимизация работы правил ; сокращение количества правил ; облегчение перенастройки на другую задачу извлечения ; представление результатов в удобной форме. 12/12