Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемДенис Петякин
1 Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009
2 Извлечение информации из текстов Выявления в электронных документах всех упоминаний об объектах и фактах, представляющих интерес для пользователя Сфера интересов пользователя определяется заранее (в процессе создания или настройки системы извлечения)
3 Извлечение в «слабом» смысле Поверхностный анализ близкий к семантическому маркированию текста Проекция на простую реляционную модель Анализ простых контекстов. Низкая полнота Неплохо работает как поисковая технология на больших коллекциях документов
4 Извлечение в «сильном» смысле Детальный анализ с опорой на модель предметной области, точная классификация объектов Проекция на объектно-ориентированную модель Нормализация извлекаемого Отождествление извлекаемого
5 Слабое и сильное
6 Слабое и сильное: примеры Исполнительный директор ОАО «Рога и копыта» Алексей Иванов… Заместителем Иванова в комитете Госдумы по вопросам внешней политики назначена Юлия Петрова.
7 Что нужно? Нужно знать язык Нужно обладать «фоновыми» знаниями о предметной области
8 Средства анализа естественного языка Средства общего лингвистического анализа Средства предметно-ориентированного анализа – выявление целевой лексики – распознавание целевых сущностей, их атрибутов и отношений между этими сущностями
9 CPSL (common pattern specification language) Декларация способа выражения в тексте сущности или факта в терминах грамматических атрибутов и используемой лексики.
10 Расширение CPSL Переменные Проверка взаимного расположения фрагментов текста (не только следование, но и различного рода вложение, пересечение) Функции для обращения к модели предметной области
11 Опора на модель Точная классификация сущностей – Президенту ОАЭ Газпром сделал предложение… – Президенту ОАО Газпром сделали предложение… Точное установление отношений – Отдел компании (является частью) – Совет директоров компании (возглавляет)
12 Модели недостаточно Для разрешения неоднозначностей иногда требуется обширная фактографическая база – По словам руководителя администрации президента Российской Федерации Сергея Нарышкина… – По словам руководителя администрации президента Медведева….
13 Ресурс знаний База априорных предметных знаний + Словарь предметной лексики + Фактографическая база
14 Классификация знаний
15 Сложности Таксономия (дифференцирующие критерии) Что выражать через атрибуты, а что через таксономию. Иногда идем от текстов (иерархия по гипонимам/гиперонимам) Аморфные понятия (власти, аппарат = администрация)
16 Унификация + вывод + отождествление = частичное целеориентированное разрешение референции Пример: – Украинский спикер – Спикер украинского парламента – Спикер Верховной Рады
17 Вывод: интерпретация признаков Ярославский губернатор Ярославский мэр
18 Сложность Курчатовский институт г. Курчатов
19 Вывод: для унификации Украинский спикер
20 Отождествление Правила отождествления Сопоставление подграфов в фактографической базе
21 Исида-Т Инструментальное средство для создания специализированных систем извлечения информации
22 Вопросы?
23 Спасибо за внимание!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.