Factus. Система извлечения фактов ИСПОЛЬЗОВАНИЕ МАРКЕРОВ АКТАНТНЫХ ПОЗИЦИЙ ПРИ АНАЛИЗЕ ДЕЛОВЫХ ТЕКСТОВ ДЛЯ РАСШИРЕНИЯ ЛОГИЧЕСКОЙ СХЕМЫ ПРЕДМЕТНОЙ ОБЛАСТИ Азарова И. В. Гребеньков А. С. Ландо Т. М.
Factus. Система извлечения фактов Цели исследования Научная: проверка определенных лингвистических гипотез. Прикладная: построение работающей системы извлечения фактов на узкой предметной области и расширение границ применения технологии.
Factus. Система извлечения фактов Научный аспект исследования Построение методологии работы с различными предметными областями в сфере извлечения информации, т.е. определение необходимых ресурсов и принципов работы. Изучить возможности проецирования словаря RussNet на узкую предметную область (на онтологию этой области) и возможности соотнесения классов (понятий) и идентификаторов конкретных объектов (именованных сущностей).
Factus. Система извлечения фактов Предметная область В качестве предметной области были выбраны «назначения на должности управляющего персонала в компаниях», так как они довольно часто используется для иллюстрации возможности анализа текстов и имеет собственную информационную ценность. Данная область является полигоном для обкатки алгоритмов и проверки принципов работы. Планируется расширение границ предметной области: продукты, география, проекты компании, биографические данные.
Factus. Система извлечения фактов RussNet и модель предметной области И RussNet, и логико-понятийная схема строится на основе анализа текстов. RussNet фиксирует общую для различных функциональных стилей активную часть современного языка. Было отобрано «ядро» предметной области на основе текстов деловой тематики. Можно ли естественным образом добавить к RussNet терминологическое «расширение»?
Factus. Система извлечения фактов Построение онтологии предметной области приближенность к объективной картине мира; соответствие описания толковым словарям, энциклопедиям или другим ресурсам; удобство обработки итоговой онтологии; потенциальная возможность автоматически расширять онтологию; возможность относительно простого соотнесения со структурой wordnet-словарей.
Factus. Система извлечения фактов Классы объектов Organization, Person, Position Все классы (даже Position) «открытые»: директор по безопасности директор по безопасности и режиму Изначально классификация понятий предметной области была создана вручную, данные представлены в формате OWL в редакторе Protégé. Порядка 500 узлов. Расширяется автоматически. Интерпретация в духе SUMO лучше подходит, чем структура Wordnet.
Factus. Система извлечения фактов Должность «заместителей», которые вводятся в логическую структуру в виде стандартного расширения. Например, для понятия заместитель креативного директора будет автоматически создаваться узел онтологии Position.Leader.Director.Special.Art.Deputy на основе имеющегося понятия креативный директор Position.Leader.Director.Special.Art.
Factus. Система извлечения фактов Прикладной аспект Задача: извлечение и накопление фактов из текстов деловой тематики. Под «фактом» понимается набор извлеченных сущностей, связанных определенным отношением. Источник текстов: новостные Интернет-ресурсы.
Factus. Система извлечения фактов Пример: Вася Пупкин был назначен директором по закупкам фирмы «Рога и копыта» Результат работы: Entity Person: Василий Пупкин Entity Organization: «Рога и копыта» Entity Position: директор по закупкам
Factus. Система извлечения фактов Position Y Person X Organization Z occupiesPosition(X, Y, Z)
Factus. Система извлечения фактов Общие принципы и ограничения Текст – «руда», факты – «алмазы», так как нет стилевых и тематических ограничений. Попытка моделировать взгляд читателя: текст просеивается, отбрасываем лишнее. Нет полной обработки входящего текста. Ограничение по времени/скорости. Предполагается работа в online-режиме. Извлечение без верификации человеком: лучше пропустить факт, чем вычленить не-факт. Максимальная автоматизация процесса.
Factus. Система извлечения фактов Основные задачи 1.Извлечение и нормализация сущностей: хххх господина Васи Пупкина хххх хххх на должность директора по… хххх хххх фирмы «Рога и копыта» хххх 2.Установление искомого синтактико- семантического отношения между ними, (т.е. выделение факта).
Factus. Система извлечения фактов Лингвистические механизмы Онтология. Используется для структурного описания предметной области. Формальные грамматики. Используются для сбора структур именованных сущностей. Синтактико-семантических шаблоны. Используются для установления отношения между сущностями. Маркеры актантных позиций пронизывают и связывают все уровни анализа.
Factus. Система извлечения фактов Фиксация именованных сущностей Достаточно регулярны, не включены в онтологию как экземпляры класса, хранятся в отдельных словарях, которые пополняются автоматически. Проблема с нормализацией сущностей Если г-н Иванов, Петр Иванов, Петр Сергеевич Иванов, П. Иванов, П.С. Иванов достаточно регулярны, то названия компаний представляют большую проблему Siemens, Siemens CT, Siemens Corporate, Siemens Corporate Technology, Сименс. Выбирается наиболее развернутое наименование в тексте.
Factus. Система извлечения фактов Маркеры актантных позиций 1.Лексические маркеры 2.Пунктуационные маркеры 3.Графематические маркеры 4.Маркер новизны 5.Синтаксические маркеры *отдельно и в сочетаниях
Factus. Система извлечения фактов 1. Лексические маркеры Слова и выражения, которые явным образом задают «роль» актантной позиции, например, господин, г-н, госпожа и проч. для Person, компания, в компании, концерн, ООО, ЗАО и проч. для Organization, на должность, на позицию, в должности, пост и проч. для Position.
Factus. Система извлечения фактов 2. Пунктуационные маркеры Четким пунктуационным маркером имени собственного компании являются кавычки ЗАО "Петер- Сервис", ОАО "Концерн "Ситроникс". Иногда скобки – ОАО "Концерн Научный Центр" (КНЦ).
Factus. Система извлечения фактов 3. Графематические маркеры Названия компаний и имена указываются в текстах в латинском написании чаще при пояснении в скобках и реже в основном тексте: Алекс Адамопулос (Alex Adamopulos), компания Direct Tech Inc., Siemens AG. Маркером имен собственных при обозначении лиц и организаций является написание с заглавной буквы, однако при этом необходимо отделять их от маркера начала предложения.
Factus. Система извлечения фактов 4. Маркер новизны В том случае когда у предиката occupiesPosition есть незаполненные позиции, то графематически отмеченные слова и словосочетания которых нет в словаре (предположительно, это имена собственные), получают дополнительный вес в качестве заполнителей актантных позиций. Например, ЗАО БМК-АВТО.
Factus. Система извлечения фактов 5. Синтаксические маркеры Глаголы, которые предопределяют «конфигурации» актантных позиций (рамки валентностей) как в плане взаимного расположения актантов, так и способа морфо- семантического способа их оформления. Например, для пассивного залога глагола «назначить» (обычно в форме прошедшего времени был назначен) типичная конфигурация включает словосочетание-подлежащее, которое задает позицию Человек, и дополнение в форме творительного падежа, обозначающее Должность, при котором в форме предложной конструкции или генитива указывается Организация. Иван Петров был назначен директором ООО «Бригада»
Factus. Система извлечения фактов Процедура анализа делового текста предметной области 1.Предварительная обработка текста: фрагментация текста на предложения и словоформы, определение различных графематических маркеров. 2.Морфологический и словарный анализ, определение стандартных грамматических показателей; за счет контекстных связей частично разрешается грамматическая омонимия. 3.Синтактико-семантический анализ, результатом которого является выделение трехкомпонентных фактов.
Factus. Система извлечения фактов Этап синтактико-семантического анализа 1.Единицей обработки является предложение, в дальнейшем планируется работа с абзацами. 2. Основой этого этапа анализа является использование семантико-синтаксических шаблонов (аналогов рамок валентностей), в которых задаются схемы реализаций фактов. На сегодняшний день подготовлено порядка 100 шаблонов. Они не задают строго порядка слов в отличие от контекстно-свободных грамматик. Полуавтоматическое пополнение шаблонов. 3. Для «сборки» компонентов используются формальные грамматики. Например: ЗАО Центр проектных решений.
Factus. Система извлечения фактов Структура шаблонов 1.Ключевые слова, или способы выражения предиката occupiesPosition, которые выражены лексически: назначить (активная или квазипассивная конструкция), уволить и т. д. 2.Связанные с конкретной формой предиката конфигурации актантов, то есть синтаксических маркеров. 3.Шаблоны декомпозиции для комплексных описаний компонентов Person, Position, Oranization.
Factus. Система извлечения фактов Выводы и перспективы исследования 1.Несмотря на то, что методика построения RussNet и онтологии предметной области Фактус опирается на анализ текстов, между структурами наблюдается довольно значительные отличия, которые, вероятнее всего, связаны с различием терминологического и нетерминологического употребления слов в деловом тексте и «усредненном», не имеющем четкой функциональной направленности тексте.
Factus. Система извлечения фактов Выводы и перспективы исследования 2.В отличие от чистых структур автоматического построения онтологий, в нашей системе реализован гибридный подход: первоначально ручная онтология расширяется автоматически
Factus. Система извлечения фактов Выводы и перспективы исследования 3.Синтаксические шаблоны используются совместно с порождающими грамматиками для описания структур компонентов. Мы надеемся, что этот подход позволит добиться значительного улучшения в поиске компонентов информации понятийной области.
Factus. Система извлечения фактов Выводы и перспективы исследования 4.Пропозициональная структура в качестве семантического представления имеет в большой степени теоретический характер. более предпочтительной является опора на текстовое выражение информации – на то, что явно выражено в нем, и на формализованную систему фиксации информации, больше напоминая заполнение заранее заданных «слотов» фрагментов информационных структур.
Factus. Система извлечения фактов Выводы и перспективы исследования 5.В настоящее время тестируется прототип системы, которая по завершению разработки будет включать в себя сразу несколько лингвистических механизмов анализа текста. Система проектируется таким образом, чтобы автономно обрабатывать большое количество реальных текстов деловой тематики.