Летняя школа по КЛ, 5-11 июля 20111 ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет.

Презентация:



Advertisements
Похожие презентации
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
Advertisements

ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ Ефремова Н.Э., Большакова Е.И., Носков А.А., Антонов В.Ю. МГУ имени М.В. Ломоносова,
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Программная поддержка языка лексико-синтаксических шаблонов Носков А. А. Научный руководитель: Большакова Е.И. Московский Государственный Университет им.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Теория экономических информационных систем Семантические модели данных.
Принципы отражения лингвистической терминологии в автоматическом словаре.
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Формализация предметной области при обработке фактографической информации А.В. Босов ИПИ РАН Д.В. Краюшкин ООО «САЙТЕК»
Презентация к уроку по информатике и икт (9 класс) на тему: Презентация на тему "Основы Visual Basic"
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
АНАЛИЗ МНОГОЗНАЧНОСТЕЙ В ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ТЕКСТАХ Кучуганов Валерий Никанорович, доктор техн. наук, профессор ГОУ ВПО "Ижевский государственный технический.
Информационно-поисковая система. Классификация информационно- поисковых систем.
Создание и редактирование базы данных 1. Рассмотрим форматы полей: символьный, числовой, дата, время. 2. Выполним практическую работу «создание и редактирование.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
От сложного – к простому. От непонятного – к понятному.
Транксрипт:

Летняя школа по КЛ, 5-11 июля ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет ВМиК

Летняя школа по КЛ, 5-11 июля СОДЕРЖАНИЕ 1. Особенности задачи 2. Выделяемые сущности 3. Технология решения: шаблоны 4. Проект ONTOS и система GATE 5. Задача извлечения терминологии Особенности терминов и их употребления Критерии распознавания Шаблоны для извлечения

Летняя школа по КЛ, 5-11 июля ОСОБЕННОСТИ ЗАДАЧИ Information Extraction Специфика задачи – распознавание и извлечение из текста определенной значимой информации - объектов и фактов, структуризация извлеченной информации Приложения: текстовая аналитика (экономическая, производственная, правоохранительная и др.) построение онтологий и тезаурусов, моделей проблемной области

Летняя школа по КЛ, 5-11 июля ВЫДЕЛЯЕМЫЕ СУЩНОСТИ Именованные сущности: Имена персоналий Географические названия Названия фирм и организаций Адреса Даты Отношения (связи) выделенных сущностей, например: работать в Смирнов А. работает в ОА «Альфа» с 1998 г. связанные с ними события и факты получение кредита, слияние компаний…

Летняя школа по КЛ, 5-11 июля ТЕХНОЛОГИЯ РЕШЕНИЯ Частичный синтаксический анализ : неэфффективность и многовариантность синт. разбора Лигвистические шаблоны, содержащие лексическую, морфологическую и синтаксическую информацию Лингвистич. шаблон – описание языковой конструкции, ее лексического состава и грамматических свойств: N работает в NP (Noun Phrase) Элементы шаблонов: Словоформы, лексемы (возможно, с указанием части речи/морфологических характеристик) Грамматические конструкции: именные и др. группы

Летняя школа по КЛ, 5-11 июля АвиКомп, 2000 – 2010 гг. Извлечение под управлением онтологии Инструментальная система GATE Семейство систем OntosMiner - для разных ЕЯ и ПО Цели Построение модели ПО Семантическая навигация по тексту Дайджестирование Реферирование: основа реферата - извлеченная информация ПРОЕКТ ONTOS

Летняя школа по КЛ, 5-11 июля СИСТЕМА GATE КАК ИНСТРУМЕНТ Набор стандартных программных компонент (лингвистических процессоров) для обработки текста Представление лингвистической информации об обрабатываемом тексте в виде набора аннотаций, которые хранятся отдельно от текста Графическая среда для сборки приложения из компонент

GATE: ПРИМЕРЫ АННОТАЦИЙ Сущность «Angela Merkel» Вид аннотации,позиции в текстеСодержание аннотации Lookup 41 47majorType=person_first, minorType=female Person 41 54gender=female, rule=PersonFinal, rule1=PersonFull Token 41 47category=NNP, kind=word, length=6, orth=upperInitial, string=Angela Token 48 54category=NNP, kind=word, length=6, orth=upperInitial, string=Merkel

Летняя школа по КЛ, 5-11 июля GATE : КОМПОНЕНТЫ Цепочка обработки текста в системе GATE: Tokeniser - разбиение текста на отдельные токены (числа, знаки препинания, слова) Gazetteer - создание аннотаций к словам на основании словарных файлов (названия городов, организаций, дней недели и т.д.) Sentence Splitter - разбиение текста на предложения Part of Speech Tagger - определение части речи слов на основании словаря и правил Semantic Tagger - распознавание языковых конструкций и сущностей на основе аннотаций и JAPE-правил OrthoMatcher (Orthographic Coreference ) - соотнесение идентичных сущностей с разными названиями

Летняя школа по КЛ, 5-11 июля GATE : ШАБЛОНЫ И ПРАВИЛА Язык JAPE - запись правил преобразования аннотаций Шаблоны для выявляемых конструкций, например: {Morph.SpeechPart="Adjective", Morph.Case="Nominative"} - шаблон для выявления прилагательных в именит. падеже Правила для преобразования аннотаций : левая часть – шаблон, правая – преобразование нужных аннотаций выявленной конструкции Rule: Second_name ({Token.SemanticType="Name: FName"}):family {[А-Я]}{Token.Text="."}{[А-Я]}{Token.Text=="."}) family.Family={rule="Second_name"} - правило для выявления имен персоналий вида Иванов И. и выделение из них фамилий

Летняя школа по КЛ, 5-11 июля ИЗВЛЕЧЕНИЕ ТЕРМИНОВ и СВЯЗЕЙ Терминологические слова и словосочетания: называют понятия проблемной области: общий регистр, число с плавающей точкой технология двойной накачки Приложения: индексирование текстов навигация по тексту поддержка терминологич. редактирования текстов построение глоссариев и предметных указателей создание онтологий и тезаурусов Часть приложений – обработка отдельного текста, но не коллекции

Летняя школа по КЛ, 5-11 июля ОСОБЕННОСТИ ТЕРМИНОВ Большинство словосочетаний – несвободные (некомпозиционные), т.е. их смысл не выводится из смысла компонент: железная дорога, длина слова Конвенциональность научно-технических терминов необходимость их определения в тексте: Под прерыванием понимается сигнал… Грамматическая структура терминов: чаще всего - именные словосочетания, их можно описать структурными грамматическими образцами: прилагательное-существительное – логический вывод, существительное- существительное в род. падеже – период упреждения

Летняя школа по КЛ, 5-11 июля МЕТОДЫ РАСПОЗНАВАНИЯ Применение статистических и лингвистических критериев: Статистические критерии Например, функция упорядочивания по статистике: log 2 |a| * freq (a), если a не вложено, иначе C-Value(a) = log 2 |a| * (freq (a) – P(Ta) -1 * b Ta freq (b)) где a – слово (словосочетание), |a| – его длина, freq(a) – частота встречаемости a в тексте, Ta – множество словосочетаний текста, содержащих a, P(Ta) – количество словосочетаний, содержащих a. электрический слой - двойной электрический слой

Летняя школа по КЛ, 5-11 июля МЕТОДЫ РАСПОЗНАВАНИЯ: ЛИНГВИСТИЧЕСКИЕ КРИТЕРИИ грамматические (синтаксические) образцы терминов: A N N - спектральный коэффициент излучения контексты употребления терминов: effect of T – effect of drought, effect of cold (последствие засухи, заморозков) such T1 as T2 – such crimes as money laundering (такие преступления, как отмывание денег) Лингвистическую информацию можно записать в виде шаблонов необходим язык шаблонов и поддерживающие его средства

Летняя школа по КЛ, 5-11 июля РАСПОЗНАВАНИЕ ТЕРМИНОВ: ТЕКСТОВЫЕ ВАРИАНТЫ При использовании терминов в тексте они могут образовывать варианты: Орфографические варианты: браузер - броузер Морфоварианты: спецсимвол – спецзнак Лексико-синтаксические варианты: механическое напряжение - напряжение дисковый контроллер – контроллер диска Варианты сокращений: ЦП, авост В словаре представлены далеко не все варианты терминов, их необходимо распознвать

Летняя школа по КЛ, 5-11 июля ТЕРМИНОЛОГИЧЕСКИЕ ВАРИАНТЫ: ПРИМЕР

Летняя школа по КЛ, 5-11 июля РАСПОЗНАВАНИЕ ТЕРМИНОВ: СОЕДИНЕНИЯ ТЕРМИНОВ Соединения нескольких терминологических словосочетаний: Бессоюзные соединения, с разрывом и без разрыва термина: разрядность внутренних регистров – разрядность регистра, внутренний регистр – разрядность регистра, внутренний регистр Соединения с союзом: шинам адреса, данных и управления – шина адреса, шина данных, шина управления – шина адреса, шина данных, шина управления Средство распознавания - лингвистические шаблоны

ШАБЛОНЫ: ЯЗЫК LSPL Лексико-синтаксический шаблон позволяет задать для элемента-слова: часть речи (A, N, V, Pa и т.д.) – A индекс – A1 A2 N лексему – A морфологические характеристики (имя=значение) – A Грамматическое согласование элементов шаблона: A N Прилагательное тяжелый и существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело

ЯЗЫК LSPL-ШАБЛОНОВ: ВОЗМОЖНОСТИ AP = A(A) | Pa(Pa) AN= { AP } N [в] (N) Элемент-слово Имя шаблона Экземпляр шаблона Условия согласования Альтернативы | Повторение {} Опциональное вхождение [] Параметры шаблона Элемент-слово Имя шаблона Экземпляр шаблона Условия согласования Альтернативы | Повторение {} Опциональное вхождение []

LSPL-ШАБЛОНЫ: ПРИМЕРЫ Шаблон типичной структуры термина: A N1 { N2 } (A=N1) реактивная сила, немаркированный квантор общности Шаблон типичной фразы-определения новых терминов: NP1 ["мы"] "назовем" NP2 Указанную операцию назовем операцией поиска примеров Шаблон образования терминологических вариантов: N1 N2 "," N3 {"и"|"или"} N4 #N1 N2, N1 N3, N1 N4 шинам адреса, данных и управления – шина адреса, шина данных, шина управления

Летняя школа по КЛ, 5-11 июля ЗАКЛЮЧЕНИЕ В основном – извлечение на основе правил (rule-based), все чаще - машинное обучение Точность и полнота извлечения зависят от набора шаблонов зависят друг от друга верхняя граница - до % Сложность задачи (технологическая): приемлемая полнота и точность достигается на больших массивах текстов обычно в рамках коммерческих компаний СПАСИБО ЗА ВНИМАНИЕ!