Распознавание и классификация актантов в русском языке Semantic Role Labeling Илья Кузнецов НИУ ВШЭ (Москва) АИСТ-2013.

Презентация:



Advertisements
Похожие презентации
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Advertisements

ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ. 1.Что такое компьютерная лингвистика? 2. История. 3. Направления компьютерной лингвистики. 4. Заключение.
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных.
Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009.
Разработка средств автоматического синтаксического анализа как модуля системы понимания текста Лахути Д.Г., Баталина А.М., Епифанов М.Е., Кобзарева Т.Ю.
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Автоматическая обработка ЕЯ (обработка текста) 2 курс.
Основные этапы моделирования. Моделирование – исследование объектов путем построения и изучения их моделей. Моделирование – творческий процесс, и поэтому.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
© Mikhail Roshchin Semantic Modelling 1 Семантическое Моделирование в инженерии создания ПО Цель: автоматизирование создание программных систем,
ОСНОВНЫЕ ЭТАПЫ МОДЕЛИРОВАНИЯ Моделирование и формализация.
Система понимания и перевода естественного языка ABBYY Compreno Александр Костюченко ABBYY.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Анализ тональности сообщений Лидия Михайловна Пивоварова Системы понимания текста.
МОДЕЛИРОВАНИЕ КАК МЕТОД ПОЗНАНИЯ. МОДЕЛЬ - Упрощенное представление о реальном объекте, процессе или явлении, которое отображает его существенные свойства.
Основные этапы моделирования. Моделирование – исследование объектов путем построения и изучения их моделей.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
-упрощенное представление о реальном объекте, процессе илиявлении, которое отражает его существенные свойства -процесс построения моделей дляисследования.
Транксрипт:

Распознавание и классификация актантов в русском языке Semantic Role Labeling Илья Кузнецов НИУ ВШЭ (Москва) АИСТ-2013

Обзор Формулировка задачи Языковые модели и специфика SRL для русского языка Архитектура Планы и перспективы

I. Задача

I.1 Теоретическая основа Предикат – лексема, в толковании которой есть переменные. купить: X купил Y у Z за M X, Y, Z, M – валентности предиката продать: Z продал Y X-у за M Синтаксически в первом случае X – субъект, во втором – непрямой объект. Но у них одинаковая семантическая роль («Покупатель») Эту роль можно обобщить до любого получателя дарить: X дарит Y Z-у

I.1 Теоретическая основа Классический инвентарь состоит из абстрактных и универсальных ролей: – Агенс (активный субъект) – Пациенс (претерпевающий наибольшие изменения) – Адресат – Бенефициант – Время – Место … [Baker, Fillmore 1998]

I.1 Теоретическая основа На практике инвентари могут быть более конкретными – FrameNet – фреймовая организация: одна ситуация – один набор ролей – PropBank, ТКС – крайний случай, роли уникальны для каждого предиката (но сохраняются при залоговых преобразованиях) – Узкоспециализированные словари для прикладных систем

I.2 Задача Поверхностный семантический анализ Дано: – Предложение – Целевой предикат – Набор ролей для этого предиката Требуется: – Определить аргументы данного предиката – Распределить аргументы по семантическим ролям Р. Абрамович купил за 112 млн. долларов долю в компании "Труфон" Предикат: купить Покупатель: Р. Абрамович Товар: доля в компании "Труфон" Цена: 112 млн. долларов

1.3 Приложения Компактное представление информации Предложение на естественном языке набор триплетов субъект-предикат-объект Извлечение фактов Вопросно-ответные системы Машинный перевод Снятие неоднозначности

1.4 Трудности Зависимость от предобработки: – Токенизация – Морфологический анализ – Синтаксический анализ – Анализ кореференции – Выделение именованных сущностей Опора на внешние ресурсы – Тезаурусы – Словари глагольного управления – Фреймнет

1.5 Подходы Правиловый подход: – Хорошо для закрытых доменов Легко интерпретировать и чинить – Плохо для общей задачи Долго и дорого разрабатывать Трудно поддерживать Машинное обучение – Быстрая адаптация к новым доменам – Снижение затрат на разработку* Требовательность к внешним ресурсам

II. Языковые модели

II.1 Языковые модели Какая информация нам нужна для того, чтобы корректно распознать и классифицировать актанты? Информация о глагольном управлении – Актанты vs сирконстанты [X] купить [Y] [за Z] Иван купил велосипед за 100 рублей в пятницу Информация о присвоении семантических ролей – Как узнать, что Иван – покупатель, велосипед – товар, а 100 рублей – цена?

II.2 Глагольное управление Готовые («экспертные») ресурсы: – Словари – Фреймнет – Размеченные корпуса Автоматическое извлечение глагольных рамок – Актанты выражаются более регулярно, чем сирконстанты – Сирконстанты оформляются схожим образом для различных предикатов (время, место…)

II.3 Присвоение ролей «Иван купил велосипед за 100 рублей» Синтаксическая информация – Иван – субъект – Велосипед – прямой объект – 100 рублей – предложная группа с «за» Лексическая информация Мария купила автомобиль за рублей – Мария Иван – автомобиль велосипед – рублей 100 рублей [Иван, 100 рублей, велосипед] – лексической информации достаточно!

II.3 Присвоение ролей Информация о лексической близости слов – Тезаурус – Кластеризация «Деятели»: Иван, Мария, Microsoft «Артефакты»: велосипед, автомобиль, стол – Матрица сочетаемости / Мягкая кластеризация [+ломается],[+создается],[+дарится]… [+покупается],[+продаётся]

II.4 Специфика русского SRL Мало ресурсов – Тезаурусы в разработке – FrameBank в разработке (можно использовать для тестирования) Сильная морфология и слабый порядок слов – Не получится перенести наборы свойств из английского Синтаксис зависимостей

III. Архитектура

Предобработка Поиск предиката Поиск актантов Классификация актантов Модель глагольного управления Модель лексической близости

III. Архитектура Предобработка Поиск предиката Поиск актантов Классификация актантов Модель глагольного управления Модель лексической близости Токенизация Морфологический анализ Синтаксический анализ Распознавание именованных сущностей

III. Архитектура Предобработка Поиск предиката Поиск актантов Классификация актантов Модель глагольного управления Модель лексической близости

III. Архитектура Предобработка Поиск предиката Поиск актантов Классификация актантов Модель глагольного управления Модель лексической близости

III. Архитектура Предобработка Поиск предиката Поиск актантов Классификация актантов Модель глагольного управления Модель лексической близости

IV. Планы и перспективы

Уже сделано: – Разработана предварительная методология – Собран модуль предобработки Токенизация и разбивка на предложения – nltk Морфологический анализ – CST Lemma Синтаксический анализ – Russian Malt Parser – Собран корпус на 20 млн. слов В процессе: – Поиск большого корпуса – Эксперименты по моделированию лексической близости – Эксперименты по извлечению глагольных рамок

IV. Планы и перспективы В перспективе: – Полноценный SRL на упрощённых данных Только простые предложения Только финитные формы глаголов – Расширение на более сложные случаи Кореференция Сложные предложения Залоговые преобразования Номинализации

Спасибо!