Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемВероника Струняшева
1 ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ им. М.В. Ломоносова Факультет ВМиК
2 СОДЕРЖАНИЕ ДОКЛАДА 1. Задача формального описания лексических и морфосинтаксических особенностей текстовых единиц. 2. Результаты сравнительного анализа средств описания (НКРЯ, Alex, RCO). 3. Концепция лексико-синтаксического шаблона языковых конструкций. 4. Основные возможности языка записи лексико- синтаксических шаблонов (далее LSPL).
3 ЗАДАЧА ОПИСАНИЯ ЯЗЫКОВЫХ КОНСТРУКЦИЙ Изучение терминологических и дискурсивных особенностей НТ прозы Потребность формализовать характерные конструкции (Под T будем понимать D, Далее докажем P, Допустим, что S) Определение множества лексем, грамматических форм, синтаксических условий Фиксирование в виде декларативной структуры лексико-синтаксического шаблона языковой конструкции NG ACC [«мы»] «будем называть»T INS
4 СРЕДСТВА ОПИСАНИЯ ЕДИНИЦ ТЕКСТА ДЛЯ ПОИСКА ФРАГМЕНТОВ В ТЕКСТАХ НА РУССКОМ ЯЗЫКЕ Единицы текста: словоформы, последовательности слов, словосочетания Национальный корпус русского языка (НКРЯ) ограниченность корпуса; лингвистическая разметка поиск последовательности слов по их грамматическим и лексико- семантическим характеристикам Система Alex лексические шаблоны для узкоспециализированных текстов средства описания словосочетаний, без указания грамматических признаков RCO Pattern Extractor/система GATE правила и шаблоны для извлечения из текста специфических объектов формальный язык в стиле ЯП (атрибутно-объектная модель текста)
5 СРАВНЕНИЕ ЯЗЫКОВЫХ СРЕДСТВ: ОПИСАНИЕ ЛЕКСИКО-ГРАММАТИЧЕСКИХ ОСОБЕННОСТЕЙ Лексико-графические единицы Морфо-синтаксические условия Конкретная словоформаПозволяют все средства Произвольная символьная строка из буквенных и небуквенных символов НКРЯ не производит поиск строк со знаками препинания Произвольная словоформа в рамках лексемы Недоступно в Alex без описания шаблона всех словоформ Морфологические характеристики (часть речи, падеж, число, время) Есть в НКРЯ и RCO Грамматическое согласование нескольких единиц Нельзя непосредственно записать ни в одной из систем
6 СРАВНЕНИЕ ЯЗЫКОВЫХ СРЕДСТВ: ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ Логические операции Запись конструкций Комбинирование лексических условий Есть во всех системах Комбинирование морфо- синтаксических условий Есть в НКРЯ и RCO Альтернативы и повторенияОтсутствуют в НКРЯ Именование конструкцийВозможно в Alex и RCO
7 Разработка формального языка для: записи специфических языковых конструкций для их представления в системе автоматической обработки НТТ; записи запросов на поиск конструкций для системы поддержки лингвистических исследований. Лексико-синтаксический шаблон – структурный образец языковой конструкции, отображающий ее лексические и поверхностно-синтаксические свойства. Принцип отбора выразительных средств: гибкая и интуитивно понятная запись основных лексических и поверхностно-синтаксических свойств конструкций. ЛЕКСИКО-СИНТАКСИЧЕСКИЙ ШАБЛОН
8 ЯЗЫК LSPL-ШАБЛОНОВ: ОСНОВНЫЕ ВОЗМОЖНОСТИ Элемент-слово включает: часть речи (A, N, V, Pa и т.д.) – A индекс – A1 A2 N лексема ( ) – A уточнение грамматических характеристик (имя=значение) – A Грамматическое согласование элементов шаблона: A N Слово тяжелый и следующее за ним существительное согласованы в роде, числе и падеже: тяжелым вечером, тяжелых камней, тяжелое тело
9 ЯЗЫК LSPL-ШАБЛОНОВ: ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ AP = A(A) | Pa(Pa) AS= { AP } N [в] (N) Элемент-слово Имя шаблона Экземпляр шаблона Условия согласования Альтернативы | Повторение {} Опциональное вхождение [] Параметры шаблона Элемент-слово Имя шаблона Экземпляр шаблона Условия согласования Альтернативы | Повторение {} Опциональное вхождение []
10 ДОПОЛНИТЕЛЬНЫЕ ПРИМЕРЫ Однородные члены в виде именных групп: SNG = AN1 {, AN2} [и AN3] (AN1) Дама сдавала в багаж диван, чемодан, саквояж, картину, корзину, картонку и маленькую собачонку Шаблон типичной для деловой и НТ прозы конструкции: NP = AN1 {AN2 } (AN1) Характерная конструкция определения новых терминов: DT = NP1 ["мы"] "назовем" NP2 Указанную операцию назовем операцией поиска примеров
11 ЯЗЫК LSPL-ШАБЛОНОВ: СРАВНИТЕЛЬНЫЙ ПРИМЕР Прилагательное и существительное в именительном падеже единственного числа Язык LSPL: A N Язык RCO Pattern Extractor: {Morph.SpeechPart=Noun, Morph.Case=Nominative, Morph.Number=Singular} {Morph.SpeechPart=Adjective, Morph.Case=Nominative, Morph.Number=Singular}
12 ЗАКЛЮЧЕНИЕ Разработана первая версия программного модуля для поиска в тексте фрагментов, соответствующих заданному LSPL-шаблону. Изучаются возможности развития языка LSPL: усиление его выразительности: логическое комбинирование условий; грамматическое управление; введение операций над фрагментами: подсчет статистики; извлечение составных конструкций. СПАСИБО ЗА ВНИМАНИЕ!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.