Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемЗоя Полубесова
1 Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках
2 Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста
3 Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2. Автоматический анализ текста на морфологическом уровне 1.Морфологически й уровень в ЛИТ 2.Основные понятия морфологии в компьютерной морфологии 3.Основные процедуры компьютерной морфологии 4.Компьютерная морфология русского языка 5.Технологии морфологического анализа 6.«Предсказание» (типизация) 7.Вопросы, смежные с синтаксисом
4 ПЛАН ЛЕКЦИЙ Xerox Tools: альтернативные инструменты операции высокого уровня дополнительные функциональные возможности 2.Резюме по морфологии специальные функции: технология ISpell «предсказание» в АОТ 3.Частеречная разметка типы омонимии данные о русских омоформах разметка в Национальном корпусе методы снятия грамматической неоднозначности
5 ДРУГИЕ ИНСТРУМЕНТЫ ДЛЯ РАБОТЫ С КОНЕЧНЫМИ ПРЕОБРАЗОВАТЕЛЯМИ FSA Utilities (Gertjaan van NOORD, State University of Groningen) Intex (Max Silberztein, Laboratoire d'Automatique Documentaire et Linguistique, Université Paris 7, сейчас - Université de Franche-Comté) fcomte.fr/ fcomte.fr/ Unitex - версия Intex на условиях GPL: (Institut d'électronique et d'informatique Gaspard-Monge, Université Paris-est Marne la vallée) igm.univ-mlv.fr/~unitex/ igm.univ-mlv.fr/~unitex/ FSM tools (Mehryar MOHRI, AT&T)
6 ДОПОЛНИТЕЛЬНЫЕ ВОЗМОЖНОСТИ XEROX TOOLS Помимо моделирования порядка следования конструктивных компонентов и соотнесения ПВ с ПС: Моделирование формальных модификаций (например, чередований) –собственный компилятор для двухуровневых правил (twolc) –операции высоких уровней над регулярными выражениями
7 ДВУХУРОВНЕВЫЕ ПРАВИЛА (КРАТКИЕ СВЕДЕНИЯ) 1983: работа Киммо Коскенниеми Two-level morphology Основная идея: параллельное действие правил, работа которых не столько преобразует цепочки символов, сколько соотносит их между собой Четыре типа правил –a : b c_da всегда реализуется как b в контексте c_d; –a : b c_d a реализуется как b только в контексте c_d; –a : b c_d a реализуется как b только в контексте c_d и ни в каком другом контексте; –a : b / c_d a никогда не реализуется как b в контексте c_d
8 ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (1) Предварительно вводятся: символ ?любой символ из используемого алфавита оператор $включение: $A = def [?* A ?*]
9 ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (2) оператор замены A -> B = def [ [ ~$[A – 0] [A.x. B]]* ~$[A – 0]] «Все, что не содержит непустых цепочек языка A, сцепляется с преобразователем A.x. B с возможной итерацией всего этого (или, вообще, с заменой пустой цепочкой), после чего следует все, что не содержит непустых цепочек языка A»
10 ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (3) Пример использования оператора замены: Чередования в 1 л. ед. ч. русских глаголов 2 спряжения: ходить – хожу, но ходят, ходит любить – люблю, но любят, любит без чередования говорить – говорю, но говорят, говорит
11 ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (4) Лексикон Verb2 LEXICON Root ljub Ending1 ; khod Ending1 ; sid Ending1 ; govor: Ending1 ; LEXICON Ending1 +1pSg:+1pSgju # ; +2pSg:ish # ; +3pSg:it # ; +1pPl:im # ; +2pPl:ite # ; +3pPl:jat # ;в соотносит, например: ljub+1pSg ljub+1pSgju но ljub+3pPl ljubjat
12 ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (5) В командной строке xfst read regex [[b +1pSg j u -> b l j u] & [d +1pSg j u -> z h u]] read Verb2.txt compose дает отношение, в котором соотносятся ljub+1pSg (ljub+1pSgju – промежуточный иуровень, отсутствует после композиции) ljublju
13 ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (6) оператор разметки A -> B... C Всякая цепочка A в выражениях на верхней ленте преобразователя должна соответствовать на нижней ленте такой же цепочке, но только в окружении B и С
14 ОПЕРАЦИИ ВЫСОКОГО УРОВНЯ В XEROX TOOLS (7) Пример использования оператора разметки регулярное выражение a | e | i | o | u -> [... ] позволяет выделить все гласные квадратными скобками, т.е., например, соотнести: engineer:[e]ng[i]n[e][e]r
15 ШИРОКИЙ НАБОР ВОЗМОЖНОСТЕЙ XEROX TOOLS моделирование структуры составных единиц по конструктивному принципу («что за чем идет», на уровне морфологии – морфотактика) соотнесение разных уровней представления языковых единиц (более формальных – поверхностных и более содержательных – глубинных, «лексических») моделирование формальных модификаций соединяемых элементов (на уровне морфологии - морфонология)
16 КОНЕЧНЫЕ ПРЕОБРАЗОВАТЕЛИ - ЗАДАЧИ НА СТЫКЕ МОРФОЛОГИИ И СИНТАКСИСА - локальный синтаксический анализ: снятие неоднозначностей (после морфологического анализа перед синтаксическим) - сегментация текста - поверхностный синтаксический анализ: маркировка и фильтрация синтаксических составляющих
17 ТЕХНОЛОГИЯ ISPELL Ispell интерактивная программа проверки орфографии в среде Unix единый алгоритм и единая архитектура позволяют применять ко многим языкам, заменяя лишь базу данных
18 БАЗА ДАННЫХ ISPELL Хранит данные о наборе словоформ, правильно построенных в данном языке. Включает: Словарь (обязательный компонент) Файл аффиксов
19 ISPELL: СООТНОШЕНИЕ ДАННЫХ В СЛОВАРЕ И ФАЙЛЕ АФФИКСОВ В словаре записи двух типов: словоформы без «флагов» (нет потребности в файле аффиксов) бугрится бугров бугром словоформы с «флагами» (отсылками к словарю аффиксов) бугрившийся/A бугристость/F бугристый/AS
20 ISPELL: СТРУКТУРА «ФЛАГА» В ФАЙЛЕ АФФИКСОВ flag *A: # # прилагательные и причастия # # прилагательные/причастия на -ый (м.р. в ед. и мн.ч.) [^Ц] Ы Й>-ЫЙ,ОГО# белый > белого (р.п.) Ц Ы Й>-ЫЙ,ЕГО# куцый > куцего (р.п.) [^Ц] Ы Й>-ЫЙ,ОМУ# белый > белому (д.п.) Ц Ы Й>-ЫЙ,ЕМУ# куцый > куцему (д.п.) Ы Й>-Й,М# белый > белым (т.п.) [^Ц] Ы Й>-ЫЙ,ОМ# белый > белом (п.п.) Ц Ы Й>-ЫЙ,ЕМ# куцый > куцем (п.п.) Ы Й>-Й,Е# белый > белые (мн,и.п.) Ы Й>-Й,Х# белый > белых (мн,р.п.) Ы Й>-Й,МИ# белый > белыми (мн,т.п.) # ж. и ср. род Ы Й>-ЫЙ,АЯ# белый > белая (ж,и.п.) [^Ц] Ы Й>-ЫЙ,ОЙ# белый > белой (ж,р.п.)
21 БАЗЫ ДАННЫХ ISPELL ДЛЯ РУССКОГО ЯЗЫКА 1.К.Книжник, В.Роганов 2.А.Лебедев ftp://scon155.phys.msu.su/pub/russian/ispell /rus-ispell.tar.gz
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.