Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемВалентина Егина
1 Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках
2 Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста
3 Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2. Автоматический анализ текста на морфологическом уровне 1.Морфологически й уровень в ЛИТ 2.Основные понятия морфологии в компьютерной морфологии 3.Основные процедуры компьютерной морфологии 4.Компьютерная морфология русского языка 5.Технологии морфологического анализа 6.«Предсказание» (типизация) 7.Вопросы, смежные с синтаксисом
4 ПЛАН ЛЕКЦИЙ Xerox Tools: альтернативные инструменты операции высокого уровня дополнительные функциональные возможности 2.Резюме по морфологии специальные функции: технология ISpell «предсказание» в АОТ 3.Частеречная разметка разметка в Национальном корпусе типы омонимии данные о русских омоформах методы снятия грамматической неоднозначности
5 АЛГОРИТМ ПРЕДСКАЗАНИЯ В АОТ: СОДЕРЖАНИЕ Функциональное назначение предсказания – морфологический анализ слов (словоформ), отсутствующих в словаре Метод предсказания – выявление аналогий со словоформами, распознаваемыми имеющимся словарем
6 АЛГОРИТМ ПРЕДСКАЗАНИЯ В АОТ: ЭТАПЫ 1)предсказание префиксального образования 2)предсказание по концовке, взятой из известных словоформ
7 ПРЕДСКАЗАНИЕ В АОТ: ПРЕДСКАЗАНИЕ ПРЕФИКСАЛЬНОГО ОБРАЗОВАНИЯ попытка найти существующую словоформу языка, которая максимально совпадала бы справа со входным словом. Если левая часть (потенциальный префикс) не длиннее M символов (пяти), а правая часть (совпавшая с известной словоформой) не короче N символов (четырех), то слово разбирается по образцу известной словоформы. [евро]технологию, [супер]коньками
8 ПРЕДСКАЗАНИЕ В АОТ: ПРЕДСКАЗАНИЕ ПО КОНЦОВКЕ ИЗ ИЗВЕСТНОЙ СЛОВОФОРМЫ создается конечный автомат, построенный на строках вида: ReverseSuffix(X)|Annot(X), где ReverseSuffix(Х) – инвертированная концовка известной словоформы длины K (пять букв), Annot(X) – аннотация словоформы X (анкод), например: меина|ед где аннотация «ед» интерпретируется как «ср. род, ед. ч., тв. пад.» Такая строка заносится в исходный лексикон, если она встречается: не менее L раз (трех) и чаще конкурентов (строк с таким же ReverseSuffix(X), но другим Annot(X) ) в пределах одной части речи ВСЕГДА предусматривается разбор именем существительным, хотя бы неизменяемым.
9 ПРЕДСКАЗАНИЕ В АОТ: ОЦЕНКА КАЧЕСТВА В новостных текстах наугад выбраны 150 неповторяющихся предсказанных слов. Исключались слова, у которых все буквы в верхнем регистре (аббревиатуры). Все слова оказались либо существительными, либо прилагательными. Для 131 слова в результатах предсказания был хотя бы один правильный результат (одновременно лемма, часть речи, род, число и падеж). Т.е. точность предсказания – 87%. Результат вполне сравним с известными результатами для английского языка - 85 % или для французского – 88%.
10 ЧАСТЕРЕЧНАЯ РАЗМЕТКА: НАЗНАЧЕНИЕ Частеречная разметка, морфологическая разметка (грамматическая разметка): a)информация о морфологических (грамматических) характеристиках словоформ текста, включаемая в электронное представление этого текста (в виде тегов) b)процедура добавления такой информации в электронное представление текста (как правило, частично или – редко – полностью автоматизированная)
11 ЧАСТЕРЕЧНАЯ РАЗМЕТКА: НАЗНАЧЕНИЕ Разметка корпусов текстов Подготовка учебных текстовых материалов (В некоторых технологиях обработки текстовой информации) формирование результата морфологического этапа обработки входного текста
12 ФРАГМЕНТ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКИ В НАЦ. КОРПУСЕ РУССКОГО ЯЗЫКА Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов -- катафалк с хорошей скоростью мчался по шоссе на юг. (Ю. Трифонов) Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} истребимую{истребимый=A=ед,жен,вин} никакими{никакой=A=мн,твор} сквозняками{сквозняк=S,муж,неод=мн,твор} пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ} легкий{легкий=A=ед,муж,вин,неод} запах{запах=S,муж,неод=ед,вин}…
13 РАЗМЕТКА В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА Создавался с 2003 г., публичный доступ открыт с 2004 г. Более 140 млн. словоупотреблений Разметка: –морфологическая –семантическая
15 СОДЕРЖАНИЕ ПРОЦЕДУРЫ ЧАСТЕРЕЧНОЙ РАЗМЕТКИ Морфологический анализ всех словоформ текста Снятие неоднозначностей (или исправление ошибок) Добавление информации о результатах в электронное представление текста
16 ПРОЦЕДУРА РАЗМЕТКИ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА Автоматический морфологический анализ (Mystem, Dialing) Промежуточная обработка – фильтрация маловероятных вариантов, принудительное введение синкретичных вариантов разбора (Grambat) Снятие омонимии – диалоговая утилита (макрос Gramedit)
17 ТИПЫ ОМОНИМИИ лексическая – грамматическая на уровне слов (лексем) – на уровне словоформ омография – омофония Ни одно из этих противопоставлений не задает жесткого разбиения всего круга явлений омонимии на два непересекающихся класса.
18 ЛЕКСИЧЕСКАЯ И ГРАММАТИЧЕСКАЯ ОМОНИМИЯ лексическая (различные лексические значения, могут совпадать грамматические значения): ключ (для открывания замка и родник), топить (обогревать и погружать) грамматическая (различные грамматические значения, могут совпадать лексические значения): новости (р., д., пр. п. ед. ч. и им., в. п. мн.ч.), течь (гл. и сущ.) комбинированные формы трём (числительное и глагол), мели (повел. накл. гл., прош. вр. гл., ряд форм сущ.)
19 ОМОНИМИЯ НА УРОВНЕ ЛЕКСЕМ И НА УРОВНЕ СЛОВОФОРМ на уровне лексем (как совокупностей словоформ): –полная ключ (для открывания замка и родник), бор (лес и для бурения) –частичная с включением бор (лес и химический элемент; формы боры, боров … только у первого сущ.), рабочий (прил. и сущ.; формы рабочая, рабочей … только у прил.) –частичная с пересечением печь (гл. и сущ. – пересекаются в нач. формах), простой (прил. и сущ. – пересекаются в нач. формах, а также в форме простою), полк – полка (пересекаются в формах полка, полки, полку, полкам, полками, полках) на уровне словоформ – те же явления могут рассматриваться как отношения не между лексемами, а между отдельными словоформами
20 ОМОФОНИЯ И ОМОГРАФИЯ Узкое (более распространенное) понимание омофонии и омографии: омофония охватывает только случаи C, омография охватывает только случаи A. Широкое (более практичное) понимание омофонии и омографии: омофония охватывает случаи C и B, омография охватывает случаи A и B. A. Совпадение в написании, расхождение в звучании B. Совпадение в звучании и написании C. Совпадение в звучании, расхождение в написании замок – замок, впустите – впустите, бегу – бегу ключ, бор, печь, трём… компания – кампания, (в) течение – (в) течении, странная – странное
21 ОМОНИМИЯ КАК ОБЪЕКТ ОБРАБОТКИ ПРИ ЧАСТЕРЕЧНОЙ РАЗМЕТКЕ В связи с частеречной разметкой уместно говорить о разрешении: –грамматической омонимии –на уровне словоформ –не являющейся омофонией в узком смысле (= разрешение омографии в широком смысле)
22 РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА Сокирко А. В. Морфологические модули на сайте // Компьютерная лингвистика и интеллектуальные технологии. Тр. Междунар. конф. Диалог 2004 (Верхневолжский, 2–6 июня 2004). М., 2004 ( Сичинава Д. В. К задаче создания корпусов русского языка // Научно-техническая информация Сер. 2. Информационные процессы и системы. 11. (варианты статьи - и
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.