Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.

Презентация:



Advertisements
Похожие презентации
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Advertisements

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Слово Лексемы и словоформы. Проблема слова «слово» Что называется словом в естественном языке? Самые разные вещи: «В этом стихотворении ровно сто слов»
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Разрешение функциональной омонимии на основе контекстных правил О.А. Невзорова, Ю.В. Зинькина, Н.В. Пяткин НИИММ им. Н.Г. Чеботарева, Казань.
Введение в теорию компиляции Основные принципы построения трансляторов.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Автоматическая обработка текста Лекция 5 Автоматический морфологический анализ Часть 1.
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Лекция 6 Грамматическое значение и способы его выражения.
ОМОНИМЫ Омонимы – это слова, одинаковые по звучанию, но совершенно различные по лексическому значению. Обычно омонимы относятся к одной части речи. Например:
Построение правил для автоматического извлечения словосочетаний из текста Загорулько Максим Юрьевич Научный руководитель н.с. ИСИ СО РАН, к.ф.-м.н. Е.А.Сидорова.
Транксрипт:

Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста

Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2. Автоматический анализ текста на морфологическом уровне 1.Морфологически й уровень в ЛИТ 2.Основные понятия морфологии в компьютерной морфологии 3.Основные процедуры компьютерной морфологии 4.Компьютерная морфология русского языка 5.Технологии морфологического анализа 6.«Предсказание» (типизация) 7.Вопросы, смежные с синтаксисом

ПЛАН ЛЕКЦИЙ Xerox Tools: альтернативные инструменты операции высокого уровня дополнительные функциональные возможности 2.Резюме по морфологии специальные функции: технология ISpell «предсказание» в АОТ 3.Частеречная разметка разметка в Национальном корпусе типы омонимии данные о русских омоформах методы снятия грамматической неоднозначности

АЛГОРИТМ ПРЕДСКАЗАНИЯ В АОТ: СОДЕРЖАНИЕ Функциональное назначение предсказания – морфологический анализ слов (словоформ), отсутствующих в словаре Метод предсказания – выявление аналогий со словоформами, распознаваемыми имеющимся словарем

АЛГОРИТМ ПРЕДСКАЗАНИЯ В АОТ: ЭТАПЫ 1)предсказание префиксального образования 2)предсказание по концовке, взятой из известных словоформ

ПРЕДСКАЗАНИЕ В АОТ: ПРЕДСКАЗАНИЕ ПРЕФИКСАЛЬНОГО ОБРАЗОВАНИЯ попытка найти существующую словоформу языка, которая максимально совпадала бы справа со входным словом. Если левая часть (потенциальный префикс) не длиннее M символов (пяти), а правая часть (совпавшая с известной словоформой) не короче N символов (четырех), то слово разбирается по образцу известной словоформы. [евро]технологию, [супер]коньками

ПРЕДСКАЗАНИЕ В АОТ: ПРЕДСКАЗАНИЕ ПО КОНЦОВКЕ ИЗ ИЗВЕСТНОЙ СЛОВОФОРМЫ создается конечный автомат, построенный на строках вида: ReverseSuffix(X)|Annot(X), где ReverseSuffix(Х) – инвертированная концовка известной словоформы длины K (пять букв), Annot(X) – аннотация словоформы X (анкод), например: меина|ед где аннотация «ед» интерпретируется как «ср. род, ед. ч., тв. пад.» Такая строка заносится в исходный лексикон, если она встречается: не менее L раз (трех) и чаще конкурентов (строк с таким же ReverseSuffix(X), но другим Annot(X) ) в пределах одной части речи ВСЕГДА предусматривается разбор именем существительным, хотя бы неизменяемым.

ПРЕДСКАЗАНИЕ В АОТ: ОЦЕНКА КАЧЕСТВА В новостных текстах наугад выбраны 150 неповторяющихся предсказанных слов. Исключались слова, у которых все буквы в верхнем регистре (аббревиатуры). Все слова оказались либо существительными, либо прилагательными. Для 131 слова в результатах предсказания был хотя бы один правильный результат (одновременно лемма, часть речи, род, число и падеж). Т.е. точность предсказания – 87%. Результат вполне сравним с известными результатами для английского языка - 85 % или для французского – 88%.

ЧАСТЕРЕЧНАЯ РАЗМЕТКА: НАЗНАЧЕНИЕ Частеречная разметка, морфологическая разметка (грамматическая разметка): a)информация о морфологических (грамматических) характеристиках словоформ текста, включаемая в электронное представление этого текста (в виде тегов) b)процедура добавления такой информации в электронное представление текста (как правило, частично или – редко – полностью автоматизированная)

ЧАСТЕРЕЧНАЯ РАЗМЕТКА: НАЗНАЧЕНИЕ Разметка корпусов текстов Подготовка учебных текстовых материалов (В некоторых технологиях обработки текстовой информации) формирование результата морфологического этапа обработки входного текста

ФРАГМЕНТ МОРФОЛОГИЧЕСКОЙ РАЗМЕТКИ В НАЦ. КОРПУСЕ РУССКОГО ЯЗЫКА Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов -- катафалк с хорошей скоростью мчался по шоссе на юг. (Ю. Трифонов) Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} истребимую{истребимый=A=ед,жен,вин} никакими{никакой=A=мн,твор} сквозняками{сквозняк=S,муж,неод=мн,твор} пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ} легкий{легкий=A=ед,муж,вин,неод} запах{запах=S,муж,неод=ед,вин}…

РАЗМЕТКА В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА Создавался с 2003 г., публичный доступ открыт с 2004 г. Более 140 млн. словоупотреблений Разметка: –морфологическая –семантическая

СОДЕРЖАНИЕ ПРОЦЕДУРЫ ЧАСТЕРЕЧНОЙ РАЗМЕТКИ Морфологический анализ всех словоформ текста Снятие неоднозначностей (или исправление ошибок) Добавление информации о результатах в электронное представление текста

ПРОЦЕДУРА РАЗМЕТКИ В НАЦИОНАЛЬНОМ КОРПУСЕ РУССКОГО ЯЗЫКА Автоматический морфологический анализ (Mystem, Dialing) Промежуточная обработка – фильтрация маловероятных вариантов, принудительное введение синкретичных вариантов разбора (Grambat) Снятие омонимии – диалоговая утилита (макрос Gramedit)

ТИПЫ ОМОНИМИИ лексическая – грамматическая на уровне слов (лексем) – на уровне словоформ омография – омофония Ни одно из этих противопоставлений не задает жесткого разбиения всего круга явлений омонимии на два непересекающихся класса.

ЛЕКСИЧЕСКАЯ И ГРАММАТИЧЕСКАЯ ОМОНИМИЯ лексическая (различные лексические значения, могут совпадать грамматические значения): ключ (для открывания замка и родник), топить (обогревать и погружать) грамматическая (различные грамматические значения, могут совпадать лексические значения): новости (р., д., пр. п. ед. ч. и им., в. п. мн.ч.), течь (гл. и сущ.) комбинированные формы трём (числительное и глагол), мели (повел. накл. гл., прош. вр. гл., ряд форм сущ.)

ОМОНИМИЯ НА УРОВНЕ ЛЕКСЕМ И НА УРОВНЕ СЛОВОФОРМ на уровне лексем (как совокупностей словоформ): –полная ключ (для открывания замка и родник), бор (лес и для бурения) –частичная с включением бор (лес и химический элемент; формы боры, боров … только у первого сущ.), рабочий (прил. и сущ.; формы рабочая, рабочей … только у прил.) –частичная с пересечением печь (гл. и сущ. – пересекаются в нач. формах), простой (прил. и сущ. – пересекаются в нач. формах, а также в форме простою), полк – полка (пересекаются в формах полка, полки, полку, полкам, полками, полках) на уровне словоформ – те же явления могут рассматриваться как отношения не между лексемами, а между отдельными словоформами

ОМОФОНИЯ И ОМОГРАФИЯ Узкое (более распространенное) понимание омофонии и омографии: омофония охватывает только случаи C, омография охватывает только случаи A. Широкое (более практичное) понимание омофонии и омографии: омофония охватывает случаи C и B, омография охватывает случаи A и B. A. Совпадение в написании, расхождение в звучании B. Совпадение в звучании и написании C. Совпадение в звучании, расхождение в написании замок – замок, впустите – впустите, бегу – бегу ключ, бор, печь, трём… компания – кампания, (в) течение – (в) течении, странная – странное

ОМОНИМИЯ КАК ОБЪЕКТ ОБРАБОТКИ ПРИ ЧАСТЕРЕЧНОЙ РАЗМЕТКЕ В связи с частеречной разметкой уместно говорить о разрешении: –грамматической омонимии –на уровне словоформ –не являющейся омофонией в узком смысле (= разрешение омографии в широком смысле)

РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА Сокирко А. В. Морфологические модули на сайте // Компьютерная лингвистика и интеллектуальные технологии. Тр. Междунар. конф. Диалог 2004 (Верхневолжский, 2–6 июня 2004). М., 2004 ( Сичинава Д. В. К задаче создания корпусов русского языка // Научно-техническая информация Сер. 2. Информационные процессы и системы. 11. (варианты статьи - и