Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках
Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста
Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 2. Автоматический анализ текста на морфологическом уровне 1.Морфологически й уровень в ЛИТ 2.Основные понятия морфологии в компьютерной морфологии 3.Основные процедуры компьютерной морфологии 4.Компьютерная морфология русского языка 5.Технологии морфологического анализа 6.«Предсказание» (типизация) 7.Вопросы, смежные с синтаксисом
MorphWizard программа для создания и редактирования словаря (лексико-морфологической базы данных), совместимого с программным пакетом Dialing для обработки естественно- языкового текста (разработка группы АОТ) загружается со страницы (ссылка MorphWizard.zip) для ознакомления с функциональностью требуется словарь RusMorph.zip, загружаемый с той же страницы
MorphWizard: ОТКРЫТИЕ ФАЙЛА ПРОЕКТА СЛОВАРЯ
MorphWizard: ВХОД В КАЧЕСТВЕ ПОЛЬЗОВАТЕЛЯ
MorphWizard: ЗАГРУЗКА И СОЗДАНИЕ ИНДЕКСА
MorphWizard: НАЧАЛЬНОЕ СОСТОЯНИЕ ОКНА ПРОГРАММЫ
MorphWizard: ВВОД СЛОВА ДЛЯ ПОИСКА
MorphWizard: ПРОСМОТР РЕЗУЛЬТАТА ПОИСКА (1) или
MorphWizard: ПРОСМОТР РЕЗУЛЬТАТА ПОИСКА (2)
MorphWizard: РЕДАКТИРОВАНИЕ ФОРМ СЛОВА
MorphWizard: ВВОД НОВОГО СЛОВА
MorphWizard: ПОДБОР БЛИЖАЙШЕГО СООТВЕТСТВИЯ (ПРЕДСКАЗАНИЕ)
MorphWizard: РЕДАКТИРОВАНИЕ БЛИЖАЙШЕГО СООТВЕТСТВИЯ
MorphWizard: НОВОЕ СЛОВО ВВЕДЕНО
ДИФФ. ПРИЗНАКИ КЛАССИФИКАЦИИ ТЕХНОЛОГИЙ МОРФ. АНАЛИЗА Направление анализа: слева направо vs справа налево vs комбинированный Используется только конкатенация («морфотактика (квази)алломорфов») vs моделируются альтернационные преобразования (например, как в двухуровневой морфологии) Число порядков (рангов, дуг в конечном автомате): от 1 до ((число букв в словоформе) -1) Недетерминированность (перебор вариантов) vs детерминированность за счет подготовки данных
ОСНОВНЫЕ СПОСОБЫ ПРЕДСТАВЛЕНИЯ МОРФОЛОГИЧЕСКИХ ДАННЫХ (0)
ОСНОВНЫЕ СПОСОБЫ ПРЕДСТАВЛЕНИЯ МОРФОЛОГИЧЕСКИХ ДАННЫХ (1) узелЛО(узел) + (N ИЛИ A)+ sg узлаЛО(узел) + G + sg Словарь словоформ
ОСНОВНЫЕ СПОСОБЫ ПРЕДСТАВЛЕНИЯ МОРФОЛОГИЧЕСКИХ ДАННЫХ (2) 0:узЛО(узел)1 1:ел(N ИЛИ A)+ sg лаG + sg Квазиагглютинативное представление (модель морфотактики неизменяемых псевдоморфов)
ОСНОВНЫЕ СПОСОБЫ ПРЕДСТАВЛЕНИЯ МОРФОЛОГИЧЕСКИХ ДАННЫХ (3) 0:узЬлЛО(узел)1 1:#1:#(N ИЛИ A)+ sg лаG + sg Морфонологическая модель (моделирование чередований) включает дизъюнктивно упорядоченные правила Ь Ø / ___ V Ь е
ОСНОВНЫЕ СПОСОБЫ ПРЕДСТАВЛЕНИЯ МОРФОЛОГИЧЕСКИХ ДАННЫХ (4) 0:уз(е ИЛИ Ø)л ЛО(узел) ) + схема выбора основ 1 1:#1:#(N ИЛИ A)+ sg аG + sg Гибридная модель (квазиагглютинация + моделирование чередований) включает схемы выбора основ (N ИЛИ A) + sg
ОСНОВНЫЕ СПОСОБЫ ПРЕДСТАВЛЕНИЯ МОРФОЛОГИЧЕСКИХ ДАННЫХ (5) 0:узелЛО(узел)1 узлЛО(узел)2 1:#1:#(N ИЛИ A)+ sg 2:аG + sg Квазиагглютинативное представление с множественными основами
ОСНОВНЫЕ СПОСОБЫ ПРЕДСТАВЛЕНИЯ МОРФОЛОГИЧЕСКИХ ДАННЫХ (6) n-арное дерево букв (преобразуется в конечный автомат)