Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках
Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста
Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста
Компьютерный анализ естественно-языкового текста ВВЕДЕНИЕ В ДИСЦИПЛИНУ Лингвистические информационные технологии: актуальные задачи Лингвистическая составляющая ЛИТ (прикладная лингвистика, компьютерная лингвистика, языковая инженерия) Функциональность ЛИТ и уровни обработки естественно-языкового текста
ЛИНГВИСТИЧЕСКИЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ Распознавание звучащей речи Поддержка ввода текста на электронные носители (распознавание печатного и рукописного текста, автозавершение, коррекция на лексико- морфологическом и синтаксическом уровне) Синтез речи по тексту Информационный поиск (лингвистически нетривиальные функции); рубрикация/индексация текстов Машинный перевод Извлечение фактов и знаний Диалог с компьютерными системами на естественном языке Компрессия текста (аннотирование, реферирование)
ЛИНГВИСТИЧЕСКИЕ ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ Составляющие по областям знания Техническая составляющая Математическая составляющая Лингвистическая составляющая
ЛИНГВИСТИЧЕСКАЯ СОСТАВЛЯЮЩАЯ ЛИТ компьютерная лингвистика это наука о том, в каком виде представлен естественный язык в компьютерных системах, решающих утилитарные задачи Содержательно близкое понятие: инженерная лингвистика (по В.Ш.Рубашкину)
ИНЖЕНЕРНАЯ ЛИНГВИСТИКА, иные трактовки термина 1.Linguistic Engineering – отрасль теоретических и прикладных знаний, позволяющих создавать компьютерные системы с лингвистическими компонентами; синоним – Natural Language Engineering, впоследствии – Human Language Technology 2.отрасль знаний, разрабатываемая школой под руководством Р.Г.Пиотровского (группа «Статистика речи»)
ФУНКЦИОНАЛЬНОСТЬ ЛИТ: ВХОДЫ И ВЫХОДЫ Входы Звучащая речь в электронном представлении Письменный текст как последовательность символов: –Без ограничений (любой текст) –Набор ключевых слов для поиска –Тексты как источник информации –Команды информационным системам и роботам Изображения письменного текста
ФУНКЦИОНАЛЬНОСТЬ ЛИТ: ВХОДЫ И ВЫХОДЫ Выходы Письменный текст: –Результат коррекции входного текста –Перекодированный из другой языковой системы –Результат компрессии входного текста –Изложение фактов и элементов знаний (соотв. исходному запросу) Звучащая речь –Озвученный входной текст –Озвученные результаты перекодирования, компрессии, выполнения информационных запросов Ссылки на электронные документы Действия роботов
ФУНКЦИОНАЛЬНОСТЬ ЛИТ: ВХОДЫ И ВЫХОДЫ Пути преобразования входов в выходы цифровая запись на ест. или иск. языке звучащая речь изображения письм. текста действия роботов- манипуляторов распознавание синтез выполнение команд коррекция переводкомпрессия инф. запросы
ФУНКЦИОНАЛЬНОСТЬ ЛИТ: операции с текстом в цифровом представлении Учет правил построения: слова из букв высказывания из слов текста из высказываний Типовые операции: Форм.Содерж.Форм.Содерж.Форм.Содерж. Коррекция+–+±–– Перевод++++(±)(±)(±)(±) Компрессия+(±)(±)(±)(±)(±)(±)±(±)(±) Информ. запрос +±±±––
ФУНКЦИОНАЛЬНОСТЬ ЛИТ: операции с текстом в цифровом представлении Уровень языка: Лексико- морфологи- ческий СинтаксическийТекстовой Типовые операции: Форм.Содерж.Форм.Содерж.Форм.Содерж. Коррекция+–+±–– Перевод++++(±)(±)(±)(±) Компрессия+(±)(±)(±)(±)(±)(±)±(±)(±) Информ. запрос +±±±––
Рекомендуемая литература Леонтьева Н.Н. Автоматическое понимание текстов: системы, модели, ресурсы. М., 2006.