Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках
Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста
Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 3. Автоматический анализ текста на синтаксическом уровне –Задачи анализа текста на синтаксическом уровне –Модели представления структуры высказывания –Примеры реализации синтаксического анализа
Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 3. Автоматический анализ текста на синтаксическом уровне –Задачи анализа текста на синтаксическом уровне –Модели представления структуры высказывания –Примеры реализации синтаксического анализа
ЗАДАЧИ АНАЛИЗА ТЕКСТА НА СИНТАКСИЧЕСКОМ УРОВНЕ Задача - построение синтаксического представления текста, т.е. синтаксической структуры Сфера действия ограничена предложением На входе – цепочка словоформ с приписанными им грамматическими характеристиками (в том объеме, в котором это позволяет сделать лексико-морфоло- гический анализ и снятие грамматических неоднозначностей) На выходе полного синтаксического анализа – иерархическая структура (обычно дерево).
МЕСТО СИНТАКСИЧЕСКОГО АНАЛИЗА В ЛИТ Учет правил построения: слова из букв высказывания из слов текста из высказываний Типовые операции: Форм.Содерж.Форм.Содерж.Форм.Содерж. Коррекция+–+±–– Перевод++++(±)(±)(±)(±) Компрессия+(±)(±)(±)(±)(±)(±)±(±)(±) Информ. запрос +±±±––
Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 3. Автоматический анализ текста на синтаксическом уровне –Задачи анализа текста на синтаксическом уровне –Модели представления структуры высказывания –Примеры реализации синтаксического анализа
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться?
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму 1 Мама подлежащее 2 мыла сказуемое 3 раму прямое дополнение
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму 1 Мама подлежащее 2 мыла сказуемое 3 раму прямое дополнение Как формально интерпретировать? ? ?
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму Объединено в группу вместе с: 1 Мама ( мыла + раму ) 2 мылараму 3 мыла Первый вариант формального метаязыка:
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? (Мама (мыла раму)) Объединено в группу вместе с: 1 Мама ( мыла + раму ) 2 мылараму 3 мыла Первый вариант формального метаязыка: Структура составляющих
ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму Объединено в группу вместе с: 1 Мама ( мыла + раму ) 2 мылараму 3 мыла Первый вариант формального метаязыка: Структура составляющих
СТРУКТУРА СОСТАВЛЯЮЩИХ неформальное определение Составляющие – общее название для отдельных слов и групп в предложении, где группы – это отрезки предложения разной длины, которые объединяют более тесно связанные друг с другом единицы меньшего размера (тоже группы или отдельные слова) (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
СОСТАВЛЯЮЩИЕ (почти) формальное определение - преамбула Предложение рассматривается как конечное множество (элемент множества - словоупотребление) с определенным на нем отношением линейного порядка (следование слева направо). Благодаря линейному порядку может быть введено понятие отрезка. Составляющие определяются в виде системы, т.е. в виде их (составляющих – одиночных слов и групп слов в виде отрезков) множества, на элементы которого накладываются некоторые, чисто формальные, ограничения.
СОСТАВЛЯЮЩИЕ (почти) формальное определение - формулировка Система составляющих для конечного линейно упорядоченного множества S – это такое множество C отрезков этого множества S, которое удовлетворяет следующим условиям: - S C (само предложение целиком является элементом системы своих составляющих) - w S w C (каждое отдельно взятое словоупотребление в предложении является элементом системы составляющих этого предложения) - α,β, являющихся отрезками предложения S и входящих в C, либо α β=, либо α β, либо β α (любые две составляющие некоторого предложения или не пересекаются, или содержатся друг в друге)
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ мотивировка В примере ниже: целесообразно отразить то общее, что есть между составляющими {Эти школьники}, {диктант по русскому языку}, {русскому языку} путем отнесения их к одному классу Ответив на вопрос: какие слова или группы слов (т.е. составляющие) в предложении относятся к одному и тому же грамматическому классу?, можно будет перейти к ответу на вопрос: по каким правилам составляющие одного класса складываются из составляющих других классов? (вопрос собственно о структуре) (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ формальное определение Размеченная система составляющих – упорядоченная тройка, где C – система составляющих, W – множество меток (список классов, введенных в данной классификации, иначе называемых «фразовые категории»), φ – отображение C в множество всех непустых подмножеств W (список пар «составляющая + метка/метки, приписанные данной составляющей»).
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ пример 1 (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку))) W = {S – предложениеDet – местоименное прилагательное NP – именная группаN – имя существительное VP – глагольная группаAdv – наречие AnV – аналитическая формаAux – вспомогательный глагол глаголаV – глагол PP – предложная группаPrep – предлог A – имя прилагательное} NP DetNAdvAuxV AnV VP NNAPrep NP PP S
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ пример 1 (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку))) Эти,Detскоро будут писать, VPЭти школьники скоро будут писать школьники, Nдиктант, N диктант по русскому языку, S Эти школьники, NPпо, Prep скоро, Advрусскому, A будут, Auxязыку, N писать, Vрусскому языку, NP будут писать, AnVпо русскому языку, PP NP DetNAdvAuxV AnV VP NNAPrep NP PP S
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ пример 2
РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ пример 3
РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА Тестелец Я. Г. Введение в общий синтаксис. М., (Глава II) Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., (Глава 2)