Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемВладимир Тарарыкин
1 Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках
2 Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 1.Введение в дисциплину 2.Автоматический анализ текста на морфологическом уровне 3.Автоматический анализ текста на синтаксическом уровне 4.Семантический компонент в системах автоматического анализа текста
3 Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 3. Автоматический анализ текста на синтаксическом уровне –Задачи анализа текста на синтаксическом уровне –Модели представления структуры высказывания –Примеры реализации синтаксического анализа
4 Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 3. Автоматический анализ текста на синтаксическом уровне –Задачи анализа текста на синтаксическом уровне –Модели представления структуры высказывания –Примеры реализации синтаксического анализа
5 ЗАДАЧИ АНАЛИЗА ТЕКСТА НА СИНТАКСИЧЕСКОМ УРОВНЕ Задача - построение синтаксического представления текста, т.е. синтаксической структуры Сфера действия ограничена предложением На входе – цепочка словоформ с приписанными им грамматическими характеристиками (в том объеме, в котором это позволяет сделать лексико-морфоло- гический анализ и снятие грамматических неоднозначностей) На выходе полного синтаксического анализа – иерархическая структура (обычно дерево).
6 МЕСТО СИНТАКСИЧЕСКОГО АНАЛИЗА В ЛИТ Учет правил построения: слова из букв высказывания из слов текста из высказываний Типовые операции: Форм.Содерж.Форм.Содерж.Форм.Содерж. Коррекция+–+±–– Перевод++++(±)(±)(±)(±) Компрессия+(±)(±)(±)(±)(±)(±)±(±)(±) Информ. запрос +±±±––
7 Компьютерный анализ естественно-языкового текста СТРУКТУРА КУРСА 3. Автоматический анализ текста на синтаксическом уровне –Задачи анализа текста на синтаксическом уровне –Модели представления структуры высказывания –Примеры реализации синтаксического анализа
8 ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА
9 Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться?
10 ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму
11 ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму 1 Мама подлежащее 2 мыла сказуемое 3 раму прямое дополнение
12 ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму 1 Мама подлежащее 2 мыла сказуемое 3 раму прямое дополнение Как формально интерпретировать? ? ?
13 ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму Объединено в группу вместе с: 1 Мама ( мыла + раму ) 2 мылараму 3 мыла Первый вариант формального метаязыка:
14 ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? (Мама (мыла раму)) Объединено в группу вместе с: 1 Мама ( мыла + раму ) 2 мылараму 3 мыла Первый вариант формального метаязыка: Структура составляющих
15 ФОРМАЛЬНЫЙ ПОДХОД К ОРГАНИЗАЦИИ СИНТАКСИЧЕСКОГО АНАЛИЗА Мы хотим наши знания о синтаксисе формализовать. А каким метаязыком мы можем при этом пользоваться? Мама мыла раму Объединено в группу вместе с: 1 Мама ( мыла + раму ) 2 мылараму 3 мыла Первый вариант формального метаязыка: Структура составляющих
16 СТРУКТУРА СОСТАВЛЯЮЩИХ неформальное определение Составляющие – общее название для отдельных слов и групп в предложении, где группы – это отрезки предложения разной длины, которые объединяют более тесно связанные друг с другом единицы меньшего размера (тоже группы или отдельные слова) (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
17 СОСТАВЛЯЮЩИЕ (почти) формальное определение - преамбула Предложение рассматривается как конечное множество (элемент множества - словоупотребление) с определенным на нем отношением линейного порядка (следование слева направо). Благодаря линейному порядку может быть введено понятие отрезка. Составляющие определяются в виде системы, т.е. в виде их (составляющих – одиночных слов и групп слов в виде отрезков) множества, на элементы которого накладываются некоторые, чисто формальные, ограничения.
18 СОСТАВЛЯЮЩИЕ (почти) формальное определение - формулировка Система составляющих для конечного линейно упорядоченного множества S – это такое множество C отрезков этого множества S, которое удовлетворяет следующим условиям: - S C (само предложение целиком является элементом системы своих составляющих) - w S w C (каждое отдельно взятое словоупотребление в предложении является элементом системы составляющих этого предложения) - α,β, являющихся отрезками предложения S и входящих в C, либо α β=, либо α β, либо β α (любые две составляющие некоторого предложения или не пересекаются, или содержатся друг в друге)
19 РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ мотивировка В примере ниже: целесообразно отразить то общее, что есть между составляющими {Эти школьники}, {диктант по русскому языку}, {русскому языку} путем отнесения их к одному классу Ответив на вопрос: какие слова или группы слов (т.е. составляющие) в предложении относятся к одному и тому же грамматическому классу?, можно будет перейти к ответу на вопрос: по каким правилам составляющие одного класса складываются из составляющих других классов? (вопрос собственно о структуре) (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку)))
20 РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ формальное определение Размеченная система составляющих – упорядоченная тройка, где C – система составляющих, W – множество меток (список классов, введенных в данной классификации, иначе называемых «фразовые категории»), φ – отображение C в множество всех непустых подмножеств W (список пар «составляющая + метка/метки, приписанные данной составляющей»).
21 РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ пример 1 (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку))) W = {S – предложениеDet – местоименное прилагательное NP – именная группаN – имя существительное VP – глагольная группаAdv – наречие AnV – аналитическая формаAux – вспомогательный глагол глаголаV – глагол PP – предложная группаPrep – предлог A – имя прилагательное} NP DetNAdvAuxV AnV VP NNAPrep NP PP S
22 РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ пример 1 (Эти школьники) (скоро (будут писать)) (диктант (по (русскому языку))) Эти,Detскоро будут писать, VPЭти школьники скоро будут писать школьники, Nдиктант, N диктант по русскому языку, S Эти школьники, NPпо, Prep скоро, Advрусскому, A будут, Auxязыку, N писать, Vрусскому языку, NP будут писать, AnVпо русскому языку, PP NP DetNAdvAuxV AnV VP NNAPrep NP PP S
23 РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ пример 2
24 РАЗМЕЧЕННЫЕ СИСТЕМЫ СОСТАВЛЯЮЩИХ пример 3
25 РЕКОМЕНДОВАННАЯ ЛИТЕРАТУРА Тестелец Я. Г. Введение в общий синтаксис. М., (Глава II) Гладкий А. В. Синтаксические структуры естественного языка в автоматизированных системах общения. М., (Глава 2)
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.