Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемАнтонина Тарновская
1 Автоматическая обработка текста Лекция 5 Автоматический морфологический анализ Часть 1
2 Автматический морфологический анализ Введение Введение Примеры Примеры Проблемы и задачи Проблемы и задачи Основные этапы и модули Основные этапы и модули Основные методы Основные методы
3 Морфологическая разметка: проблемы и задачи Даже простой поиск в Интернете не может обойтись без морфологического анализа, тем более, поиск в корпусе: Фотография, съемка, фотографическая, съемок Запрос: Съемки фотографий в условиях города. Ответ поисковой системы: Анализ методов кластеризации новостного потока © Кондратьев Михаил Е. Санкт-Петербургский Государственный Университет Аннотация В работе анализируется ряд алгоритмов кластеризации новостной коллекции и приводится.. Эффективный анализ новостных информационных потоков в Интернет Программа интернет-трейдинга для работы на FOREX. Включает систему торговли, технический анализ и новостной поток агентства Dow Jones. Запрос: Анализ новостного потока
4 Морфологическая разметка Введение Введение Проблемы и задачи Проблемы и задачи Основные этапы Основные этапы Основные методы Основные методы
5 Аннотация: каждой единице соответствующего лингвистического уровня приписывается тег (набор характеристик) Аннотация: каждой единице соответствующего лингвистического уровня приписывается тег (набор характеристик) Морфологическая разметка: проблемы и задачи Бывают ли единицы без тэгов? Бывают ли единицы без тэгов? Пример 1. Поезд ИР-276 движется со скоростью 180 км/ч по 3-ему пути
6 Морфологическая разметка: проблемы и задачи что считать одним словоупотрбелнием? что считать одним словоупотрбелнием? Пример 2. Найти предложения, которые начинаются с конструкции глагол + сущ. в им. п. типа Посадил дед репку Морфологическая разметка: каждому словоупотрблению – морфологический тег Морфологическая разметка: каждому словоупотрблению – морфологический тег Пример в выдаче: Т.е. письмо отправлено накануне
7 Морфологическая разметка: проблемы и задачи Поиск по корпусу. Пример 3. Как употребляется в русском языке глагол стать? 1)ПРИЧЕМ, что важно, доходы стали больше у всех. 2)Поэтому 5% бедных сумели преодолеть черту бедности и перешли в разряд низкообеспеченных, которых теперь стало 29%. 3)Он стал " толще" на 3%. А всего середняков 22%. 4)Завод должен будет производить до 4,4 млн тонн стали в год. 5)Он будет состоять из двух доменных печей, сталелитейного завода с двумя конверторами и двумя установками непрерывной разливки стали.
8 Морфологическая разметка: проблемы и задачи Пример 4. Поиск по корпусу кратких прилагательных 1)Подлесова Ирина. [Ирина Подлесова. Рабочих удерживали на буровой насильно // "Известия", ] 2)В воскресенье рабочие, которых несколько суток безуспешно разыскивали спасатели МЧС, самостоятельно вышли к одному из населенных пунктов на севере Омской области. [Ирина Подлесова. Рабочих удерживали на буровой насильно // "Известия", ] 3)Рабочие-вахтовики Анатолий Кисин и Азот Сариснудян исчезли со своей буровой еще 9 июля. [Ирина Подлесова. Рабочих удерживали на буровой насильно // "Известия", ] 4) Об исчезновении людей стало известно сразу, рассказал "Известиям" оперативный дежурный управления по ГО и ЧС по Омской области Павел Горобец. На поиски были направлены 6 спасателей из Омской поисково-спасательной службы, подключили местных жителей. Первые результаты, выданные по запросу, из корпуса с неснятой омонимией:
9 Морфологическая разметка: проблемы и задачи Поиск по корпусу. Пример 5. Как употребляется в русском языке вопросительное местоимение что? 1)Он мне ничего не ответил, потому что не знал 2)Что он ничего не отвечает 3) Откуда я знаю, что он говорит? 4)Я с детства знаю, что жалость унижает человека, но сейчас я с этим не согласен.
10 Морфологическая разметка: проблемы и задачи Поиск по корпусу. Пример 6. Выяснить, различается ли семантика глагола знать в разных временах? 1)Он об этом не будет знать 2)Будем знать
11 Основные типы морфологической обработки нормализация словоформ (лемматизация), т.е. сведение различных словоформ к некоторому единому представлению - к исходной форме, или лемме); стемминг - другой вид нормализации, когда разные словоформы приводятся к одной основе, точнее "псевдооснове" (для некоторых задач, включая поиск в интернете, достаточно приведения к одной основе различных дериватов; например, прилагательное фотографический и существительное фотография могут быть приведены к одной основе, так как пользовательскому запросу будут удовлетворять и документы, содержащие словосочетание фотографический портрет, и документы, содержащие словосочетание портретная фотография)
12 частеречная аннотация (pos-tagging), т.е. указание части речи для каждой словоформы в тексте) полный морфологический анализ - приписывание грамматических характеристик словоформе (например, в цепочке словоформ по берегу реки словоформе берегу будут приписаны следующие грамматические характеристики: сущ., неодушевленное, мужского р., единственного числа, дательного падежа) дизамбигуация - разрешение морфологической омонимии Основные проблемы, связанные с любым типом морфологического анализа - это морфологическая омонимия (ср. предложение Эти типы стали есть в цехе, где стали может быть формой глагола стать и формой существительного сталь) «предсказатель»: анализ новых, редких слов или окказионализмов.
13 Морфологическая разметка: проблемы и задачи Для точности и полноты поиска необходима лемматизация (нормализация) морфологическая разметка снятие лексической омонимии (ср. уж – Уж свернулся кольцом – Уж небо осенью дышало) бившим в лицо снятие морфологической омонимии (бившим в лицо) Сложные конструкции и аналитические формы (потому что, будет писать, не только …, но и)
14 Морфологическая разметка: проблемы и задачи Задача: Задача: дать возможность пользователю работать с корпусом со снятой морфологической омонимией дать возможность пользователю работать с корпусом со снятой морфологической омонимией Проблемы: Проблемы: ручная разметка очень трудоемка (на снятие омонимии в корпусе объемом 5 млн словоупотреблений ушло несколько лет), а объем корпуса больше 100 млн ручная разметка очень трудоемка (на снятие омонимии в корпусе объемом 5 млн словоупотреблений ушло несколько лет), а объем корпуса больше 100 млн при автоматическом алгоритмическом снятии омонимии относительно высокий процент ошибок неизбежен при автоматическом алгоритмическом снятии омонимии относительно высокий процент ошибок неизбежен
15 Морфологическая разметка Введение Введение Примеры Примеры Проблемы и задачи Проблемы и задачи Основные этапы Основные этапы Основные методы Основные методы
16 Морфологическая разметка: основные шаги с_с_с_с_ дисперсионный анализпомощь{??|anova? Лемма- тизация словарь П=мр,ед,рд|П=ср,ед,рдС,мр,но=ед,рд ПРЕД С,жр,но= Ед,тв С=мр/жр/ср?,мн,ед,им,рд,дт,вн,т в,пр,од/но ? Про-грамма с помощью дисперсионного анализа ( ANOVA) Фридмана токени зация с помощьюдисперсионного анализа ANOVA Первич н морф анализ Снятие омон. Идиома тизация П=мр,ед,рд|С,мр,но=ед,рд ПРЕД С,жр,но= Ед,тв c помощью {с_помощью=ПРЕД} c помощью {с_помощью=ПРЕД} Разметчик
17 Результат морфологической разметки с помощью{с_помощью=ПРЕД} с помощью{с_помощью=ПРЕД} рангового{ранговый=П=мр,ед,рд} дисперсионного{дисперсионный=П=мр,ед,рд} рангового{ранговый=П=мр,ед,рд} дисперсионного{дисперсионный=П=мр,ед,рд} анализа{анализ=С,мр,но=ед,рд} (ANOVA) Фридмана{Фридман=С,фам,мр,од=ед,рд}
18 Пример: Следующий его пример основан на данных, представленных Siegel (1956, стр.233), и анализируется также с помощью предварительного тэгинга. Пример: Следующий его пример основан на данных, представленных Siegel (1956, стр.233), и анализируется также с помощью предварительного тэгинга. Морфологическая разметка: предварительный анализ примера
19 Слова с дефисом : Слова с дефисом : 1) по-моему, по-пушкински, 2) Петербургу-Петрограду-Ленинграду, 3) бело-желтым, штабс-капитана, удовлетворенно- смущенное, штабс-капитан Числа, "шаблоны": 1945г., тел Числа, "шаблоны": 1945г., тел сокращения: г., вв. и т.п. ст. сокращения: г., вв. и т.п. ст. особенности расстановки стилей: особенности расстановки стилей: разрядка: Д О Л Г О разрядка: Д О Л Г О дополнительные "внутрисловные" знаки: дополнительные "внутрисловные" знаки: м-е-е-е-дленно, о'key, he's знаки препинания знаки препинания вкрапления другого алфавита вкрапления другого алфавита Морфологическая разметка: проблемы и задачи Токенизация
20 Запрос: Организации, выдающие документы Предприятия, учреждения и организации могут выдавать копии имеющихся у них документов, исходящих от других предприятий, учреждений и организаций Давайте посмотрим, какие документы должны быть выданы подотчетному лицу, оплачивающему товары (работы, услуги) от имени организации-покупателя по доверенности. Проблемы морфологической разметки Лемматизация Документы выдаются организациями, … Ответы:
21 Какая лемма у следующих словоформ: Какая лемма у следующих словоформ: вице-президента вице-президента Моряки-подводники Моряки-подводники начлага начлага данные данные Управляемого Управляемого Давайте-ка Давайте-ка Тыс. Тыс. Прибывали Прибывали Строю Строю Скока (разг. от сколько) Скока (разг. от сколько) Проблемы морфологической разметки Лемматизация
22 Морфонологические чередования (внутренняя флексия): Морфонологические чередования (внутренняя флексия): лечь / лягу; лев / льва Супплетивизм Супплетивизм я - мне; хороший - лучше; быть - есть К какой исходной основе мы будем приводить данную словоформу К какой исходной основе мы будем приводить данную словоформу Например: пары глаголов исходная форма и страдательный залог на –ся (строить – строиться), подписать - подписывать причастия – как отдельная лемма или вместе с глаголом причастия – как отдельная лемма или вместе с глаголом отглагольные прилагательные отглагольные прилагательные
23 имена собственные (Лаврушинском, из нас Ай-Петри, а кто Чатыр-Даг, Кыргызстан) имена собственные (Лаврушинском, из нас Ай-Петри, а кто Чатыр-Даг, Кыргызстан) сложные слова (авиабомбами, многочленистая) сложные слова (авиабомбами, многочленистая) Сокращения (ДДТ, ПО) Сокращения (ДДТ, ПО) построение гипотез: построение гипотез:{??|anova? =мр/жр/ср?,мн,ед,им,рд,дт,вн,тв,пр,од/но} Проблемы морфологической разметки Незнакомые слова
24 Морфологическая разметка: проблемы и задачи Омонимия Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов …. (Ю. Трифонов) см. На 25 словоформ – 15 омонимичны, из них только 5 имеют по 2 возможных аннотации, у остальных больше 2-х
25 Проблемы морфологической разметки Омонимия Я сидел на барском сиденье, дышал горячим ветром, бившим в лицо, ощущая в то же время не истребимую никакими сквозняками пыль и легкий запах духов -- катафалк с хорошей скоростью мчался по шоссе на юг. (Ю. Трифонов) {\s}Я{я=S,сред,неод=им,ед|я=S,сред,неод=им,мн|я=S,сред,неод=род,ед|я=S,сред, неод=род,мн|я=S,сред,неод=дат,ед|я=S,сред,неод=дат,мн|я=S,сред,неод=вин,е д|я=S,сред,неод=вин,мн|я=S,сред,неод=твор,ед|я=S,сред,неод=твор,мн|я=S,ср ед,неод=пр,ед|я=S,сред,неод=пр,мн|я=S,ед,од=им,жен|я=S,ед,од=им,муж} сидел{сидеть=V,несов=прош,ед,изъяв,муж} на{на=PART=|на=PR=} барском{барский=A=пр,ед,муж|барский=A=пр,ед,сред} сиденье{сиденье=S,сред,неод=им,ед|сиденье=S,сред,неод=вин,ед|сиденье=S,с ред,неод=пр,ед}, дышал{дышать=V,несов=прош,ед,изъяв,муж} горячим{горячий=A=дат,мн|горячий=A=твор,ед,муж|горячий=A=твор,ед,сре д|горячее=S,ед,сред,неод=твор|горячить=V,несов=непрош,ед,прич,кр,муж,стра д|горячить=V,несов=непрош,мн,изъяв,1-л} ветром{ветер=S,муж,неод=твор,ед}, бившим{бить=V,несов=прош,дат,мн,прич|бить=V,несов=прош,твор,ед,прич, муж|бить=V,несов=прош,твор,ед,прич,сред} в{в=PR=} лицо{лицо=S,сред,неод=им,ед|лицо=S,сред,неод=вин,ед|лицо=S,сред,од=им,е д|лицо=S,сред,од=вин,ед},
26 ощущая{ощущать=V=непрош,деепр,несов} в{в=PR=} то{то=CONJ=|тот=A=им,ед,сред|тот=A=вин,ед,сред|то=S,ед,сред,неод=им|т о=S,ед,сред,неод=вин} же{же=PART=|же=S,сред,неод=им,ед|же=S,сред,неод=им,мн|же=S,сред,неод =род,ед|же=S,сред,неод=род,мн|же=S,сред,неод=дат,ед|же=S,сред,неод=дат,м н|же=S,сред,неод=вин,ед|же=S,сред,неод=вин,мн|же=S,сред,неод=твор,ед|же =S,сред,неод=твор,мн|же=S,сред,неод=пр,ед|же=S,сред,неод=пр,мн|же=CONJ =} время{время=S,сред,неод=им,ед|время=S,сред,неод=вин,ед} не{не=PART=} истребимую{истребимый=A=вин,ед,жен} никакими{никакой=A=твор,мн} сквозняками{сквозняк=S,муж,неод=твор,мн} пыль{пыль=S,ед,жен,неод=им|пыль=S,ед,жен,неод=вин} и{и=PART=|и=S,сред,неод=им,ед|и=S,сред,неод=им,мн|и=S,сред,неод=род,е д|и=S,сред,неод=род,мн|и=S,сред,неод=дат,ед|и=S,сред,неод=дат,мн|и=S,сре д,неод=вин,ед|и=S,сред,неод=вин,мн|и=S,сред,неод=твор,ед|и=S,сред,неод=т вор,мн|и=S,сред,неод=пр,ед|и=S,сред,неод=пр,мн|и=INTJ=|и=CONJ=} легкий{легкий=A=им,ед,муж|легкий=A=вин,ед,муж,неод} запах{запах=S,муж,неод=им,ед|запах=S,муж,неод=вин,ед|запах=S,муж,неод=и м,ед|запах=S,муж,неод=вин,ед|запахнуть=V,сов=прош,ед,изъяв,муж} духов{духов=A=им,ед,муж|духов=A=вин,ед,муж,неод|дух=S,муж,неод=род,мн |дух=S,муж,од=род,мн|дух=S,муж,од=вин,мн|духи=S,мн,муж,неод=род}
27 Проблемы морфологической разметки Системная омонимия: омоформы стандартные «утомляющие» типы омонимии, стандартные «утомляющие» типы омонимии, не снимаемые без синтаксического анализа, но очень легко снимаемые вручную, например, им. и вин. сущ., прилагательные им. и вин. сущ., прилагательные глаг. и прилаг, глаг. и прилаг, неизменяемые сущ. неизменяемые сущ. Более сложные случаи омонимии Более сложные случаи омонимии наречия (местоимения) vs. союзы наречия (местоимения) vs. союзы случаи неразрешимой омонимии: род и вин. м.р. при отрицании случаи неразрешимой омонимии: род и вин. м.р. при отрицании «сложные случаи»: наречия vs. частицы, наречия vs. вводные слова «сложные случаи»: наречия vs. частицы, наречия vs. вводные слова
28 Аналитические формы Аналитические формы буду писать Сложные союзы, предлоги и т.п. Сложные союзы, предлоги и т.п. как бы, потому что, в случае, с помощью, по крайней мере сокращения и т.п. сокращения и т.п. Терминологические словосочетания Терминологические словосочетания железная дорога железная дорога Разрывные союзы Разрывные союзы не только, но и Проблемы морфологической разметки Идиоматизация (сборка оборотов)
29 Основные этапы морфологической разметки в BNC A. Tokenization B. Initial tag assignment C. Tag selection (disambiguation) D. Idiomtagging E. Template Tagger F. Postprocessing: including Ambiguity tagging
30 Краткий обзор основных методов разметки
31 SUPERVISEDUNSUPERVISED selection of tagset/tagged corpus induction of tagset using untagged training data creation of dictionaries using tagged corpus induction of dictionary using training data calculation of disambiguation tools. may include: induction of disambiguation tools. may include: word frequencies affix frequencies tag sequence probabilities "formulaic" expressions tagging of test data using dictionary information tagging of test data using induced dictionaries disambiguation using statistical, hybrid or rule based approaches calculation of tagger accuracy
32 Морфологическая разметка Введение Введение Примеры Примеры Проблемы и задачи Проблемы и задачи Основные этапы Основные этапы Основные методы Основные методы
33 Морфологическая разметка Пример 1. Spoken English Corpus Perdita &NN1-NP0 ;, &PUN ; covering &VVG ; the &AT0 ; bottom &NN1 ; of &PRF ; the &AT0 ; lorries &NN2 ; with &PRP ; straw &NN1 ; to &TO0 ; protect &VVI ; the &AT0 ; ponies &NN2 ; ' &POS ; feet &NN2 ;, &PUN ; suddenly &AV0 ; heard &VVD-VVN ; Alejandro &NN1- NP0 ; shouting &VVG ; that &CJT ; she &PNP ; better &AV0 ; dig &VVB ; out &AVP ; a &AT0 ; pair &NN0 ; of &PRF ; clean &AJ0 ; breeches &NN2 ; and &CJC ; polish &VVB ; her &DPS ; boots&NN2;, &PUN ; as* CJS ; she &PNP ; 'd &VM0 ; be &VBI ; playing &VVG ; in &PRP ; the &AT0 ; match &NN1 ; that &DT0 ; afternoon&NN
34 Список используемых морфологических тэгов AJ0: general adjective AT0: article, neutral for number AV0: general adverb AVP: prepositional adverb CJC: co-ordinating conjunction CJS: subordinating conjunction CJT: that conjunction DPS: possessive determiner DT0: singular determiner NN0: common noun, neutral for number NN1: singular common noun NN2: plural common noun NP0: proper noun POS: genitive marker PNP: pronoun PRF: of PRP: prepostition PUN: punctuation TO0: infintive to VBI: be VM0: modal auxiliary VVB: base form of lexical verb VVD: past tense form of lexical verb VVG: -ing form of lexical verb VVI: infinitive form of lexical verb VVN: past participle form of lexical verb
35 шофер/substantiv_masc_sg_nom_bel бегал/verb_finit_prt_0_sg_masc_nref_ipf куда-то/adverb ремонтировать/verb_infinitiv_nref_ipf тягу/substantiv_fem_sg_akk_unb,/satzzeichen_komma а/konj_koor чекист/substantiv_masc_sg_nom_bel Морфологическая разметка Пример 2. Тюбингенский корпус русского языка
36 Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} истребимую{истребимый=A=ед,жен,вин} никакими{никакой=A=мн,твор} сквозняками{сквозняк=S,муж,неод=мн,твор} пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ} легкий{легкий=A=ед,муж,вин,неод} Я{я=S,ед,од=им} сидел{сидеть=V,несов=изъяв,прош,ед,муж} на{на=PR} барском{барский=A=ед,сред,пр} сиденье{сиденье=S,сред,неод=ед,пр}, дышал{дышать=V,несов=изъяв,прош,ед,муж} горячим{горячий=A=ед,муж,твор} ветром{ветер=S,муж,неод=ед,твор}, бившим{бить=V,несов=прич,прош,ед,муж,твор} в{в=PR} лицо{лицо=S,сред,неод=ед,вин}, ощущая{ощущать=V=несов,деепр,непрош} в{в=PR} то{тот=A=ед,сред,вин} же{же=PART} время{время=S,сред,неод=ед,вин} не{не=PART} истребимую{истребимый=A=ед,жен,вин} никакими{никакой=A=мн,твор} сквозняками{сквозняк=S,муж,неод=мн,твор} пыль{пыль=S,жен,неод,ед=вин} и{и=CONJ} легкий{легкий=A=ед,муж,вин,неод} запах{запах=S,муж,неод=ед,вин} духов{духи=S,муж,неод,мн=род} Морфологическая разметка Пример 3. Национальный корпус русского языка
37 По с`аду м`ожно гул`ять час`ами Морфологическая разметка Пример 3. Национальный корпус русского языка
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.