8.4. WordNet: Проблемы. WordNet: проблемы использования в автоматической обработке Отсутствие связей между частями речи Проблема отношений (недостаточно,

Презентация:



Advertisements
Похожие презентации
–Lexical chains - textual cohesion (Halliday & Hasan) Cohesion: text makes sense as a whole Cohesion occurs where the interpretation of one item is dependent.
Advertisements

Автоматическое определение авторства Лидия Михайловна Пивоварова Системы понимания текста.
The subjunctive mood. Conditional II and III. Автор: Кузнецова Е.Н. МОУ 5 «Гимназия» г. Мегион ХМАО.
Анализ тональности сообщений Лидия Михайловна Пивоварова Системы понимания текста.
The idea of money is one of the most fascinating ever developed by man. Thousands of years ago money was not used, the «barter» system existed. People.
Easter Easter in Great Britain It is a religious holiday. There are 3 favourite symbols of Easter: Easter Cross, Easter Egg and Easter Bunny. The Cross.
SCHOOL My school My school The clock says ten, The clock says ten, Youll be late again – Hurry, rush to school: The clock is right, But it is ten at night,
Describe a movie which made a strong impression on you. You should say: which movie it was – the name what the movie was about who the main stars were.
Sport in Britain What kinds of sport do you know?
Экзаменационная работа (OГЭ) по английскому языку
Christmas in Great Britain. Santa Claus On the 25th of December English children celebrate Christmas. Christmas is their favourite holiday. Santa Claus.
205 Всего заданийВремя тестированиямин. Введите фамилию и имя Тест по английскому языку Тема: Местоимения Автор: Булхараускене М.П. Начать тестирование.
МОУ СОШ 15 Оборот there is (there are) В настоящем и прошедшем временах группы Indefinite. Выполнила: Ученица 9 «б» класса Воронина Н. Проверила: Артамонова.
Case is the form of the noun indicated the relation of the noun to other words in the sentence or phrase.
* 1697 обучающихся 4-х классов из 62 общеобразовательных учреждений Москвы.
1510 Всего заданийВремя тестированиямин. Введите фамилию и имя Тест по английскому языку Тема: «Фразовые глаголы» Автор: Булхараускене М.П. Начать тестирование.
Оборот there is/ there are Theres a hole in my pocket. – В моем кармане – дырка. (звучит натуральнее чем: A hole is in my pocket.) There is и there are.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Groundhog Day. Groundhog Day is a holiday celebrated in United States and Canada on February 2.
Past Continuous or Past Simple?. Choose the number:
Транксрипт:

8.4. WordNet: Проблемы

WordNet: проблемы использования в автоматической обработке Отсутствие связей между частями речи Проблема отношений (недостаточно, а какие должны быть?) Искусственность построения (психолингвистический подход, перенос из словарей) Несбалансированность состава (биология, медицина) Нехватка словосочетаний Как работать с конкретными предметными областями

Многозначность в WordNet 25 значений прилагательного good 41 значение глагола cut Sense 19 cut -- (make a recording of: "cut the songs") => record, tape -- (register electronically) Sense 20 cut -- (record a performance on; "cut a record") => record, tape -- (register electronically)

Проблема многозначности Синтаксическая многозначность –Мать любит дочь –Мужу изменять нельзя Лексическая многозначность –Катать шарики (делать или перемещать) –Вытравить рисунок (сделать или уничтожить) –Проехать остановку (покрыть расстояние или миновать точку)

Лексическая многозначность: полисемия и омонимия Омонимия – случайное внешнее совпадение двух разных слов, нет общих элементов смысла: –Лук (оружие) – лук (растение) –Брак (изъян) – брак (женитьба) Полисемия – имеется общий элемент смысла –Клапан мотора – клапан фагота – сердечный клапан – клапан кармана: «часть предмета, закрывающая отверстие в нем». –Класс (разряд) – класс (общественная группа) – класс (группа учащихся) – класс (комната для занятий)

Полисемия и диффузность значений Разбиение на значения - дискретная организация лексических значений Между значениями: неясная, размытая промежуточная область? Разные словари – разное количество значений многозначных слов. –Идти 30 значений (Большой толковый словарь) 25 значений (Словарь Ожегова)

Регулярная многозначность Действие – субъект действия: вахта, выделение Действие – объект действия: ассигнование, вклейка, вложение Действие – инструмент: ванна, вентиляция, гудок Растение – плод: абрикос, малина Животное – мех: белка, норка, лиса Материал – изделие: бронза, гипс, стекло Часть тела – часть одежды: талия, локоть, плечо Сосуд – количество: ведро, стакан

Проблема лексической многозначности и информационный поиск A Study of Sense Clustering Criteria for Information Retrieval Applications Irina Chugur, Julio Gonzalo, and Felisa Verdejo Слишком подробное разделение значений – проблема для приложений, в частности информационного поиска. Нет необходимости в таком тонком различении для решения этой задачи Adam Kilgarriff. I dont believe in word senses: Word senses exist only relative to a task

Слишком тонкое разделение значений. Примеры Bother - беспокойство 1.Smth or someone who causes trouble, a source of unhappiness 2. An angry disturbance Amount - количество 2. How much of something is available 3. How much there is of anything

Разделение важно для других задач, но не важно для информационного поиска Message - записка 1. A communication (usually brief) that is written or spoken or signaled 2. What a communication is about Bet - ставка 1. The act of gambling 2. The money risked on a gamble –Information extraction

Возможное решение Сгруппировать близкие смыслы, сократить излишнюю полисемию Часто предлагаемое решение: Учесть регулярную полисемию –Quantity/container, music/dance Но: animal/food, plant/food, animal/skin, language/people встречаются в разных контекстах

Группировка значений на основе корпуса Semcor – корпус, размеченный значениями WordNet Смыслы группируются, если они встречаются в одних и тех же текстах Например, совместно встречаются Breath 1.The air that is inhaled or exhaled in respiration 2.The act of exhaling

Исследование зависимости возможности группирования смыслов от частотности совместной встречаемости Число встреч Процент Прав. Групп –252 –364 –465 –575 –675.5 –882

Что общего между смыслами, которые можно сгруппировать 1) число общих синонимов между синсетами 2) число общих слов в определениях 3) число общих гиперонимов Любая комбинация этих трех величин находится в наборах смыслов, поддающихся группировке

Группирование значений: точка зрения машинного перевода Важно различать те значения, которые имеют различные переводы: Spring – (Spanish) –Primaviera (season) –Muelle (metal device) –Fuente (fountain) Parallel polysemy: Child – enfant - kind

Гипотеза Можно ли использовать параллельную полисемию для группирования значений для целей информационного поиска. Взяли 20 существительных (73 значения) Эксперимент: рассмотреть для группирования те совокупности смыслов, которые имеют параллельные переводы хотя бы в одном из четырех языков (испанский, французский, голландский, немецкий)

Результат 27 синсетов 16 подходят для информационного поиска band (8, 9) –Behaviour (1,2,3) –Bet (1,2) 11 не подходят –Band (2, 7) лента – банда –Rabbit (1,2) –Итого 56 процентов подходят

Комментарий. Ответ на вопрос не вписывается в структуру WordNet Группирование Да –Container/volume, Music/dance, breath, bet Группирование Нет –animal/food, plant/food, animal/skin, language/people Ответ: анализ совместного существования значений

Tennis problem Integrating Subject field codes into WordNet Bernardo Magnini and Gabriela Cavaglia Subject Field Codes (SFC) – field codes в словарях (Медицина, архитектура)

Tennis problem. Примеры Tennis, lawn tennis – court game – athletic game Tennis court – court – playing field Tennis racquet – racquet – sports implement Tennis player – player – contestant Не установлено отношений между понятиями

Subject field codes Соединяют различные части речи: медицина – врач, оперировать Соединяют различные иерархические пути: спорт – спортсмен, спортплощадка, ракетка Могут использоваться: –Расширение запроса, –Разрешение многозначности

Система разметки 128 кодов, иерархия – 4 уровня Agriculture 248 Archeology47 Alimentation2563 Astrology16 Biology20266 Medicine2660 Veterinary36

Положение вне области Общие синсеты, которые трудно отнести к какой-либо области –Man 1 – an adult male person –Man 3 – the generic use of the word to refer to any human being –Date 1 – day of the month –Date3 – appointment, engagement Располагаются высоко в иерархии Очень многозначны

Положение вне области - 2 Малоинформативные синсеты (Stop senses) – числа, дни недели, цвета Выделена отдельная область Factotum: –2780 stop senses –3670 generics

Автоматизированная процедура разметки 1. Вручную размечается относительно небольшое количество синсетов верхнего уровня 2. Автоматически по связям (гипонимия, тропонимия, меронимия, антонимия) пометки распространяются на другие синсеты 3. Можно задать исключения – barber_chair – barbershop - COMMERCE

Продуктивность разметки Отношение общего числа размеченного к количеству вручную размеченного для области: Биология – 122 Экономика – 6

Разметка для bank 1. Depository financial institution, bank Economy 2. Bank (sloping land)Geography, Geology 3. Bank (a supply or stock held in a reserve)Economy 4. Bank, bank buildingArchitecture, economy 5. Bank (an arrangement of similar objects)Factotum 6. Savings bank, coin bank ( a container)Economy 7. Bank (a long ridge or pile)Geography, Geology 8. Bank (the funds held by a gambling house) Economy, play 9. Bank, cant, camber (a slope in the turn of a road) Architecture 10. Bank (a flight maneuver) Transport

Evaluation Новостные сообщения Классификация по 41 категории второго уровня Ошибки связаны с перегенерацией на автоматическом шаге Нечеткость категории – психология Нехватка – понятий Точность 0.95, полнота – 0.96

Комментарий Наименования областей (domain) – это тоже слова со своими значениями Если это просто этикетки, то смысл их может меняться от контекста Разбиение на тематические области зависит от приложения

eXtended WordNet: progress report Rada Michalchea and Dan Moldovan Southern Methodist University NSF grant

Толкования в WordNet - источник дополнительной информации The noun chair has 4 senses 1. chair -- (a seat for one person, with a support for the back; "he put his coat over the back of the chair and sat down") 2. professorship, chair -- (the position of professor; "he was awarded an endowed chair in economics") 3. president, chairman, chairwoman, chair, chairperson -- (the officer who presides at the meetings of an organization; "address your remarks to the chairperson") 4. electric chair, chair, death chair, hot seat -- (an instrument of execution by electrocution; resembles a chair; "the murderer was sentenced to die in the chair") The verb chair has 2 senses 1. chair, chairman -- (act or preside as chair, as of an academic department in a university; "She chaired the department for many years") 2. moderate, chair, lead -- (preside over; "John moderated the discussion")

XWN: основные этапы Обработка толкований 1. Preprocessing and parsing 2. Word Sense Disambiguation – все слова в толковании должны быть размечены по номерам значений WordNet 3. Logical form transformation – text inference, axiomatic proof 4. Topical relations

XWN формат (SGML разметка) WordNet entry A_battery| battery used to heat the filaments of vacuum tube XWN entry battery used to heat … vacuum_tube …

Организация автоматизированной процедуры Работают два таггера (распознают части речи) T1 T2 Точность P T1 и P T2 Cov – количество случаев, в которых таггеры соглашаются minPcov Человек может проверять только случаи несогласия между таггерами Part of speech taggers (3) – 98 %

Word Sense Disambiguation 1. Однозначные слова 2. Слово в толковании является вышестоящим для толкуемого слова Devolve1 - pass on or delegate to another. Delegate2 – принадлежит множеству гиперонимов 3. Параллельные отношения Aba2 – a fabric woven from goat and camel hair –Exert3 – make a great effort at a mental or physical task

WSD-2 4. SemCor биграммы – для каждого слова из толкования запоминаются два соседних слова, затем эти пары ищутся в корпусе Approval – commitee approval of (with the approval(1) of the Credit Association…) 5. Cross reference –Agora3, forum3, public_square2 – a place of assembly for the people in ancient Greece –Place14 – a public square with room for pedestrians

WSD-3 6. Расстояние между толкованиями - число общих слов в толкованиях различных значений слова и рассматриваемым толкованием Filament – 4 значения – только одно с heat 7. Общая область –Mental – (biology) of or relating to the chin- or lip-leke structure in insects and certain mollusks

Точность и полнота методов (1000 толкований) Полнотаточность Комбинации методов

SENSEVAL Hector lexicon 34 лексемы Для каждого собраны предложения, размечены аннотаторами – 90% согласия между аннотаторами Training data – 100 предложений Test data – 30 предложений

SENSEVAL - результаты 24 системы точность и полнота ROMANSEVAL SENSEVAL2 – задания для 10 языков

Вопросы к лекции 1.Каковы проблемы, возникают при использовании WordNet для автоматической обработки текста? 2.Опишите проблему лексической многозначности. 3.Как в WordNet происходит разрешение многозначности?