8.4. WordNet: Проблемы
WordNet: проблемы использования в автоматической обработке Отсутствие связей между частями речи Проблема отношений (недостаточно, а какие должны быть?) Искусственность построения (психолингвистический подход, перенос из словарей) Несбалансированность состава (биология, медицина) Нехватка словосочетаний Как работать с конкретными предметными областями
Многозначность в WordNet 25 значений прилагательного good 41 значение глагола cut Sense 19 cut -- (make a recording of: "cut the songs") => record, tape -- (register electronically) Sense 20 cut -- (record a performance on; "cut a record") => record, tape -- (register electronically)
Проблема многозначности Синтаксическая многозначность –Мать любит дочь –Мужу изменять нельзя Лексическая многозначность –Катать шарики (делать или перемещать) –Вытравить рисунок (сделать или уничтожить) –Проехать остановку (покрыть расстояние или миновать точку)
Лексическая многозначность: полисемия и омонимия Омонимия – случайное внешнее совпадение двух разных слов, нет общих элементов смысла: –Лук (оружие) – лук (растение) –Брак (изъян) – брак (женитьба) Полисемия – имеется общий элемент смысла –Клапан мотора – клапан фагота – сердечный клапан – клапан кармана: «часть предмета, закрывающая отверстие в нем». –Класс (разряд) – класс (общественная группа) – класс (группа учащихся) – класс (комната для занятий)
Полисемия и диффузность значений Разбиение на значения - дискретная организация лексических значений Между значениями: неясная, размытая промежуточная область? Разные словари – разное количество значений многозначных слов. –Идти 30 значений (Большой толковый словарь) 25 значений (Словарь Ожегова)
Регулярная многозначность Действие – субъект действия: вахта, выделение Действие – объект действия: ассигнование, вклейка, вложение Действие – инструмент: ванна, вентиляция, гудок Растение – плод: абрикос, малина Животное – мех: белка, норка, лиса Материал – изделие: бронза, гипс, стекло Часть тела – часть одежды: талия, локоть, плечо Сосуд – количество: ведро, стакан
Проблема лексической многозначности и информационный поиск A Study of Sense Clustering Criteria for Information Retrieval Applications Irina Chugur, Julio Gonzalo, and Felisa Verdejo Слишком подробное разделение значений – проблема для приложений, в частности информационного поиска. Нет необходимости в таком тонком различении для решения этой задачи Adam Kilgarriff. I dont believe in word senses: Word senses exist only relative to a task
Слишком тонкое разделение значений. Примеры Bother - беспокойство 1.Smth or someone who causes trouble, a source of unhappiness 2. An angry disturbance Amount - количество 2. How much of something is available 3. How much there is of anything
Разделение важно для других задач, но не важно для информационного поиска Message - записка 1. A communication (usually brief) that is written or spoken or signaled 2. What a communication is about Bet - ставка 1. The act of gambling 2. The money risked on a gamble –Information extraction
Возможное решение Сгруппировать близкие смыслы, сократить излишнюю полисемию Часто предлагаемое решение: Учесть регулярную полисемию –Quantity/container, music/dance Но: animal/food, plant/food, animal/skin, language/people встречаются в разных контекстах
Группировка значений на основе корпуса Semcor – корпус, размеченный значениями WordNet Смыслы группируются, если они встречаются в одних и тех же текстах Например, совместно встречаются Breath 1.The air that is inhaled or exhaled in respiration 2.The act of exhaling
Исследование зависимости возможности группирования смыслов от частотности совместной встречаемости Число встреч Процент Прав. Групп –252 –364 –465 –575 –675.5 –882
Что общего между смыслами, которые можно сгруппировать 1) число общих синонимов между синсетами 2) число общих слов в определениях 3) число общих гиперонимов Любая комбинация этих трех величин находится в наборах смыслов, поддающихся группировке
Группирование значений: точка зрения машинного перевода Важно различать те значения, которые имеют различные переводы: Spring – (Spanish) –Primaviera (season) –Muelle (metal device) –Fuente (fountain) Parallel polysemy: Child – enfant - kind
Гипотеза Можно ли использовать параллельную полисемию для группирования значений для целей информационного поиска. Взяли 20 существительных (73 значения) Эксперимент: рассмотреть для группирования те совокупности смыслов, которые имеют параллельные переводы хотя бы в одном из четырех языков (испанский, французский, голландский, немецкий)
Результат 27 синсетов 16 подходят для информационного поиска band (8, 9) –Behaviour (1,2,3) –Bet (1,2) 11 не подходят –Band (2, 7) лента – банда –Rabbit (1,2) –Итого 56 процентов подходят
Комментарий. Ответ на вопрос не вписывается в структуру WordNet Группирование Да –Container/volume, Music/dance, breath, bet Группирование Нет –animal/food, plant/food, animal/skin, language/people Ответ: анализ совместного существования значений
Tennis problem Integrating Subject field codes into WordNet Bernardo Magnini and Gabriela Cavaglia Subject Field Codes (SFC) – field codes в словарях (Медицина, архитектура)
Tennis problem. Примеры Tennis, lawn tennis – court game – athletic game Tennis court – court – playing field Tennis racquet – racquet – sports implement Tennis player – player – contestant Не установлено отношений между понятиями
Subject field codes Соединяют различные части речи: медицина – врач, оперировать Соединяют различные иерархические пути: спорт – спортсмен, спортплощадка, ракетка Могут использоваться: –Расширение запроса, –Разрешение многозначности
Система разметки 128 кодов, иерархия – 4 уровня Agriculture 248 Archeology47 Alimentation2563 Astrology16 Biology20266 Medicine2660 Veterinary36
Положение вне области Общие синсеты, которые трудно отнести к какой-либо области –Man 1 – an adult male person –Man 3 – the generic use of the word to refer to any human being –Date 1 – day of the month –Date3 – appointment, engagement Располагаются высоко в иерархии Очень многозначны
Положение вне области - 2 Малоинформативные синсеты (Stop senses) – числа, дни недели, цвета Выделена отдельная область Factotum: –2780 stop senses –3670 generics
Автоматизированная процедура разметки 1. Вручную размечается относительно небольшое количество синсетов верхнего уровня 2. Автоматически по связям (гипонимия, тропонимия, меронимия, антонимия) пометки распространяются на другие синсеты 3. Можно задать исключения – barber_chair – barbershop - COMMERCE
Продуктивность разметки Отношение общего числа размеченного к количеству вручную размеченного для области: Биология – 122 Экономика – 6
Разметка для bank 1. Depository financial institution, bank Economy 2. Bank (sloping land)Geography, Geology 3. Bank (a supply or stock held in a reserve)Economy 4. Bank, bank buildingArchitecture, economy 5. Bank (an arrangement of similar objects)Factotum 6. Savings bank, coin bank ( a container)Economy 7. Bank (a long ridge or pile)Geography, Geology 8. Bank (the funds held by a gambling house) Economy, play 9. Bank, cant, camber (a slope in the turn of a road) Architecture 10. Bank (a flight maneuver) Transport
Evaluation Новостные сообщения Классификация по 41 категории второго уровня Ошибки связаны с перегенерацией на автоматическом шаге Нечеткость категории – психология Нехватка – понятий Точность 0.95, полнота – 0.96
Комментарий Наименования областей (domain) – это тоже слова со своими значениями Если это просто этикетки, то смысл их может меняться от контекста Разбиение на тематические области зависит от приложения
eXtended WordNet: progress report Rada Michalchea and Dan Moldovan Southern Methodist University NSF grant
Толкования в WordNet - источник дополнительной информации The noun chair has 4 senses 1. chair -- (a seat for one person, with a support for the back; "he put his coat over the back of the chair and sat down") 2. professorship, chair -- (the position of professor; "he was awarded an endowed chair in economics") 3. president, chairman, chairwoman, chair, chairperson -- (the officer who presides at the meetings of an organization; "address your remarks to the chairperson") 4. electric chair, chair, death chair, hot seat -- (an instrument of execution by electrocution; resembles a chair; "the murderer was sentenced to die in the chair") The verb chair has 2 senses 1. chair, chairman -- (act or preside as chair, as of an academic department in a university; "She chaired the department for many years") 2. moderate, chair, lead -- (preside over; "John moderated the discussion")
XWN: основные этапы Обработка толкований 1. Preprocessing and parsing 2. Word Sense Disambiguation – все слова в толковании должны быть размечены по номерам значений WordNet 3. Logical form transformation – text inference, axiomatic proof 4. Topical relations
XWN формат (SGML разметка) WordNet entry A_battery| battery used to heat the filaments of vacuum tube XWN entry battery used to heat … vacuum_tube …
Организация автоматизированной процедуры Работают два таггера (распознают части речи) T1 T2 Точность P T1 и P T2 Cov – количество случаев, в которых таггеры соглашаются minPcov Человек может проверять только случаи несогласия между таггерами Part of speech taggers (3) – 98 %
Word Sense Disambiguation 1. Однозначные слова 2. Слово в толковании является вышестоящим для толкуемого слова Devolve1 - pass on or delegate to another. Delegate2 – принадлежит множеству гиперонимов 3. Параллельные отношения Aba2 – a fabric woven from goat and camel hair –Exert3 – make a great effort at a mental or physical task
WSD-2 4. SemCor биграммы – для каждого слова из толкования запоминаются два соседних слова, затем эти пары ищутся в корпусе Approval – commitee approval of (with the approval(1) of the Credit Association…) 5. Cross reference –Agora3, forum3, public_square2 – a place of assembly for the people in ancient Greece –Place14 – a public square with room for pedestrians
WSD-3 6. Расстояние между толкованиями - число общих слов в толкованиях различных значений слова и рассматриваемым толкованием Filament – 4 значения – только одно с heat 7. Общая область –Mental – (biology) of or relating to the chin- or lip-leke structure in insects and certain mollusks
Точность и полнота методов (1000 толкований) Полнотаточность Комбинации методов
SENSEVAL Hector lexicon 34 лексемы Для каждого собраны предложения, размечены аннотаторами – 90% согласия между аннотаторами Training data – 100 предложений Test data – 30 предложений
SENSEVAL - результаты 24 системы точность и полнота ROMANSEVAL SENSEVAL2 – задания для 10 языков
Вопросы к лекции 1.Каковы проблемы, возникают при использовании WordNet для автоматической обработки текста? 2.Опишите проблему лексической многозначности. 3.Как в WordNet происходит разрешение многозначности?