Б.В.Добров, Н.В.Лукашевич Разрешение лексической многозначности на основе тезауруса предметной области АНО Центр информационных исследований МГУ им. М.В.Ломоносова Научно-исследовательский вычислительный центр
Проблема разрешения лексической многозначности Применение лексических ресурсов в системах автоматической обработки текстов => лексическая многозначность Тестирование качества методов разрешения лексической многозначности. Конференция Senseval –Разрешение многозначности всех слов текста –Разрешение многозначности некоторой заданной совокупности слов (несколько десятков) Возможна еще одна постановка задачи: –Разрешение многозначности относительно тезауруса (онтологии) предметной области
Разрешение многозначности относительно тезауруса (онтологии) предметной области Особенности задачи: –Многозначность внутри тезауруса –Многозначность: термин – нетермин (образование) Число многозначных терминов в зависимости от величины тезауруса –Несколько сотен-тысяч единиц Хорошо бы для разрешения многозначности использовать: –знания, описанные в тезаурусе, –структуру тезауруса
Общественно-политический тезаурус подтезаурус Тезауруса русского языка РуТез широкая предметная область современной общественной жизни: политика, экономика, военные вопросы, социальные вопросы, культура, спорт и т.п. иерархическая сеть понятий 33 тысячи понятий, 87 тысяч терминов Общественно-политический тезаурус соответствует объединению тематических областей WordNet, за исключением области factotum – области понятий, которые могут встретиться в любой области лексическая многозначность: информационный поиск, многоязычный информационный поиск, рубрикация, поиск ответов на вопросы
Многозначность в Общественно-политическом тезаурусе М-многозначность – одно и то же слово (словосочетание) соответствует двум понятиям: пилот – ЛЕТЧИК, АВТОГОНЩИК –Нужно выбрать значение А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка): – история (М) – ИСТОРИЧЕСКИЕ НАУКИ, – Львов – ЛЬВОВ (ГОРОД) –Нужно подтвердить/отвергнуть употребление значения В тезаурусе: 2204 термина – два и более значений (М-многозначность), 4259 – терминов с пометкой (А-многозначность)
Виды лексической многозначности в Тезаурусе · омонимия: брак – СУПРУЖЕСТВО и ПРОИЗВОДСТВЕННЫЙ БРАК · термины из разных предметных областей: прокат – ПРОКАТНОЕ ПРОИЗВОДСТВО (металлургия), КИНОПРОКАТ (кинематография), ПРОКАТ ИМУЩЕСТВА (аренда) · метонимия: балет – БАЛЕТНОЕ ИСКУССТВО (развитие балета), БАЛЕТНЫЙ СПЕКТАКЛЬ (смотреть балет), БАЛЕТНАЯ ТРУППА (приезд балета) · метафора: сотовый – СОТОВАЯ СВЯЗЬ (сотовый телефон), ПЧЕЛИНЫЕ СОТЫ (сотовый мед)
Использование структуры тезауруса для разрешения многозначности Каждому значению слова соответствует некоторая окрестность соответствующего понятия в тезаурусе, которая подтверждает это значение –Тезаурус – сеть, по отношениям можно пройти от одного любого понятия к другому –Транзитивные иерархические отношения: родовидовые, часть-целое –Иерархическое дерево: путь отношений между понятиями на основе свойств транзитивности и наследования может быть преобразован к одному отношению Вхождение многозначного слова: –Локальный контекст – окрестность некоторой длины –Глобальный контекст – некоторый образ понятий документа
Пример текста Три медали завоевали боксеры Тюменской области на чемпионате Европы Первый чемпионат Европы международного студенческого союза по боксу состоялся в Риме 9-16 ноября. Как сообщил корреспонденту интернет- издания "NewsProm.Ru" президент тюменского спортивного фонда "Медведь" Алексей Плотников, боксеры Тюменской области завоевали три медали. –чемпионат – однозначный вход –боксер - многозначный вход, который имеет более одного значения –Европы - многозначный вход, который имеет одно значение организации страны часть света мифология порода собакспортсмен
Пример: сеть отношений вид спорта бокс спортивное соревнование чемпионат спортсмен боксер спорт человек состязание ЦЕЛОЕ А ВЫШЕ ЦЕЛОЕ ЦЕЛОЕ А ЦЕЛОЕ
Конкретные цели исследования 2 алгоритма разрешения многозначности по тезаурусу: старый и новый Протестировать старый алгоритм –Собрать тестовую коллекцию из нескольких источников –Разметить эталонные значения –Вычислить точность работы алгоритма Разработать новый алгоритм Сравнить новый алгоритм на эталонной коллекции
Существующий алгоритм разрешения многозначности Окрестность – это дерево вниз и дерево вверх от понятия, соответствующего многозначному термину Глобальный контекст: - в документе употреблялся однозначный синоним - в документе имеется однозначное вхождение понятия из окрестности одного из значений Локальный контекст: - если не удалось выбрать из глобального контекста - пошаговое движение от вхождения: подтверждает первое встретившееся понятие из окрестности Проблемы: ложные сопоставления в глобальном контексте, недостаточность окрестности, отсутствие взвешивания факторов
Подтверждающая окрестность вид спорта бокс спортивное соревнование чемпионат спортсмен боксер спорт человек состязание ЦЕЛОЕ А ВЫШЕ ЦЕЛОЕ ЦЕЛОЕ А ЦЕЛОЕ ВЫШЕ
Точность разрешения многозначности существующего метода Эталонная коллекция Выпуск газет за 1 день: –«Ведомости», «Комсомольская правда», «Независимая газета», «Известия», новостные сообщения из коллекции Яндекс.Новости Типы соответствия ручной разметки и автоматических результатов 1) Значение было выбрано правильно; 2) Значение не было выбрано, и это было правильно; 3) Значение было выбрано неправильно; 4) Значение не было выбрано, и это было неправильно; 5) Система выбрала один из правильных вариантов
Оценка точности метода Число правильных решений Точность = Число всех решений «Известия»72,00 «Ведомости»73.41 «Независимая газета»66.50 «Комсомольская правда»63.04 Новостные сообщения68.00 Средняя точность по коллекциям68.00 Всего документов: 227 Всего неоднозначных вхождений: 10688
Новый метод разрешения многозначности: изменение структуры окрестности путь от понятия может содержать перегиб: видовые понятия одного и того же родового понятия: живопись и графика части одного и того же целого: отдел, сектор (организации) общее видовое понятие: взрыв, террористический акт -> террористический взрыв
Проход с переломом вид спорта бокс спортивное соревнование чемпионат спортсмен боксер спорт человек состязание ЦЕЛОЕ А ВЫШЕ ЦЕЛОЕ ЦЕЛОЕ А ЦЕЛОЕ ВЫШЕ
Новый метод разрешения многозначности: рассмотрение разных факторов Чем длиннее путь между понятиями, тем слабее подтверждение Наличие перегиба на пути ослабляет подтверждение Перегиб на высоком уровне иерархии хуже, чем на низких уровнях Разные типы перегибов могут по-разному влиять на подтверждение: ср. виды и части
Новый метод разрешения многозначности: оценка значимости факторов Параметры и веса: –Длина окрестности –Высота шагов иерархии – высота дерева –Длина пути –Порог отсечения –Цена перегиба в зависимости от типа перегиба –Цена многозначности, если подтверждает многозначный элемент Формула: подтверждение (c1,c2) = максимальный_балл – - длина_пути – - цена_многозначности – - цена_перегиба
Новый метод разрешения многозначности: локальный и глобальный этапы Предполагалось: основной источник разрешения многозначности – локальный контекст Первые эксперименты: результаты хуже,чем существующий простой метод Необходимость: отражения глобального контекста Моделирование глобального контекста: –Те же параметры и формула –Подтверждение только на однозначных вхождениях –Использование коротких иерархий – длина 2 –Цена глобального уровня –Баллы глобального и локального уровня складываются
Результаты тестирования нового метода Самый большой рост на более коротких новостных сообщениях – 7 пунктов (более 10%) КоллекцияТочность «Известия»75.23 (72.00) « Ведомости » (73.41) « Независимая газета » (66.50) « Комсомольская правда » (63.04) Новостные сообщения75.05 (68.00) Средняя точность по коллекциям72.91 (68.00)
Особенности лучшего набора параметров Разные пороги для типов многозначности А (одно с пометкой) и М (выбор из нескольких значений) Подтверждение от многозначного термина в локальном контексте значимо так же как и от однозначного термина На локальном уровне наилучшими оказались очень небольшие деревья высотой 2 (тестирование начиналось с деревьев высотой 7) Перегиб между двумя видами действительно хуже – его прохождение оценивается большим количеством баллов Динамическая окрестность: 3+3
Дополнительные результаты В тезаурусе много словосочетаний: министр обороны, уголовное дело, дополнительный отпуск и др. Какой вклад в разрешение многозначности? Если считать с учетом словосочетаний, то точность разрешения многозначности больше на 5% Зависимость точности разрешения многозначности от частотности употребления слова на всех коллекциях слова с частотностью 1 имеют меньшую точность разрешения, чем средняя по этой коллекции
Эксперимент с запросами в области права Длинные запросы : –компенсация подоходного налога при приобретении недвижимости (источник РОМИП) 40 запросов Старый алгоритм: точность Новый алгоритм: точность Особенности лучшего набора параметров: –Длинные деревья –7 –Минимальные пороги –Минимальные цены перегибов Создание адаптивного алгоритма, подбирающего параметры в зависимости от длины документа…?!
Заключение Рассмотрена задача автоматического разрешения многозначности относительно многозначных терминов тезауруса предметной области Особенности задачи: –Несколько тысяч многозначных терминов, –Не нужно различать значения сверхчастотной общеупотребительной лексики Алгоритм показал необходимость рассмотрения как локального контекста, так и глобального контекста для вхождения многозначного термина Подбором параметров алгоритма удалось повысить точность разрешения многозначности на 4.6 пункта Для коротких текстов алгоритм позволяет добиться улучшения качества разрешения многозначности на десятки процентов