Б.В.Добров, Н.В.Лукашевич Разрешение лексической многозначности на основе тезауруса предметной области АНО Центр информационных исследований МГУ им. М.В.Ломоносова.

Презентация:



Advertisements
Похожие презентации
Н.В.Лукашевич, Д.С Чуйко Автоматическое разрешение лексической многозначности на основе тезаурусных знаний АНО Центр информационных исследований МГУ им.
Advertisements

Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.
3.1. Назначение онтологий. Информационный поиск..
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Б.В. Добров, Н.В. Лукашевич, М.Н. Синицын, В.Н. Шапкин Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Применение генетических алгоритмов для генерации числовых последовательностей, описывающих движение, на примере шага вперед человекоподобного робота Ю.К.
Особенности и структура контрольно – измерительных материалов по информатике и ИКТ (9 класс) Председатель предметной комиссии по информатике Ленинского.
Особенности регионального ранжирования Яндекса. Украинская формула Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики.
Модели решения функциональных и вычислительных задач Четвертый раздел (ДЕ 4)
Обнаружение структурного подобия HTML-документов И. Некрестьянов Е. Павлова
Автоматическое распознавание тематики сверхкоротких текстов Андрей Белов, Михаил Волович «Ашманов и Партнеры», «Поисковые технологии»
Университетская информационная система РОССИЯ ( УИС РОССИЯ ) Режим доступа:
ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция.
ЕГЭ 2014 по английскому языку. Английский язык традиционно является самым популярным иностранным языком для сдачи ЕГЭ. В прошлом году его сдавали более.
Результаты ЕГЭ 2012 года по обществознанию в Новгородской области.
ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ Ефремова Н.Э., Большакова Е.И., Носков А.А., Антонов В.Ю. МГУ имени М.В. Ломоносова,
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ.
Транксрипт:

Б.В.Добров, Н.В.Лукашевич Разрешение лексической многозначности на основе тезауруса предметной области АНО Центр информационных исследований МГУ им. М.В.Ломоносова Научно-исследовательский вычислительный центр

Проблема разрешения лексической многозначности Применение лексических ресурсов в системах автоматической обработки текстов => лексическая многозначность Тестирование качества методов разрешения лексической многозначности. Конференция Senseval –Разрешение многозначности всех слов текста –Разрешение многозначности некоторой заданной совокупности слов (несколько десятков) Возможна еще одна постановка задачи: –Разрешение многозначности относительно тезауруса (онтологии) предметной области

Разрешение многозначности относительно тезауруса (онтологии) предметной области Особенности задачи: –Многозначность внутри тезауруса –Многозначность: термин – нетермин (образование) Число многозначных терминов в зависимости от величины тезауруса –Несколько сотен-тысяч единиц Хорошо бы для разрешения многозначности использовать: –знания, описанные в тезаурусе, –структуру тезауруса

Общественно-политический тезаурус подтезаурус Тезауруса русского языка РуТез широкая предметная область современной общественной жизни: политика, экономика, военные вопросы, социальные вопросы, культура, спорт и т.п. иерархическая сеть понятий 33 тысячи понятий, 87 тысяч терминов Общественно-политический тезаурус соответствует объединению тематических областей WordNet, за исключением области factotum – области понятий, которые могут встретиться в любой области лексическая многозначность: информационный поиск, многоязычный информационный поиск, рубрикация, поиск ответов на вопросы

Многозначность в Общественно-политическом тезаурусе М-многозначность – одно и то же слово (словосочетание) соответствует двум понятиям: пилот – ЛЕТЧИК, АВТОГОНЩИК –Нужно выбрать значение А-многозначность – в тезаурусе описано одно значение, но известно, что могут быть другие значения (пометка): – история (М) – ИСТОРИЧЕСКИЕ НАУКИ, – Львов – ЛЬВОВ (ГОРОД) –Нужно подтвердить/отвергнуть употребление значения В тезаурусе: 2204 термина – два и более значений (М-многозначность), 4259 – терминов с пометкой (А-многозначность)

Виды лексической многозначности в Тезаурусе · омонимия: брак – СУПРУЖЕСТВО и ПРОИЗВОДСТВЕННЫЙ БРАК · термины из разных предметных областей: прокат – ПРОКАТНОЕ ПРОИЗВОДСТВО (металлургия), КИНОПРОКАТ (кинематография), ПРОКАТ ИМУЩЕСТВА (аренда) · метонимия: балет – БАЛЕТНОЕ ИСКУССТВО (развитие балета), БАЛЕТНЫЙ СПЕКТАКЛЬ (смотреть балет), БАЛЕТНАЯ ТРУППА (приезд балета) · метафора: сотовый – СОТОВАЯ СВЯЗЬ (сотовый телефон), ПЧЕЛИНЫЕ СОТЫ (сотовый мед)

Использование структуры тезауруса для разрешения многозначности Каждому значению слова соответствует некоторая окрестность соответствующего понятия в тезаурусе, которая подтверждает это значение –Тезаурус – сеть, по отношениям можно пройти от одного любого понятия к другому –Транзитивные иерархические отношения: родовидовые, часть-целое –Иерархическое дерево: путь отношений между понятиями на основе свойств транзитивности и наследования может быть преобразован к одному отношению Вхождение многозначного слова: –Локальный контекст – окрестность некоторой длины –Глобальный контекст – некоторый образ понятий документа

Пример текста Три медали завоевали боксеры Тюменской области на чемпионате Европы Первый чемпионат Европы международного студенческого союза по боксу состоялся в Риме 9-16 ноября. Как сообщил корреспонденту интернет- издания "NewsProm.Ru" президент тюменского спортивного фонда "Медведь" Алексей Плотников, боксеры Тюменской области завоевали три медали. –чемпионат – однозначный вход –боксер - многозначный вход, который имеет более одного значения –Европы - многозначный вход, который имеет одно значение организации страны часть света мифология порода собакспортсмен

Пример: сеть отношений вид спорта бокс спортивное соревнование чемпионат спортсмен боксер спорт человек состязание ЦЕЛОЕ А ВЫШЕ ЦЕЛОЕ ЦЕЛОЕ А ЦЕЛОЕ

Конкретные цели исследования 2 алгоритма разрешения многозначности по тезаурусу: старый и новый Протестировать старый алгоритм –Собрать тестовую коллекцию из нескольких источников –Разметить эталонные значения –Вычислить точность работы алгоритма Разработать новый алгоритм Сравнить новый алгоритм на эталонной коллекции

Существующий алгоритм разрешения многозначности Окрестность – это дерево вниз и дерево вверх от понятия, соответствующего многозначному термину Глобальный контекст: - в документе употреблялся однозначный синоним - в документе имеется однозначное вхождение понятия из окрестности одного из значений Локальный контекст: - если не удалось выбрать из глобального контекста - пошаговое движение от вхождения: подтверждает первое встретившееся понятие из окрестности Проблемы: ложные сопоставления в глобальном контексте, недостаточность окрестности, отсутствие взвешивания факторов

Подтверждающая окрестность вид спорта бокс спортивное соревнование чемпионат спортсмен боксер спорт человек состязание ЦЕЛОЕ А ВЫШЕ ЦЕЛОЕ ЦЕЛОЕ А ЦЕЛОЕ ВЫШЕ

Точность разрешения многозначности существующего метода Эталонная коллекция Выпуск газет за 1 день: –«Ведомости», «Комсомольская правда», «Независимая газета», «Известия», новостные сообщения из коллекции Яндекс.Новости Типы соответствия ручной разметки и автоматических результатов 1) Значение было выбрано правильно; 2) Значение не было выбрано, и это было правильно; 3) Значение было выбрано неправильно; 4) Значение не было выбрано, и это было неправильно; 5) Система выбрала один из правильных вариантов

Оценка точности метода Число правильных решений Точность = Число всех решений «Известия»72,00 «Ведомости»73.41 «Независимая газета»66.50 «Комсомольская правда»63.04 Новостные сообщения68.00 Средняя точность по коллекциям68.00 Всего документов: 227 Всего неоднозначных вхождений: 10688

Новый метод разрешения многозначности: изменение структуры окрестности путь от понятия может содержать перегиб: видовые понятия одного и того же родового понятия: живопись и графика части одного и того же целого: отдел, сектор (организации) общее видовое понятие: взрыв, террористический акт -> террористический взрыв

Проход с переломом вид спорта бокс спортивное соревнование чемпионат спортсмен боксер спорт человек состязание ЦЕЛОЕ А ВЫШЕ ЦЕЛОЕ ЦЕЛОЕ А ЦЕЛОЕ ВЫШЕ

Новый метод разрешения многозначности: рассмотрение разных факторов Чем длиннее путь между понятиями, тем слабее подтверждение Наличие перегиба на пути ослабляет подтверждение Перегиб на высоком уровне иерархии хуже, чем на низких уровнях Разные типы перегибов могут по-разному влиять на подтверждение: ср. виды и части

Новый метод разрешения многозначности: оценка значимости факторов Параметры и веса: –Длина окрестности –Высота шагов иерархии – высота дерева –Длина пути –Порог отсечения –Цена перегиба в зависимости от типа перегиба –Цена многозначности, если подтверждает многозначный элемент Формула: подтверждение (c1,c2) = максимальный_балл – - длина_пути – - цена_многозначности – - цена_перегиба

Новый метод разрешения многозначности: локальный и глобальный этапы Предполагалось: основной источник разрешения многозначности – локальный контекст Первые эксперименты: результаты хуже,чем существующий простой метод Необходимость: отражения глобального контекста Моделирование глобального контекста: –Те же параметры и формула –Подтверждение только на однозначных вхождениях –Использование коротких иерархий – длина 2 –Цена глобального уровня –Баллы глобального и локального уровня складываются

Результаты тестирования нового метода Самый большой рост на более коротких новостных сообщениях – 7 пунктов (более 10%) КоллекцияТочность «Известия»75.23 (72.00) « Ведомости » (73.41) « Независимая газета » (66.50) « Комсомольская правда » (63.04) Новостные сообщения75.05 (68.00) Средняя точность по коллекциям72.91 (68.00)

Особенности лучшего набора параметров Разные пороги для типов многозначности А (одно с пометкой) и М (выбор из нескольких значений) Подтверждение от многозначного термина в локальном контексте значимо так же как и от однозначного термина На локальном уровне наилучшими оказались очень небольшие деревья высотой 2 (тестирование начиналось с деревьев высотой 7) Перегиб между двумя видами действительно хуже – его прохождение оценивается большим количеством баллов Динамическая окрестность: 3+3

Дополнительные результаты В тезаурусе много словосочетаний: министр обороны, уголовное дело, дополнительный отпуск и др. Какой вклад в разрешение многозначности? Если считать с учетом словосочетаний, то точность разрешения многозначности больше на 5% Зависимость точности разрешения многозначности от частотности употребления слова на всех коллекциях слова с частотностью 1 имеют меньшую точность разрешения, чем средняя по этой коллекции

Эксперимент с запросами в области права Длинные запросы : –компенсация подоходного налога при приобретении недвижимости (источник РОМИП) 40 запросов Старый алгоритм: точность Новый алгоритм: точность Особенности лучшего набора параметров: –Длинные деревья –7 –Минимальные пороги –Минимальные цены перегибов Создание адаптивного алгоритма, подбирающего параметры в зависимости от длины документа…?!

Заключение Рассмотрена задача автоматического разрешения многозначности относительно многозначных терминов тезауруса предметной области Особенности задачи: –Несколько тысяч многозначных терминов, –Не нужно различать значения сверхчастотной общеупотребительной лексики Алгоритм показал необходимость рассмотрения как локального контекста, так и глобального контекста для вхождения многозначного термина Подбором параметров алгоритма удалось повысить точность разрешения многозначности на 4.6 пункта Для коротких текстов алгоритм позволяет добиться улучшения качества разрешения многозначности на десятки процентов