ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная работа
/13 ТЕРМИНЫ И ИХ ВАРИАНТЫ Термины – слова и словосочетания, называющие понятия предметной области рентгеновское излучение Употребление терминов в текстах –> терминологические варианты излучение, рентгеновские лучи Выявление терминологических вариантов важно учитывать при построении тезаурусов, онтологий, предметных указателей, классификации текстов 2
/13 КЛАССИФИКАЦИЯ ВАРИАНТОВ 3 Классификация терминологических вариантов для научно-технических текстов: графические – компьютер/Компьютер флективные – данные/данных орфографические – браузер/броузер морфемные – выполнение/исполнение сокращения – высшее учебное заведение/ВУЗ синонимы – абсорбция/поглощение лексико-синтаксические – центральный процессор/процессор, текстовая коллекция/коллекция текстов
/13 ПОСТАНОВКА ЗАДАЧИ Изучить классификацию терминологических вариантов и подходы к их выявлению На базе классификации разработать методы выявления терминологических вариантов в научно-технических текстах на русском языке На их основе реализовать программные средства Провести тестирование разработанных методов 4
/13 ПОДХОДЫ К ВЫЯВЛЕНИЮ Символьный (статистический) подход Термин и его варианты – символы Вычисляется функция близости для термина и его варианта, для выбора порогового значения используется статистика Не требуется лингвистическая информация и словари Используется для орфографических и флективных вариантов Лингвистический подход Термин и его варианты – словосочетания Анализируется синтаксическая структура словосочетания, применяются правила образования вариантов и эвристики Используется для лексико-синтаксических вариантов Применён для английского и французского языков, для русского языка не изучен 5
/13 ПРЕДЛАГАЕМОЕ РЕШЕНИЕ 6 Тип вариантаМетод выявления Графическиеприведение символов к одному регистру Флективныеморфологический анализ Орфографическиерасстояние Левенштейна Морфемныесловарь морфемного состава Сокращенияэвристики для сокращений по первым буквам Синонимысловарь синонимов Лексико- синтаксические формальные правила образования вариантов Для каждого типа терминологических вариантов используется свой метод, основанный на одном из подходов
/13 ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ФОРМАЛИЗАЦИЯ Информация о лексико-синтаксических вариантах формализована в виде правил их образования Для формализации выбран язык LSPL и его библиотека: позволяет описывать конструкции естественного языка в виде лексико-синтаксических шаблонов предусмотрена возможность обработки информации, полученной в результате наложения LSPL-шаблона Правило образования – лексико-синтаксический шаблон вида: A1 N1 # N1, A2 N1, A1 N2 7 синтаксическая структура термина синтаксическая структура вариантов синтаксическая структура вариантов
/13 ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ВЫЯВЛЕНИЕ 8 Основано на автоматической конкретизации шаблона правила A1 N1 # A1 N2 рентгеновские лучи # рентгеновское излучение 1. Распознавание термина заданной структуры A1 => рентгеновские, N1 => лучи 2. Нормализация слов термина рентгеновские => рентгеновский, лучи => луч 3. Построение шаблона возможного варианта A1 N2 4. Поиск варианта в тексте по конкретизированному шаблону словарь синонимовсогласование термин терминологический вариант
/13 ОБЩАЯ ПРОЦЕДУРА ВЫЯВЛЕНИЯ 9 Исходная информация: Список терминов L 1 Список кандидатов в терминологические варианты L 2 Алгоритм: 1. Для каждого T i L 1 рассматриваем все V j L 2 2. Для пары T i и V j проверяем, являются ли они вариантами, путём применения методов в определённом порядке Результаты работы: Для каждого термина из L 1 – список терминологических вариантов из L 2 Порядок распознавания типа варианта Графический Флективный Синонимы Морфемный Лексико- синтаксический Сокращений Орфографический
/13 ПРОГРАММНЫЕ СРЕДСТВА: АРХИТЕКТУРА 10 Компонент выявления терминологических вариантов Консольные утилиты Компонент выявления терминов шаблоны текст шаблоны словари L 1 и L 2 варианты
/13 РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ МЕТОДОВ Для реализации использован язык С++ Библиотеки: LSPL, AOT, boost, STL Система контроля версий: git Тестирование на научно-технических текстах из областей физики и информатики объемом более 500кб Полнота выявления вариантов: 91% Точность выявления вариантов: 86% Выявлено употреблений терминов без учета терминологических вариантов: Выявлено употреблений терминов с учетом терминологических вариантов: Процент прироста употреблений терминов: 84% 11
/13 РЕЗУЛЬТАТЫ РАБОТЫ Проанализированы современные подходы к выявлению терминологических вариантов, изучена классификация вариантов, типичных для русскоязычных научно-технических текстов Разработаны методы выявления терминологических вариантов в соответствии с классификацией Библиотека языка LSPL расширена для формирования конкретизированных шаблонов Методы выявления реализованы в виде программных средств Тестирование показало состоятельность предложенных методов выявления 12
/13 13 Результаты работы были представлены (с публикацией) на: Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов 2010» Международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2010» СПАСИБО ЗА ВНИМАНИЕ!
Расстояние Левенштейна Минимальное количество операций вставки, удаления и замены, необходимых для перевода одной строки в другую ====ЗАМВСТ МАССА МАССОЙ ==ЗАМ==== БРАУЗЕР БРОУЗЕР