ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.

Презентация:



Advertisements
Похожие презентации
ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ Ефремова Н.Э., Большакова Е.И., Носков А.А., Антонов В.Ю. МГУ имени М.В. Ломоносова,
Advertisements

Дипломная работа Программная поддержка морфемного словаря Швейкина О.А., 525 гр. Научный руководитель: к.ф.-м.н. доцент Большакова Е.И.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Информационно-поисковая система. Классификация информационно- поисковых систем.
Программная поддержка языка лексико-синтаксических шаблонов Носков А. А. Научный руководитель: Большакова Е.И. Московский Государственный Университет им.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
1 Тема 1.7. Алгоритмизация и программирование Информатика.
ГОРОДСКОЙ МЕТОДИЧЕСКИЙ ЦЕНТР mosmetod.ru Примерная программа учебного предмета «Информатика»
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
Методы распознавания зашумленных образов БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФАКУЛЬТЕТ ПРИКЛАДНОЙ МАТЕМАТИКИ и ИНФОРМАТИКИ Кафедра математического.
Выпускная работа « Основы информационных технологий » Тема : « Структурно - семантические параметры художественной синонимии как составляющие идиостиля.
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
РАЗРАБОТКА КОМПЛЕКСНЫХ ЗАДАНИЙ ПО ИНФОРМАТИКИ СРЕДСТВАМИ ИНТЕЛЛЕКТУАЛЬНОЙ ДИАЛОГОВОЙ СИСТЕМЫ ЛОГАЧЕВ А.В. АСПИРАНТ, ЧГПУ, 2014.
Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор.
Автор : Макаров А.В. Научный руководитель : к.ф.м.н., доцент кафедры Систем Информатики НГУ, с.н.с. Васючкова Татьяна Сергеевна Система поддержки дистанционного.
ЗАДАЧИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ. 1.Что такое компьютерная лингвистика? 2. История. 3. Направления компьютерной лингвистики. 4. Заключение.
3.1. Назначение онтологий. Информационный поиск..
ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
Транксрипт:

ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная работа

/13 ТЕРМИНЫ И ИХ ВАРИАНТЫ Термины – слова и словосочетания, называющие понятия предметной области рентгеновское излучение Употребление терминов в текстах –> терминологические варианты излучение, рентгеновские лучи Выявление терминологических вариантов важно учитывать при построении тезаурусов, онтологий, предметных указателей, классификации текстов 2

/13 КЛАССИФИКАЦИЯ ВАРИАНТОВ 3 Классификация терминологических вариантов для научно-технических текстов: графические – компьютер/Компьютер флективные – данные/данных орфографические – браузер/броузер морфемные – выполнение/исполнение сокращения – высшее учебное заведение/ВУЗ синонимы – абсорбция/поглощение лексико-синтаксические – центральный процессор/процессор, текстовая коллекция/коллекция текстов

/13 ПОСТАНОВКА ЗАДАЧИ Изучить классификацию терминологических вариантов и подходы к их выявлению На базе классификации разработать методы выявления терминологических вариантов в научно-технических текстах на русском языке На их основе реализовать программные средства Провести тестирование разработанных методов 4

/13 ПОДХОДЫ К ВЫЯВЛЕНИЮ Символьный (статистический) подход Термин и его варианты – символы Вычисляется функция близости для термина и его варианта, для выбора порогового значения используется статистика Не требуется лингвистическая информация и словари Используется для орфографических и флективных вариантов Лингвистический подход Термин и его варианты – словосочетания Анализируется синтаксическая структура словосочетания, применяются правила образования вариантов и эвристики Используется для лексико-синтаксических вариантов Применён для английского и французского языков, для русского языка не изучен 5

/13 ПРЕДЛАГАЕМОЕ РЕШЕНИЕ 6 Тип вариантаМетод выявления Графическиеприведение символов к одному регистру Флективныеморфологический анализ Орфографическиерасстояние Левенштейна Морфемныесловарь морфемного состава Сокращенияэвристики для сокращений по первым буквам Синонимысловарь синонимов Лексико- синтаксические формальные правила образования вариантов Для каждого типа терминологических вариантов используется свой метод, основанный на одном из подходов

/13 ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ФОРМАЛИЗАЦИЯ Информация о лексико-синтаксических вариантах формализована в виде правил их образования Для формализации выбран язык LSPL и его библиотека: позволяет описывать конструкции естественного языка в виде лексико-синтаксических шаблонов предусмотрена возможность обработки информации, полученной в результате наложения LSPL-шаблона Правило образования – лексико-синтаксический шаблон вида: A1 N1 # N1, A2 N1, A1 N2 7 синтаксическая структура термина синтаксическая структура вариантов синтаксическая структура вариантов

/13 ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ВАРИАНТЫ: ВЫЯВЛЕНИЕ 8 Основано на автоматической конкретизации шаблона правила A1 N1 # A1 N2 рентгеновские лучи # рентгеновское излучение 1. Распознавание термина заданной структуры A1 => рентгеновские, N1 => лучи 2. Нормализация слов термина рентгеновские => рентгеновский, лучи => луч 3. Построение шаблона возможного варианта A1 N2 4. Поиск варианта в тексте по конкретизированному шаблону словарь синонимовсогласование термин терминологический вариант

/13 ОБЩАЯ ПРОЦЕДУРА ВЫЯВЛЕНИЯ 9 Исходная информация: Список терминов L 1 Список кандидатов в терминологические варианты L 2 Алгоритм: 1. Для каждого T i L 1 рассматриваем все V j L 2 2. Для пары T i и V j проверяем, являются ли они вариантами, путём применения методов в определённом порядке Результаты работы: Для каждого термина из L 1 – список терминологических вариантов из L 2 Порядок распознавания типа варианта Графический Флективный Синонимы Морфемный Лексико- синтаксический Сокращений Орфографический

/13 ПРОГРАММНЫЕ СРЕДСТВА: АРХИТЕКТУРА 10 Компонент выявления терминологических вариантов Консольные утилиты Компонент выявления терминов шаблоны текст шаблоны словари L 1 и L 2 варианты

/13 РЕАЛИЗАЦИЯ И ТЕСТИРОВАНИЕ МЕТОДОВ Для реализации использован язык С++ Библиотеки: LSPL, AOT, boost, STL Система контроля версий: git Тестирование на научно-технических текстах из областей физики и информатики объемом более 500кб Полнота выявления вариантов: 91% Точность выявления вариантов: 86% Выявлено употреблений терминов без учета терминологических вариантов: Выявлено употреблений терминов с учетом терминологических вариантов: Процент прироста употреблений терминов: 84% 11

/13 РЕЗУЛЬТАТЫ РАБОТЫ Проанализированы современные подходы к выявлению терминологических вариантов, изучена классификация вариантов, типичных для русскоязычных научно-технических текстов Разработаны методы выявления терминологических вариантов в соответствии с классификацией Библиотека языка LSPL расширена для формирования конкретизированных шаблонов Методы выявления реализованы в виде программных средств Тестирование показало состоятельность предложенных методов выявления 12

/13 13 Результаты работы были представлены (с публикацией) на: Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов 2010» Международной конференции по компьютерной лингвистике и интеллектуальным технологиям «Диалог 2010» СПАСИБО ЗА ВНИМАНИЕ!

Расстояние Левенштейна Минимальное количество операций вставки, удаления и замены, необходимых для перевода одной строки в другую ====ЗАМВСТ МАССА МАССОЙ ==ЗАМ==== БРАУЗЕР БРОУЗЕР