ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ Ефремова Н.Э., Большакова Е.И., Носков А.А., Антонов В.Ю. МГУ имени М.В. Ломоносова,

Презентация:



Advertisements
Похожие презентации
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Advertisements

ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
Методы извлечения ключевых фраз Рязанцев Дмитрий 428.
ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова.
Программная поддержка языка лексико-синтаксических шаблонов Носков А. А. Научный руководитель: Большакова Е.И. Московский Государственный Университет им.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Информационно-поисковая система. Классификация информационно- поисковых систем.
1 Тема 1.7. Алгоритмизация и программирование Информатика.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Г.С.Осипов,И.В.Смирнов,И.В.Соченков,А.О.Шелманов, А.В.Швец Институт системного.
Моделирование поведения взаимодействующих агентов в среде с ограничениями Юданов А.А., студент 525 гр. Научный руководитель: к.ф.-м.н. Бордаченкова Е.А.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY.
Кафедра математики, логики и интеллектуальных систем ИЛ РГГУ 1 Система управления базой понятий ЭЗОП Е. М. Бениаминов © Институт лингвистики.
3.1. Назначение онтологий. Информационный поиск..
Выпускная работа « Основы информационных технологий » Тема : « Структурно - семантические параметры художественной синонимии как составляющие идиостиля.
Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор.
Редактирование это изменение содержания документа.
Летняя школа по КЛ, 5-11 июля ИЗВЛЕЧЕНИЕ ИНФОРМАЦИИ ИЗ ТЕКСТОВ: ПОРТРЕТ НАПРАВЛЕНИЯ Большакова Елена Игоревна МГУ им. М.В. Ломоносова, Факультет.
Тема 3 Знания. Организация базы знаний. Преподаватель –Юлия Александровна Грачёва.
Лекция 6 Лекция 6 Введение в обработку данных. Среда хранения и средства обработки информационных массивов. Эволюция и характеристика концепций обработки.
Транксрипт:

ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ Ефремова Н.Э., Большакова Е.И., Носков А.А., Антонов В.Ю. МГУ имени М.В. Ломоносова, факультет ВМиК

СОДЕРЖАНИЕ ДОКЛАДА Постановка задачи Термины и особенности их употребления Формализация особенностей Процедуры выявления терминов и их употреблений Стратегия совместного применения процедур Используемые сокращения: АОТ – автоматическая обработка текста ПО – предметная область ЕЯ – естественный язык НТТ – научно-технический текст

ПОСТАНОВКА ЗАДАЧИ Решение многих задач АОТ требует выявления в текстах терминов Термин – слово или словосочетание, называющее понятие определенной ПО десятичная запятая, донорно-акцепторная связь Решение некоторых задач АОТ: машинный перевод литературно-научное редактирование требует выявление в отдельном тексте всевозможных употреблений терминов рентгеновское излучение – рентгеновские лучи, излучение

ПОДХОД К ВЫЯВЛЕНИЮ Обычно выявление терминов опирается на: статистические особенности лингвистические особенности частичный синтаксический анализ Мы предлагаем учитывать: типичную структуру терминов варьирование отдельного термина соединение нескольких терминов характерные конструкции употребления терминов в НТТ терминологический словарь ПО

ОСОБЕННОСТИ ТЕРМИНОВ типичная синтаксическая структура прил. + сущ. электрический контур сущ. + сущ. в род. падеже тип данных прил. + прил. + сущ. слабая внешняя ссылка терминологический словарь ПО: словарные термины управление памятью, первый закон Ньютона новые (авторские) термины тонкий клиент, вимп, кэш второго уровня

УПОТРЕБЛЕНИЕ В ТЕКСТЕ варьирование отдельного термина: одно понятие – несколько способов выражения алгебра логики – булева алгебра широкий атмосферный ливень – ШАЛ соединение нескольких терминов базовый класс производный класс базовый и производный класс характерные конструкции: определения авторских терминов Под конвейерным режимом понимают… введения синонимов разрядностью, или длиной слова

ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ Для формализации выбран язык LSPL и его библиотека: язык позволяет описывать конструкции ЕЯ в виде лексико-синтаксических шаблонов библиотека реализует поиск по шаблонам описанных конструкций в тексте Шаблоны фиксируют лексический состав и синтаксические связи формализуемых конструкций. Д ля этого используются : простые элементы "базисом", N, A N сложные элементы {A} N, N1 [N2 ], A|Pa словарные условия имена шаблонов и параметры Term = {A} N1 [N2 ] (N1) Term выделяемая конструкция Term1 "("Term2")" # Term1

ПРИМЕРЫ ШАБЛОНОВ (1) Синтаксические образцы терминов: N1 A2 N2 технология двойной накачки Словарные термины: A1 {N1 | N1 } битовый массив, битовый образ Контексты определения авторских терминов: Defin "будем" "называть" Term # Term Такие операции будем называть понятийными операциями "под" Term "понимается" Defin #Term Под продукцией понимается выражение…

ПРИМЕРЫ ШАБЛОНОВ (2) Правила образования лексико-синтаксических вариантов: N1 N2 # ввод данных N1, ввод N1 N4 ввод информации Соединения терминов: N1 N2 "," N3 {"и"|"или"} N4 # N1 N2, N1 N3, N1 N4 шинам адреса, данных и управления – шина адреса, шина данных, шина управления Контексты введения синонимов: Term1 "("Term2")" # Term1, Term2 взаимодействующих компонентов (подсистем)

ВЫЯВЛЕНИЕ ТЕРМИНОВ Набор процедур: каждая процедура – свой набор шаблонов Термины-кандидаты – слова/словосочетания с типичной синтаксической структурой Вход: анализируемый текст, шаблоны Выявление терминов и их употреблений: поиск текстовых фрагментов, описываемых шаблонами Подсчет частоты Выход: термины с частотой употребления

ТЕСТИРОВАНИЕ ПРОЦЕДУР Процедуры по отдельности протестированы на НТТ из областей физики и информатики (объем 700 Кб) Использовались словари по физике (>3 тыс. терминов) и по информатике (>4 тыс. терминов) Оценивались полнота и точность выявления (в сравнении с экспертными списками): терминов их употреблений (вхождений в текст) Для синонимов и соединений: только полнота и точность выделения терминов, встретившихся в них

РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ ПроцедураВыделение терминов Выделение терминоупотреблений полнотаточностьполнотаточность Термины- кандидаты 58%24%54%25% Словарные термины 85%94%87%95% Авторские термины 67%89%70%97% Синонимы57%22%–– Соединения71%30%––

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ (1) Выявление терминов-кандидатов и соединений: потеря точности крупный размер, аналогичный результат потеря полноты индекс iCOMP, обратная связь по релевантности Выявление словарных терминов: распознаны как термины общеупотребительные словосочетания или их части ряд – в ряде случаев, за рядом исключений

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ (2) Выявление авторских терминов и синонимов: потеря полноты Регистр представляет собой совокупность... словарные термины в контекстах определения Под прерыванием понимается сигнал... Выявление употреблений: потеря полноты дисковый файл – файл на диске структурное и модульное программирование

ИДЕЯ ОБЪЕДИНЕНИЯ Расширение набора шаблонов: повышается полнота, падает точность требуется ручная работа Простое объединение списков терминов, выявленных процедурами: повышается полнота, падает точность Учет процедурами списков терминов, выявленных другими процедурами: повышается точность определения терминоупотреблений выявленные из соединений термины давали прирост полноты выявления терминов на 12%

СТРАТЕГИЯ СОВМЕСТНОГО ПРИМЕНЕНИЯ ПРОЦЕДУР (1)К тексту применяются процедуры выявления (2)Словарные и авторские термины заносятся в S (3)Термин-кандидат добавляется в S, если его частью является словарный или авторский термин (4)Пара синонимов добавляется в S, если один из них уже в S (5)Термины из соединений добавляются в S, если среди них есть разрывный термин из S (или словарный) (6)Для терминов из S ищутся лексико-синтаксические варианты и добавляются в S (7)В S добавляются термины-кандидаты с частотой выше некоего порога (8)Повторяем шаги, начиная с 3

РЕЗУЛЬТАТЫ ПРИМЕНЕНИЯ СТРАТЕГИИ Для оценки результатов использовалась F-мера: F = 2 x Precision x Recall / (Precision + Recall) Сравнивались списки терминов, полученные: простым объединением списков терминов, выявленных процедурами применением стратегии В среднем прирост: F-меры выявления терминов – 10% F-меры выявления терминоупотреблений – 7% Проблемы: как термины выявляются общенаучные словосочетания (различные цели) один вариант связывается с несколькими терминами (регистр адреса, регистр команды – регистр)

СПАСИБО ЗА ВНИМАНИЕ!