Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор Владимирович
Постановка задачи Есть корпус текстов на английском языке, относящихся к некоторой предметной области. Для каждого текста есть перевод на русский язык. Требуется построить (пополнить) англо- русский словарь терминов для данной предметной области.
Подход к решению Суть алгоритмов: последовательное разбиение и анализ парных текстов, нахождение соответствий между семантическими единицами в парных текстах. Алгоритмы не используют специфических особенностей английского и русского языков.
Подзадачи 1. Разбивка текста на предложения 2. Сопоставление предложений и их переводов 3. Пополнение словаря
1. Разбивка текста на предложения Цель: Каждые текст и его перевод разбить на отдельные предложения. Алгоритм последовательно идентифицирует концы предложений, используя знаки препинания и другие ориентиры. распознается корректно более 95%
2. Сопоставление предложений и их переводов Цель: каждому предложению из текста сопоставить его перевод. Предположение о монотонности перевода Последовательно маркируем предложения на английском языке и соответствующие им русские. На следующем шаге переходим к рассмотрению упорядоченных списков между соответствующими маркерами. сопоставляется от 30 до 70 % предложений
2. Сопоставление предложений и их переводов Основные признаки соответствия предложений: Непереведённые слова и группы символов формулы, переменные, названия, числа, даты, имена файлов и т.д. Однозначно переводимые слова имена людей, названия и другие имена собственные; аббревиатуры; термины данной предметной области. Знаки препинания восклицательный и вопросительный знаки, цитирование, прямая речь.
3. Пополнение словаря Цель: используя пары (предложение, перевод), создать (пополнить) словарь. Используются статистические методы находится 60 – 65 % терминов из текстов корректность результатов 70 – 80 %
Итерационный характер работы алгоритмов После очередного прохода алгоритмов возвращаемся к шагу 2 («Сопоставление предложений и их переводов»), используя словарь терминов для предметной области, построенный на предыдущем шаге.
Дальнейшая работа Автоматическое выделение словосочетаний. Учёт разметки документов в алгоритмах сопоставления предложений. Автоматическое удаление общелексических терминов из построенного словаря. Построение онтологий для предметных областей.
Спасибо за внимание!