Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY
Автоматический поиск переводных словосочетаний, Новицкий Валерий 2 Цели и задачи Задача: Поиск переводных словосочетаний (словосочетаний и их переводов на другой язык) по корпусу выровненных параллельных текстов Цели: Разработка алгоритма получения словосочетаний (с учётом ряда специфических требований) Получение статистических данных для улучшения работы синтаксического анализатора Расширение переводного словаря
Автоматический поиск переводных словосочетаний, Новицкий Валерий 3 Дополнительные требования и исходные данные Требования к получаемым словосочетаниям: Синтаксическая связанность Размер от 1 до 5 слов Устойчивый перевод Целостность (словосочетание не является частью другого, более полного словосочетания) И т.д. Исходные данные и внешние механизмы Корпус выровненных параллельных текстов Синтаксический анализатор Механизм пословного сопоставления синтаксических структур
Автоматический поиск переводных словосочетаний, Новицкий Валерий 4 Схема алгоритма Корпус параллельных синтаксических структур (размеченный параллельный корпус) Генерация одноязычных словосочетаний Пословное выравнивание синтаксический структур Генерация переводных словосочетаний Фильтрация и сортировка полученного результата
Автоматический поиск переводных словосочетаний, Новицкий Валерий 5 Фильтрация Задача: убрать случайные словосочетания Этапы фильтрации: Предварительное удаление низкочастотных словосочетаний Удаление вложенных/«внешних» словосочетаний Разрешение неоднозначности перевода Удаление известных (словарных) переводов Финишная фильтрация по частоте Сортировка результатов на новые словарные статьи и собственно переводные словосочетания
Автоматический поиск переводных словосочетаний, Новицкий Валерий 6 Результаты Корпус: ~4,2 млн. фрагментов На выходе: ~62 млн. уникальных словосочетаний После фильтрации: ~42 тыс. переводных словосочетаний Оценку полноты произвести затруднительно Оценка точности полученных результатов экспертом по выборке 100 случайных словосочетаний: Хорошие – 67 Недостатки описания – 4 Недоработки алгоритма – 16 Другие – 12