Логико-статистические методы представления языковых структур в машинном переводе Елена Борисовна Козеренко Институт проблем информатики РАН
Лингвистические знания в системах машинного перевода Моделирование внутренних логико- семантических закономерностей языкового строя и функционирования языка на основе эвристических правил различной степени детализацииМоделирование внутренних логико- семантических закономерностей языкового строя и функционирования языка на основе эвристических правил различной степени детализации Методы разрешения неоднозначности языковых структур на основе условных правилМетоды разрешения неоднозначности языковых структур на основе условных правил
Машинное обучение Истоки метода: алгоритмы распознавания речи и символов, коррекция орфографииИстоки метода: алгоритмы распознавания речи и символов, коррекция орфографии Цель: автоматический вывод модели для некоторой области на основании выборки данных из этой областиЦель: автоматический вывод модели для некоторой области на основании выборки данных из этой области Системе, обучаемой правилам синтаксиса, должен быть предъявлен набор правил (фразовых структур) для обученияСистеме, обучаемой правилам синтаксиса, должен быть предъявлен набор правил (фразовых структур) для обучения
Стохастические методы и модели N-граммы, N-граммы переменной длиныN-граммы, N-граммы переменной длины Правило БайесаПравило Байеса Вероятностные контекстно-свободные грамматикиВероятностные контекстно-свободные грамматики Вероятностные грамматики подстановки деревьевВероятностные грамматики подстановки деревьев Вероятностные грамматики подстановки функциональных деревьевВероятностные грамматики подстановки функциональных деревьев
Системы машинного перевода: современное состояние Рынок систем МП достиг зрелости в годахРынок систем МП достиг зрелости в годах Появление больших корпусов параллельных текстов стимулировало развитие статистических методов обработки естественного языкаПоявление больших корпусов параллельных текстов стимулировало развитие статистических методов обработки естественного языка Вероятностные расширения основных подходов к разработке систем МП, таких какВероятностные расширения основных подходов к разработке систем МП, таких как 1.Прямой перевод 2.Трансфер (перенос) 3.Интерлингва (семантический субстрат) Современные вычислительные ресурсы позволяют использоватьСовременные вычислительные ресурсы позволяют использовать ПЕРЕВОДЧЕСКУЮ ПАМЯТЬ (прецедентные переводы)
Основные классы систем МП 1.Системы с доминированием статистического подхода и автоматическим формированием правил SDLX (SDL International) использует переводческую память и поддерживает все языки на основе латинского и арабского алфавитов, а также иврита SDLX (SDL International) использует переводческую память и поддерживает все языки на основе латинского и арабского алфавитов, а также иврита DIPLOMAT: осуществляет перевод на основе прецедентов (example-based translation), разрешение неоднозначности на основе статистики DIPLOMAT: осуществляет перевод на основе прецедентов (example-based translation), разрешение неоднозначности на основе статистики
2. Системы с доминированием логико- лингвистических эвристик, использующие глубинную семантику и развитые лексико-семантические модели KANT Center for Machine Translation (CMT), Carnegie Mellon University KANT Center for Machine Translation (CMT), Carnegie Mellon University
3. Системы, исходно базирующиеся на гибридной логико- статистической модели Matador: испанско-английский МП Matador: испанско-английский МП 4. Системы – рабочие места переводчиков Наш подход относится к 3-й группе Используется механизм сегментации языковых структур на основе функционально-семантического переноса и ряда приемов синхронного переводаИспользуется механизм сегментации языковых структур на основе функционально-семантического переноса и ряда приемов синхронного перевода Разрешение неоднозначности языковых структур на основе весов, задаваемых для деревьев разбораРазрешение неоднозначности языковых структур на основе весов, задаваемых для деревьев разбора Включение механизмов обучения для формирования новых лингвистических знанийВключение механизмов обучения для формирования новых лингвистических знаний
Вероятностная контекстно-свободная грамматика, ее определение - G = (N,T,P,S,D), где N – это множество нетерминальных символов, T – множество терминальных символов, P – множество продукций вида A -> b, где A – это нетерминальный символ, b – это цепочка символов, S – специальный исходный симвло, D – это функция, приписывающая значения вероятности каждому правилу из множества P.Вероятностная контекстно-свободная грамматика, ее определение - G = (N,T,P,S,D), где N – это множество нетерминальных символов, T – множество терминальных символов, P – множество продукций вида A -> b, где A – это нетерминальный символ, b – это цепочка символов, S – специальный исходный симвло, D – это функция, приписывающая значения вероятности каждому правилу из множества P. Вероятностная грамматика замещения деревьев: ее определение то же, что и для вероятностной контекстно- свободной грамматики, но здесь мы имеем дело c фрагментами деревьев произвольной глубины, при этом значения вероятности приписываются этим фрагментам.Вероятностная грамматика замещения деревьев: ее определение то же, что и для вероятностной контекстно- свободной грамматики, но здесь мы имеем дело c фрагментами деревьев произвольной глубины, при этом значения вероятности приписываются этим фрагментам.
Новый синтетический подход к формированию грамматики системы МП семантическое выравнивание структур для ряда европейских языковсемантическое выравнивание структур для ряда европейских языков разрешение неоднозначности с использованием стохастических методовразрешение неоднозначности с использованием стохастических методов усвоение системой новых структур и шаблонов с помощью методов машинного обученияусвоение системой новых структур и шаблонов с помощью методов машинного обучения