Машинный перевод Лидия Михайловна Пивоварова Системы понимания текста.

Презентация:



Advertisements
Похожие презентации
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Advertisements

Анализ тональности сообщений Лидия Михайловна Пивоварова Системы понимания текста.
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста.
Автоматическое определение авторства Лидия Михайловна Пивоварова Системы понимания текста.
Вспомогательные средства в работе переводчика Автор презентации Кокорева Инга.
Логико-статистические методы представления языковых структур в машинном переводе Елена Борисовна Козеренко Институт проблем информатики РАН
Квачев Алексей Компания ПРОМТ Технологии автоматизированного перевода как средство повышения эффективности работы с иноязычными документами в системе документооборота.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор.
SDL BeGlobal Trainer: как очень быстро настроить МП, имея хорошую (-ие) ТМ.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Системы автоматического (машинного) перевода текста.
Перевод текста с помощью онлайновых переводчиков.
Транксрипт:

Машинный перевод Лидия Михайловна Пивоварова Системы понимания текста

Введенние Машинный перевод – автоматический (без участия человека) перевод с одного языка на другой Машинный перевод – автоматический (без участия человека) перевод с одного языка на другой Сферы применения: большие объемы информации и/или высокие требования к скорости перевода: Сферы применения: большие объемы информации и/или высокие требования к скорости перевода: Документация Документация Новости Новости Военные сводки Военные сводки Интернет-сайты, многоязычный поиск Интернет-сайты, многоязычный поиск Справочная информация (рецепты, объявления, адреса) Справочная информация (рецепты, объявления, адреса) Основная цель: быстро понять основное содержание сообщения на иностранном языке Основная цель: быстро понять основное содержание сообщения на иностранном языке Не замена ручному переводу; можно даже сказать – другая задача Не замена ручному переводу; можно даже сказать – другая задача

Сожержание 1. Основные подходы 2. Перевод, основанный на правилах 3. Перевод, основанный на машинном обучении 4. Оценка машинного перевода

Правила vs. статистика Информационное сообщение: Документ:

Перевод по правилам Морфологический анализ Морфологический анализ Синтез групп (именные, глагольные и др.) Синтез групп (именные, глагольные и др.) Синтаксический анализ Синтаксический анализ Синтез предложений Синтез предложений Недостатки: Принципиальная сложность используемых алгоритмов Для достижения удовлетворительного качества перевода необходимо огромное количество правил, выводимых вручную Представляет собой «классический» подход к МП, реализован в большинстве современных систем автоматического или автоматизированного перевода, в т.ч. в ПРОМТ, SYSTRAN, Linguatec. Достоинства: При наличии необходимых для перевода правил – высокое качество перевода. Правила должны быть отлично выверены. Возможность настройки словарей с учетом предметной области

Статистический МП Использует большие параллельные двуязычные корпуса N-грамм Использует большие параллельные двуязычные корпуса N-грамм Поиск наиболее подходящего перевода реализован специальной вероятностной моделью Поиск наиболее подходящего перевода реализован специальной вероятностной моделью Недостатки: Отсутствие каких-либо механизмов анализа грамматических правил Требует больших вычислительных мощностей Для удовлетворительной работы необходимы огромные объемы данных (сотни миллионов N-грамм) На данный момент статистический МП реализован только в некоммерческой системе on-line перевода Google translate Достоинства: для улучшения качества перевода достаточно добавлять массивы параллельных текстов, дополнительная работа лингвистов или программистов не требуется

Сожержание 1. Основные подходы 2. Перевод, основанный на правилах прямой перевод прямой перевод трансфер трансфер интерлингва интерлингва 3. Перевод, основанный на машинном обучении 4. Оценка машинного перевода

Основные подходы Direct, transfer, interlingua Direct, transfer, interlingua

Сожержание 1. Основные подходы 2. Перевод, основанный на правилах прямой перевод прямой перевод трансфер трансфер интерлингва интерлингва 3. Перевод, основанный на машинном обучении 4. Оценка машинного перевода

Прямой перевод Текст на исходном языке Морфологический анализ Перевод лексики (двуязычный словарь) Переупорядочивание Синтез морфологии Текст на целевом языке Пословный перевод (word-by-word) Пословный перевод (word-by-word) Никаких промежуточных структур помимо морфологии Никаких промежуточных структур помимо морфологии После перевода слов – простое переупорядочивание в соответствии со знанием о языке (например, в английском прилагательное идет до существительного, во французском и испанском – после) После перевода слов – простое переупорядочивание в соответствии со знанием о языке (например, в английском прилагательное идет до существительного, во французском и испанском – после) Используемое знание: морфологическая структура языка и локальные правила перевода слов Используемое знание: морфологическая структура языка и локальные правила перевода слов

Правила

Прямой перевод Нет сложных лингвистических теорий и синтаксического анализа Нет сложных лингвистических теорий и синтаксического анализа Использование синтаксической и лексической похожести между двумя языками Использование синтаксической и лексической похожести между двумя языками «Надежность» - можно переводить даже неполные предложения «Надежность» - можно переводить даже неполные предложения Словари – наиболее важный компонент Словари – наиболее важный компонент

Слишком простая модель

Содержание 1. Основные подходы 2. Перевод, основанный на правилах прямой перевод прямой перевод трансфер трансфер интерлингва интерлингва 3. Перевод, основанный на машинном обучении 4. Оценка машинного перевода

Система типа TRANSFER Предложение на языке входа Структура для языка входа Структура для языка выхода Предложение на языке выхода анализ TRANSFER синтез

Основные идеи Применяются знания о различиях между языками Применяются знания о различиях между языками Этапы: Этапы: Синтаксический анализ Синтаксический анализ Трансфер: синтаксическая структура исходного языка трансформируется в синтаксическую структуру целевого языка Трансфер: синтаксическая структура исходного языка трансформируется в синтаксическую структуру целевого языка Синтез текста на целевом языке по синтаксической структуре Синтез текста на целевом языке по синтаксической структуре

Правила

Трансфер лексики Лексические правила Лексические правила Двуязычные словари Двуязычные словари Т.е. сложность по сравнению с прямым переводом возрастает Т.е. сложность по сравнению с прямым переводом возрастает

Пример: SYSTRAN SYSTRAN = PROMT in the worldin Russia 1. Более 90% рынка 2. Доход в 2007 году ~13 млн евро 3. Акции торгуются на бирже

SYSTRAN: комбинация прямого перевода и трансфера Анализ Анализ Морфологический анализ, части речи Морфологический анализ, части речи Сборка словосочетаний Сборка словосочетаний Поверхностный синтаксис Поверхностный синтаксис Трансфер Трансфер Перевод идиом Перевод идиом Снятие неоднозначности (word sense disambiguation) Снятие неоднозначности (word sense disambiguation) Выбор предлогов по глаголу Выбор предлогов по глаголу Синтез Синтез Большой двуязычный словарь Большой двуязычный словарь Переупорядочивание Переупорядочивание Синтез морфологии Синтез морфологии

Система типа TRANSFER, но вместо последовательного TRANSFERa – иерархически взаимосвязанные TRANSFERы для разных единиц перевода: Система типа TRANSFER, но вместо последовательного TRANSFERa – иерархически взаимосвязанные TRANSFERы для разных единиц перевода: 1. Уровень лексических единиц 2. Уровень групп 3. Уровень простых предложений 4. Уровень сложных предложений Пример: ПРОМТ

TRANSFER на морфологическом уровне TRANSFER на морфологическом уровне входная морф. инф. выходная морф. инф. входная морф. инф. выходная морф. инф. TRANSFER на уровне групп TRANSFER на уровне групп Основа – формальные сетевые грамматики Основа – формальные сетевые грамматики При анализе соединение синтаксических единиц в группы структура в терминах непосредственных составляющих синтез лексических единиц с наследуемыми значениями морф. признаков При анализе соединение синтаксических единиц в группы структура в терминах непосредственных составляющих синтез лексических единиц с наследуемыми значениями морф. признаков TRANSFER на уровне предложений TRANSFER на уровне предложений Основа – фреймовые предикатные структуры Основа – фреймовые предикатные структуры Глагол – главный элемент Глагол – главный элемент Валентности глагола определяют заполнение фрейма Валентности глагола определяют заполнение фрейма Каждому типу фреймов соответствует некоторый закон преобразования в выходной фрейм и оформление актантов Каждому типу фреймов соответствует некоторый закон преобразования в выходной фрейм и оформление актантов + Анализ сложных предложений – в случае формирования согласования времен и правильного перевода союзов. Анализ сложных предложений – в случае формирования согласования времен и правильного перевода союзов. Промт: трансфер на разных уровнях

Словари Генеральный словарь Генеральный словарь Специализированные словари Специализированные словари Пользовательские словари Пользовательские словари Чем уже тематика, тем лучше качество перевода Чем уже тематика, тем лучше качество перевода

Трансфер Глубокое лингвистическое знание – лучше качество перевода Глубокое лингвистическое знание – лучше качество перевода Компоненты анализа и синтеза могут использоваться для других языковых пар (теоретически) Компоненты анализа и синтеза могут использоваться для других языковых пар (теоретически) Тем не менее, создание систем машинного перевода очень сложно и трудоемко, сами системы громоздкие и сильно завязанные на конкретную пару языков Тем не менее, создание систем машинного перевода очень сложно и трудоемко, сами системы громоздкие и сильно завязанные на конкретную пару языков

Содержание 1. Основные подходы 2. Перевод, основанный на правилах прямой перевод прямой перевод трансфер трансфер интерлингва интерлингва 3. Перевод, основанный на машинном обучении 4. Оценка машинного перевода

Система типа INTERLINGUA Предложение на языке входа Метаструктура для языка входа == Метаструктура для языка выхода Предложение на языке выхода анализ синтез Пока ни одной подобной системы не создано Пока ни одной подобной системы не создано Причина: сложность создания семантического представления приемлемого качества Причина: сложность создания семантического представления приемлемого качества

Transfer vs. interlingua

Сожержание 1. Основные подходы 2. Перевод, основанный на правилах 3. Перевод, основанный на машинном обучении 4. Оценка машинного перевода

Статистический перевод Основа - параллельный корпус Основа - параллельный корпус Вероятности назначаются подсчетом наиболее вероятного варианта перевода Вероятности назначаются подсчетом наиболее вероятного варианта перевода Оценки вероятности зависят от объема и качества обучающего корпуса Оценки вероятности зависят от объема и качества обучающего корпуса Лингвистическая информация: разбиение на предложения, графематический анализ, морфология Лингвистическая информация: разбиение на предложения, графематический анализ, морфология При наличии корпуса простейшая система перевода может быть сделана на 2 недели При наличии корпуса простейшая система перевода может быть сделана на 2 недели

Вероятностная модель Исходная цепочка S преобразуется в такую цепочку T целевого языка, что: Исходная цепочка S преобразуется в такую цепочку T целевого языка, что: T = argmaxp(T|S) Теорема Байеса: Теорема Байеса: T = argmaxp(S|T)p(T) Содержательная интерпретация: Содержательная интерпретация: - хороший перевод – это сочетание точности передачи информации и правильности целевого языка; - нужна модель перевода p(S|T) (вычисляется по пераллельному корпусу) и модель целевого языка p(T) (вычисляется по одноязычному корпусу)

Языковая модель Правильный порядок слов Правильный порядок слов Некоторые идеи грамматики Некоторые идеи грамматики Вычисляется с помощью n-грамм: Вычисляется с помощью n-грамм:

Модель перевода p(f|e) – вероятность перевода строки (в идеале – предложения) f строкой e. p(f|e) – вероятность перевода строки (в идеале – предложения) f строкой e. Выравнивание, т.е. нахождение соответствия между f строкой e – отдельная задача. Выравнивание, т.е. нахождение соответствия между f строкой e – отдельная задача. a – показатель качества выравнивания (alignment) a – показатель качества выравнивания (alignment)

Содержание 1. Основные подходы 2. Перевод, основанный на правилах 3. Перевод, основанный на машинном обучении 4. Оценка машинного перевода

Bilingual Evaluation Understudy (BLEU) Требуется тестовое множество, переведенное человеком Требуется тестовое множество, переведенное человеком Оценивается близость между машинным и человеческим переводом Оценивается близость между машинным и человеческим переводом Взвешенное среднее числа совпадений N- грамм машинного перевода с переводом человека

Источники D. Jurafsky, J. H. Martin Speech and Language Processing – 2009 – Chapter 25 D. Jurafsky, J. H. Martin Speech and Language Processing – 2009 – Chapter 25 A. Ittycheriah Statistical Machine Translation // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp A. Ittycheriah Statistical Machine Translation // Handbook of natural language processing, Second Edition Editor(s): Nitin Indurkhya; Fred J. Damerau, Goshen, Connecticut, USA – 2010 – pp Dan Jurafsky From Languages to Information. Lecture 16-17: Machine Translation - Дмитрий Кан Введение в машинный перевод Дмитрий Кан Введение в машинный перевод Денис Столяров Автоматический перевод на основе шаблонов - Денис Столяров Автоматический перевод на основе шаблонов Елена Уфлянд Работа автоматического переводчика ПроМТ - Елена Уфлянд Работа автоматического переводчика ПроМТ Александр Гребеньков Работа автоматического переводчика - Александр Гребеньков Работа автоматического переводчика -