Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке, а также результат такого действия.
Статистический машинный перевод Статистический машинный перевод основан на поиске наиболее вероятного перевода предложения, с использованием данных двуязычного корпуса (Parallel Corpora) Битекст. В результате при выполнении перевода компьютер не оперирует лингвистическими алгоритмами, а вычисляет вероятность применения того или иного слова или выражения. Слово или последовательность слов, имеющие оптимальную вероятность, считаются наиболее соответствующими переводу исходного текста и подставляются компьютером в получаемый в результате текст. В статистическом машинном переводе ставится задача не перевода текста, а задача его расшифровки.
архитектура статистических систем Одноязычный корпус (язык перевода). Языковая модель - набор n-грамм (последовательностей словоформ длины n) из корпуса текстов. Параллельный корпус. Фразовая таблица - таблица соответствий фраз исходного корпуса и корпуса переводов с некоторыми статистическими коэффициентами. Статистический декодер - среди всех возможных вариантов перевода, выбирает наиболее вероятный.
В процессе перевода сохраняется исходный сегмент текста(предложение) и его перевод; если подобный исходному сегмент обнаруживается, он отображается вместе с переводом и указанием совпадения; затем переводчик принимает решение(редактировать, отклонить или принять перевод), результат которого сохраняется системой
1 этап анализа. Осуществляется ввод текста и поиск входных словоформ во входном словаре с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме(слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы, например, каким членом предложения может быть данное слово.
2-й этап включает в себя Перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области; определение основных грамматических (морфологических, синтаксических, семантических и лексических характеристик элементов входного текста разрешение неоднозначности анализ и перевод слов.
3 этап - окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка. Например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число.