Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемdialog-21.ru
1 Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор Владимирович
2 Постановка задачи Есть корпус текстов на английском языке, относящихся к некоторой предметной области. Для каждого текста есть перевод на русский язык. Требуется построить (пополнить) англо- русский словарь терминов для данной предметной области.
3 Подход к решению Суть алгоритмов: последовательное разбиение и анализ парных текстов, нахождение соответствий между семантическими единицами в парных текстах. Алгоритмы не используют специфических особенностей английского и русского языков.
4 Подзадачи 1. Разбивка текста на предложения 2. Сопоставление предложений и их переводов 3. Пополнение словаря
5 1. Разбивка текста на предложения Цель: Каждые текст и его перевод разбить на отдельные предложения. Алгоритм последовательно идентифицирует концы предложений, используя знаки препинания и другие ориентиры. распознается корректно более 95%
6 2. Сопоставление предложений и их переводов Цель: каждому предложению из текста сопоставить его перевод. Предположение о монотонности перевода Последовательно маркируем предложения на английском языке и соответствующие им русские. На следующем шаге переходим к рассмотрению упорядоченных списков между соответствующими маркерами. сопоставляется от 30 до 70 % предложений
7 2. Сопоставление предложений и их переводов Основные признаки соответствия предложений: Непереведённые слова и группы символов формулы, переменные, названия, числа, даты, имена файлов и т.д. Однозначно переводимые слова имена людей, названия и другие имена собственные; аббревиатуры; термины данной предметной области. Знаки препинания восклицательный и вопросительный знаки, цитирование, прямая речь.
8 3. Пополнение словаря Цель: используя пары (предложение, перевод), создать (пополнить) словарь. Используются статистические методы находится 60 – 65 % терминов из текстов корректность результатов 70 – 80 %
9 Итерационный характер работы алгоритмов После очередного прохода алгоритмов возвращаемся к шагу 2 («Сопоставление предложений и их переводов»), используя словарь терминов для предметной области, построенный на предыдущем шаге.
10 Дальнейшая работа Автоматическое выделение словосочетаний. Учёт разметки документов в алгоритмах сопоставления предложений. Автоматическое удаление общелексических терминов из построенного словаря. Построение онтологий для предметных областей.
11 Спасибо за внимание!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.