Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемСтепан Стегнеев
1 SDL BeGlobal Trainer: как очень быстро настроить МП, имея хорошую (-ие) ТМ
2 SDL BeGlobal Trainer: основные факты SDL BeGlobal Trainer - это SaaS-приложение (и компонент SDL BeGlobal) Пользователи могут применять его для настройки и/или создания языковых пар по определенным предметным областям В основе решения лежит технология, многие годы использовавшаяся в Language Weaver/SDL, и представленная теперь в рамках нового удобного пользовательского интерфейса Обучение основано на обработке параллельных данных (например, в формате TM); для достижения приемлемого результата потребуется наличие, как минимум, исходных слов или предложений В среднем, требуется от 24 до 36 часов для настройки, в зависимости от загруженности сервера, объема используемых данных и т.д.depending on the Кто может быть пользователем BeGlobal Trainer: – Лингвист или переводчик – Имеющий опыт работы с MS Office и SDL Trados Studio – Имеющий представление о TMX, XLIFF и прочих специализированных форматах файлов –Опыт работы с МП в целом и настройкой МП в частности не требуется
3 Процесс обучения/создания модуля МП 3 Подготовить данные Собрать данные Создать новый проект Загрузить данные Запустить обучение модуля МП Оценить результат Активиро вать модуль Переводить с помощью… BeGlobal Online, API, SDL Trados Studio, … Переводить с помощью… BeGlobal Online, API, SDL Trados Studio, … Подготовка BeGlobal Trainer BeGlobal Trainer BeGlobal SaaS BeGlobal SaaS
4 – Файлы в формате TMX (параллельные тексты в кодировке UTF-8). Можно загрузить в систему и целый архив файлов в формате TMX: – Тестовый набор в формате TMX (Test Set), который будет использован для оценки по системе BLEU (опционально), не менее 100 сегментов. Если тестовый файл не загружен, система автоматически выберет случайную 1000 сегментов из доступных материалов для тестирования. – Файл для регрессионного тестирования (Regression Test), формата TXT, в кодировке UTF-8, на исходном языке (опционально). Какие данные нужно подготовить для настройки
5 1.Проверить кодировку (UTF-8). 2.Удалить теги. 3.Удалить сегменты, в которых перевод идентичен исходному тексту. 4.Удалить некорректные сегменты (перевод не соответствует исходному тексту). 5.Никогда не удаляйте & > or < если они присутствуют в файлах. 6.Дополнительные действия по проверке на: 1.Некорректные символы 2.Переносы внутри предложений 3.Знаки пунктуации 4.И т.д. Как подготовить базу ТМ 5
6 Выберите наиболее репрезентативные для данного контента сегменты, но не менее 100 предложений. Данные предложения должны быть полными и грамматически корректными, не слишком короткими и не слишком длинными. Выбирайте предложения с различиями в стиле, терминологии и пр. Чем большее количество предложений выбирается для данной цели, тем более достоверными будут результаты оценки (BLEU score) Если вы не сможете создать тестовый набор самостоятельно, BeGlobal Trainer автоматически подготовит необходимую выборку, которую можно будет загружать в дальнейшем для тестирования соответствующих языковых пар. Как создать тестовый набор (Test Set)?
7 BLEU (Bilingual Evaluation Understudy) – это алгоритм для оценки качества текста после машинного перевода. Базовая посылка BLEU: «чем ближе результат МП к результату ручного перевода, тем он лучше. Очки (scores) подсчитываются для конкретных переведенных сегментов (обычно предложений) путем сопоставления их с переводами хорошего качества. Затем результаты анализируются на всем корпусе текстов для оценки общего качества переводов. Понятность или грамматическая корректность во внимание не принимаются. Повышение BLEU score не является индикатором улучшения качества перевода. Результаты теста BLEU должны использоваться в ограниченных пределах, для сравнения результатов двух аналогичных систем, а также для отслеживания существенных изменений в рамках одной системы. Что такое BLEU Score? 7
8 Файл для регрессионного тестирования должен быть выбран на исходном языке для целей автоматического МП непосредственно после окончания настройки языковой пары Основные требования – те же, что и к тестовому набору, однако следует избегать того, чтобы предложения входили в состав базы, используемой для настройки, для получения слишком прекрасного результата. Как выбрать и использовать файл для регрессионного тестирования? 8
15 15 Запуск тестирования модуля Языковые пары в процессе настройки Настроенные языковые пары Используемые для перевода модули
16 16 Статус процесса и предполагае мое время завершения Дополнительная информация о модуле (BLEU score, etc.) Результаты BLEU score: Better : результат BLEU для данной языковой пары лучше, чем у базовой языковой пары SDL Worse : результат BLEU для данной языковой пары хуже, чем у базовой языковой пары SDL Результаты BLEU score: Better : результат BLEU для данной языковой пары лучше, чем у базовой языковой пары SDL Worse : результат BLEU для данной языковой пары хуже, чем у базовой языковой пары SDL Количество тестируемых модулей Уникальный ID для каждой языковой пары.
17 17 Здесь можно напечатать текст для перевода Здесь можно напечатать текст для перевода Нажмите Translate. Здесь появится результат МП для настроенной языковой пары Здесь появится результат МП для настроенной языковой пары Здесь появится результат МП для Базовой языковой пары Здесь появится результат МП для Базовой языковой пары
18 Пример использования: машинный перевод как неполное совпадение в SDL Trados Studio
19 SDL Proprietary and Confidential Глоссарий 19
20 Activate - Активировать: перенести языковую пару на учетную запись для выполнения МП с помощью разных приложений. Baseline-Базовая: языковая пара, созданная SDL. Используется совместно с пользовательской, в том числе для поиска терминов. BLEU score: автоматически вычисляемая степень совпадения результата машинного и ручного перевода для одного и того же текста. Deploy-Развернуть: перенести языковую пару на тестовый сервер для выполнения переводов. Language Pair-Языковая пара: модуль МП и статистические данные, используемые для перевода LPID: уникальный номер создаваемой языковой пары. Match-Совпадение: соответствие между тестовым материалом и текстовым корпусом, используемым для создания языковой пары. В системе CAT обычно понимается как TM-совпадение. N-gram: для целей СМП термин означает последовательное количество (n) слов, которые появляются в отдельно взятом сегменте. Например, bigram означает комбинацию из 2 слов; 4-gram – 4 последовательных слова, и т.д.
21 TMX files-Файлы в формате TMX: файлы в формате Translation Memory eXchange, которые требуются для создания обученной языковой пары. Parallel data-Параллельные данные: сопоставленные предложения на исходном и выходном языках. Regression Testing-Регрессионное тестирование: документ для автоматического перевода после настройки языковой пары с целью сравнения качества МП, полученного с помощью различных модулей (базовой системы и настроенной). Source language-Исходный язык: язык документа. Target language-Выходной язык: язык перевода. Test Set-Тестовый набор: файл для получения результата BLEU score. Test slot-Тестовый слот: место на сервере, где имитируется процесс активации языковой пары для использования в BeGlobal с целью оценки качества. Train/training-Обучение: процесс сопоставления исходных и выходных пользовательских данных из файлов TMX в модуле статистического МП с целью создания новой языковой пары на основе математических алгоритмов Un-deploy-Отменить развертывание: удалить языковую пару с тестового сервера для освобождения тестового слота, при этом языковая пара физически не удаляется.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.