Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY.

Презентация:



Advertisements
Похожие презентации
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Advertisements

Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Более 100 общелексических и тематических словарей, входящих в перечень ABBYY LINGVO, являются наиболее актуальными и авторитетными изданиями в своих областях.
Александр Красс, CEO Проблема Людям ИТ-индустрии сейчас не хватает широкоспециализированных профессиональных социальных сетей для.
Логико-статистические методы представления языковых структур в машинном переводе Елена Борисовна Козеренко Институт проблем информатики РАН
Александр Андреев Директор по маркетингу Компания ПРОМТ 15 сентября 2004 г. Пресс-конференция «Новая технология компьютерного перевода PROMT 7.0» Революция.
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Подходы к построению и оценке эффективности современных систем управления гиперзвуковых ЛА на базе ИНС УГС, направление повышения квалификации: ,
Автоматизация процесса построения и пополнения двуязычных специализированных словарей Липатов Антон Александрович Мальцев Андрей Анатольевич Шило Виктор.
ИНСТРУМЕНТЫ РАСПОЗНОВАНИЯ ТЕКСТОВ И КОМПЬЮТЕРНОГО ПЕРЕВОДА Информатика и ИКТ.
Текст на г. Сиушева Г.Г., доцент кафедры управления и экономики образования КОИРО.
Ижевский Государственный Технический Университет Факультет информатики и вычислительной техники Кафедра АСОИУ.
Презентация на тему: Студентки 23 группы Бельковой Светланы.
Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ.
ИНСТРУМЕНТЫ РАСПОЗНОВАНИЯ ТЕКСТОВ И КОМПЬЮТЕРНОГО ПЕРЕВОДА ОБРАБОТКА ТЕКСТОВОЙ ИНФОРМАЦИИ.
Критерии выбора библиографических баз данных для задач поиска научно- технической информации Ефременкова В.М., Старцева О.Б. (ВИНИТИ РАН)
Решение для обнаружения заимствований в документах.
Комплексная технология автоматической классификации текстов ИПИ РАН Васильев В.Г.
Дифференцированное измерение эмоциональности текстов с помощью алгоритма PMI-IR Андрей Четвериков.
Транксрипт:

Автоматический поиск переводных словосочетаний Новицкий Валерий, компания ABBYY

Автоматический поиск переводных словосочетаний, Новицкий Валерий 2 Цели и задачи Задача: Поиск переводных словосочетаний (словосочетаний и их переводов на другой язык) по корпусу выровненных параллельных текстов Цели: Разработка алгоритма получения словосочетаний (с учётом ряда специфических требований) Получение статистических данных для улучшения работы синтаксического анализатора Расширение переводного словаря

Автоматический поиск переводных словосочетаний, Новицкий Валерий 3 Дополнительные требования и исходные данные Требования к получаемым словосочетаниям: Синтаксическая связанность Размер от 1 до 5 слов Устойчивый перевод Целостность (словосочетание не является частью другого, более полного словосочетания) И т.д. Исходные данные и внешние механизмы Корпус выровненных параллельных текстов Синтаксический анализатор Механизм пословного сопоставления синтаксических структур

Автоматический поиск переводных словосочетаний, Новицкий Валерий 4 Схема алгоритма Корпус параллельных синтаксических структур (размеченный параллельный корпус) Генерация одноязычных словосочетаний Пословное выравнивание синтаксический структур Генерация переводных словосочетаний Фильтрация и сортировка полученного результата

Автоматический поиск переводных словосочетаний, Новицкий Валерий 5 Фильтрация Задача: убрать случайные словосочетания Этапы фильтрации: Предварительное удаление низкочастотных словосочетаний Удаление вложенных/«внешних» словосочетаний Разрешение неоднозначности перевода Удаление известных (словарных) переводов Финишная фильтрация по частоте Сортировка результатов на новые словарные статьи и собственно переводные словосочетания

Автоматический поиск переводных словосочетаний, Новицкий Валерий 6 Результаты Корпус: ~4,2 млн. фрагментов На выходе: ~62 млн. уникальных словосочетаний После фильтрации: ~42 тыс. переводных словосочетаний Оценку полноты произвести затруднительно Оценка точности полученных результатов экспертом по выборке 100 случайных словосочетаний: Хорошие – 67 Недостатки описания – 4 Недоработки алгоритма – 16 Другие – 12