ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Применение информационных технологий в переводной лексикографии – создание и использование современной словарной базы Традиционные словари, представленные в электронной форме – словари на электронных носителях Электронные словари, создаваемые и используемые в электронной форме Автоматизированные словари (терминологические базы и банки данных, автоматизированные лексикографические системы), Автоматические словари (словари систем переработки информации)
Современный подход к созданию переводных словарей предполагает формирование и использование представительных корпусов реальных текстов, которые могут рассматриваться как база данных для решения не только исследовательских задач, но и практических задач лексикографии.
Для решения задач переводной лексикографии необходим корпус текстов - совокупность исходных и переводных документов, параллельный: состоящий из текстов и их переводов, выровненных по предложениям и/или лексическим единицам и специально размеченных, псевдопараллельный (сопоставимый, comparable): состоящий из текстов написанных на одну тему, но на двух разных языках
Процедура создания корпуса текстов для лексикографического анализа Определение типа корпуса: Параллельный корпус текстов Сопоставимый корпус текстов Установление принципов отбора текстов Оценка качества переводов экспертами: Последовательность использования номинаций Соблюдение норм языка перевода Сохранение логической структуры текста
Процедура работы лексикографа с одноязычным корпусом статистическая обработка текстов и построение конкорданса, выделение терминов из текстов, Для английского языка выбор простых именных групп с опорой на формальные границы: theoretical and experimental investigations of support-pendulum seismic isolation (SPSI) system, designed for protection of large NPP equipment against seismic, shock and vibration loads.
Процедура работы лексикографа с одноязычным корпусом выделение терминов из текстов, Для русского языка необходим дополнительный анализ общенаучных ЛЕ, анализ изменения косвенных падежей построение соответствующих различным конструктивным параметрам семейства силовых характеристик упругопластических демпферов построение семейства силовых характеристик, соответствующих различным конструктивным параметрам упругопластических демпферов построение упругопластических демпферов, соответствующих различным конструктивным параметрам семейства силовых характеристик
Процедура работы лексикографа с одноязычным корпусом статистическая обработка текстов и построение конкорданса, выделение терминов из текстов, получение статистических данных о встречаемости терминов в обрабатываемых текстах, просмотр конкорданса, просмотр выделенных лексических единиц по заданным параметрам контекстного окна, автоматическое пополнение словаря, построение онтологии.
Работа с параллельным корпусом текстов Выравнивание текстов с учетом необходимости установления единиц перевода Выравнивание текстов по предложениям и выделение коллокаций Оценка терминологичности коллокаций и отдельных слов (termhood) Выравнивание по коллокациям
Выравнивание текстов по предложениям представляет собой сложную задачу, часто с множественными решениями, возникающими в результате: неоднозначности решения задачи сегментации текста на предложения; несовпадения деления входного и выходного текстов на предложения, возникающего при ручном переводе текстов.
Работа с сопоставимым корпусом текстов Установление коллокаций на каждом из языков (unithood) Оценка терминологичности коллокаций и отдельных слов (termhood) Выравнивание по коллокациям и отдельным словам
Выявление и анализ лексических единиц для включения в словарь получение статистических данных о встречаемости лексических единиц в одноязычных корпусах текстов, сравнение их с данными национальных языков в целом, принятие решения о терминологичности выделенных единиц в одноязычных корпусах, установление условной эквивалентности терминологических лексических единиц из корпусов текстов на разных языках; формирование массивов переводных эквивалентов
European Project: Terminology Extraction, Translation Tools and Comparable Corpora
Благодарю за внимание