ТАЦОГРНПСТАЦОГРНПС Корпус текстов китайского языка для автоматической обработки Соискатель – Довнар П.Ю. Научный руководитель – кандидат филологических наук, доцент Лаврененко А.В. Диссертация на соискание степени магистра филологических наук
ТАЦОГРНПСТАЦОГРНПС Содержание Тема и руководитель Актуальность Поставленные цели и задачи Объект и предмет исследования Научная гипотеза Основные результаты Научная новизна Положения, выносимые на защиту Спасибо за внимание
ТАЦОГРНПСТАЦОГРНПС Актуальность Актуальность данного исследования обусловлена необходимостью создания корпуса текста китайского языка для автоматической обработки, что впоследствии поможет при создании программ машинного перевода, автоматического реферирования текста, вопросно-ответных систем для китайского языка, позволяющих быстро, оперативно и качественно находить нужную информацию.
ТАЦОГРНПСТАЦОГРНПС Поставленные цели и задачи Цель исследования – создать корпус текстов китайского языка для автоматической обработки. Задачи исследования: изучить научную литературу по проблемам описания морфологии и синтаксиса китайского языка; описать принципы формальной классификации частей речи в китайском языке; создать аннотированный лексико-грамматическими классами корпус текстов китайского языка.
ТАЦОГРНПСТАЦОГРНПС Объект и предмет исследования Объектом исследования являются тексты на китайском языке. Предметом исследования является изучение особенностей лексики и грамматики китайского языка с целью их формализации и описания в системе автоматической обработки текста.
ТАЦОГРНПСТАЦОГРНПС Научная гипотеза Несмотря на нерешенный статус проблемы частей речи в китайском языке, при создании корпуса текстов для автоматической обработки лучше всего взять за основу лексико- грамматической классификации европейскую систему частей речи.
ТАЦОГРНПСТАЦОГРНПС Основные результаты выработка правил разбиения китайского текста на слова. описание принципов формальной классификации частей речи в китайском языке создание аннотированного лексико-грамматическими классами корпуса текстов китайского языка. предложенные в ходе исследования решения легли в основу работы промышленного лингвистического процессора известной системы инженерии и управления знаниями Goldfire InnovatorTM, что доказывает их эффективность.
ТАЦОГРНПСТАЦОГРНПС Научная новизна Научная новизна исследования связана с выработанной лексико- грамматической классификацией слов, удобной для автоматической обработки, а также с правилами разбиения китайского текста на слова.
ТАЦОГРНПСТАЦОГРНПС Положения, выносимые на защиту При решении проблемы разбиения слов следует руководствоваться принципами практичности: разбивать слова так, чтобы они оптимально подходили для задач последующего анализа и обработки, т.е. для семантического поиска, извлечения знаний, машинного перевода и т.д. Несмотря на разнородность мнений и взглядов по поводу проблемы частей речи в китайском языке, для выделения синтаксических и семантических отношений между словами лучше всего подходит традиционная система частей речи.
ТАЦОГРНПСТАЦОГРНПС Спасибо за внимание!