ЛЕ КСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ ДЛЯ АВТОМАТИЧЕСКОГО АНАЛИЗА НАУЧНО-ТЕХНИЧЕСКИХ ТЕКСТОВ Е. И. Большаков а, Н. Э. Васильева, С.С. Морозов МГУ им. М.В. Ломоносова Факультет ВМиК
Научно-техническая проза: функции и стилевые особенности Функции оформления, отбор сохранения и передачилингвистических научной информации: средств Средства разных уровней: лексика и фразеология; дискурс и композиция; морфология и синтаксис.
Лексико-фразеологические особенности Специальная терминология научной области Общенаучные слова и словосочетания (по этой причине, суммируя вышесказанное, далее мы докажем и т.п. ) Стандартизованные конструкции - клише общенаучной речи (обозначить направления дальнейших исследований, всесторонний анализ проблемы показывает и т.п.) Системный характер; Взаимосвязь с дискурсивными особенностями
Дискурсивные и композиционные особенности Научный дискурс (речь) – рассуждение, отражающее последовательность операций научного мышления (выдвижение гипотезы, введение термина, обобщение и т.п.) Дискурсивные маркеры (общенаучные слова и выражения) - помечают эти операции (предположим, что; далее кратко изложен … и др.), - упорядочивают и связывают их (во-первых, наконец; благодаря тому, что и др.),
Дискурсивные операции и маркеры Исследование текстов (научные статьи, аннотации) из нескольких областей дало список операций: Конкретизация и уточнение ( в дополнение к ); Актуализация темы (перейдем к); Выделение информации (особо подчеркнем,); Предположения и допущения (предположим, что); Иллюстрация и приведение примеров (к примеру); Обобщение и резюмирование (в общем); Сравнение и противопоставление (в отличие от); И др.
Словарные средства анализа научного текста Словарь общенаучных слов и словосочетаний: функционально-семантическая классификация разнородных единиц (классы квазисинонимов). Лексико-синтаксические шаблоны - отображают характерные конструкции научных текстов Гипотеза: распознавание дискурсивной структуры текста и примененных в нем дискурсивных операций (т.е. поверхностное понимание) – на основе частичного синтаксического анализа и лексикона общенаучных слов и выражений
Лексико-синтаксические шаблоны содержат конкретные словоформы общенаучных слов свободные места (слоты), заполняемые согласованными именными группами Пример шаблона определения нового термина NG ACC [«мы»] «будем называть» T INS NG ACC – определяющее выражение T INS – определяемый термин
Методика создания шаблонов Основная проблема – определение контекстов, сигнализирующих дискурсивный характер слов. Проведено исследование контекстов конструкций, определяющих новые термины. «По результатам генерации форм, слова были разбиты на группы, названные профилями», Но - «...устойчивого выражения, названного в заголовке…». Фразы – Лексемы – Контексты – Синтаксические конструкции – Шаблон
Составные элементы шаблонов Литералы, т.е. конкретные лексемы из словаря («определим», «будем называть» и др.) Символьные обозначения слов определенной части речи (например, V – глагол) Обозначения определенных грамматических конструкций (например, Ng – именная группа) Условия, уточняющие грамматические характеристики рассмотренных элементов (например: )
Основные шаги процедуры анализа текста 1)Выделение слов и словосочетаний общенаучной лексики. 2)Наложение лексико-синтаксических шаблонов, извлечение именных групп (например, определений терминов) Без полного синтаксического разбора; проверка согласования и управления слов
Заключение Разрабатываемые средства нужны для: извлечения знаний из научных текстов реферирования и аннотирования текстов литературно-научного редактирования структуризации текстов для быстрого прочтения и внутритекстового поиска. Спасибо за внимание!