Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет
Лекция 1Корпусная лингвистика2 Понятие корпуса Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.
Лекция 1Корпусная лингвистика3 Проанализируем Большой Электронный Унифицированный Структурированный Размеченный Филологически компетентный Массив языковых данных Предназначенный для …
Лекция 1Корпусная лингвистика4 Словарные картотеки
Лекция 1Корпусная лингвистика5 Электронные библиотеки и их разнообразие Корпус латинских текстов Персей. Корпус текстов Ф. М. Достоевского. Электронная энциклопедия "Брокгауз и Ефрон". Фундаментальная электронная библиотека. Российская виртуальная библиотека. Библиотека М. Мошкова. Электронная библиотека Химического фак-та МГУ. ………………………………………………………. и т.д.
Лекция 1Корпусная лингвистика6 Корпус vs. электронная библиотека Тексты в корпусах рассматриваются прежде всего как образцы текстов. Тексты в электронных библиотеках, исходя из их назначения, правильнее всего называть произведениями со всеми характерными для них атрибутами. Лингвистический корпус текстов:Электронная библиотека: образцы текстовполные тексты лингвистическая разметкабиблиографические и историко- культурные элементы данных (если имеются) лингвостатистикаотсутствие статистики репрезентативность языкового материала"условная" полнота текстов электронной библиотеки отбор языкового материала на основе критериев репрезентативности, лингвистической и историко-культурной значимости отбор текстов, определяемый выбором составителей библиотеки
Лекция 1Корпусная лингвистика7 Лингвистические корпусы Brown Corpus. Ланкастерский корпус английского языка (Lancaster- Oslo-Bergen Corpus, LOB). British National Corpus. International Corpus of English. Bank of English. Cobuild Corpus. Мангеймский корпус немецкого языка. Чешский национальный корпус. Уппсальский корпус русского языка. Национальный корпус русского языка. Корпусы китайского, турецкого, эстонского, албанского и многих других языков
Лекция 1Корпусная лингвистика8 Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий.
Лекция 1Корпусная лингвистика9 Корпус Собственно корпус (массив данных) + корпусный менеджер (специализированная поисковая система)
Лекция 1Корпусная лингвистика10 Конкорданс Конкорданс – список всех употреблений данного слова в контексте (возможно, со ссылками на источник). Чешский национальный корпус: Поиск словоупотреблений слова holubí (голубиный).
Лекция 1Корпусная лингвистика11 Предпосылки создания и использования корпусов Назначение языкового корпуса – показать функционирование лингвистических единиц в их естественной контекстной среде. На основе корпуса можно получить данные: о частоте словоформ, лексем, грамматических категорий, об изменениях частот об изменениях контекстов в различные периоды времени о поведении языковых единиц разных авторов о совместной встречаемости лексических единиц об особенностях их сочетаемости, управления и т.д.
Лекция 1Корпусная лингвистика12 Репрезентативность Размеры и процентные соотношения: Жанры Стили Периоды Авторы Хронологические границы ……………………….
Лекция 1Корпусная лингвистика13 Разметка Англ.: tagging, annotation. Разметка – приписывание текстам и их компонентам специальных меток. Виды разметки: экстралингвистическая (метаразметка) сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; структурная (глава, абзац, предложение, словоформа) собственно лингвистическая
Лекция 1Корпусная лингвистика14 Лингвистическая разметка морфологическая разметка part-of-speech tagging (POS-tagging) синтаксическая разметка семантическая разметка анафорическая разметка просодическая разметка и т.д.
Лекция 1Корпусная лингвистика15 Типы корпусов Корпусы, относящиеся ко всему языку; корпусы, относящиеся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.). Существует большое число разных других типов корпусов. Можно выделить различные основания для классификации корпусов.
Лекция 1Корпусная лингвистика16 Классификация корпусов ПризнакТипы корпусов Тип данных Письменные Речевые Смешанные Язык текстов Русский Английский и т.д. «Параллельность» Одноязычные Двуязычные Многоязычные «Литературность»,специфичность Литературные Диалектные Разговорные Терминологические Смешанные Жанр Литературные Фольклорные Драматургические Публицистические
Лекция 1Корпусная лингвистика17 Классификация корпусов (прод.) ПризнакТипы корпусов Доступность Свободно доступные Коммерческие Закрытые Назначение Исследовательские Иллюстративные Динамичность Динамические (мониторные) Статические Разметка Размеченные Неразмеченные Характер разметки Морфологические Синтаксические Семантические Просодические и т.д. Объем текстов Полнотекстовые «Фрагментнотекстовые»
Лекция 1Корпусная лингвистика18 Классификация корпусов (прод.) ПризнакТипы корпусов Хронологический аспект Синхронические Диахронические «Общность» Общие Одного писателя Структура Центральные и архивные Ядерные и периферийные
Лекция 1Корпусная лингвистика19 Пользователи Прикладные лингвисты; лексикографы; лингвисты-теоретики; преподаватели; компьютерные лингвисты; другие специалисты по языку (литературоведы, редакторы); специалисты по общественным наукам (историки, социологи); корпусы как инструмент для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск).