Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.

Презентация:



Advertisements
Похожие презентации
Электронные корпуса Корпусная лингвистика. Корпусная лингвистика ? Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения.
Advertisements

ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет.
1 Предмет корпусной лингвистики. Сопоставление корпусной и традиционной лингвистики 2 История создания лингвистических корпусов 3 Типология корпусов.
Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.
Лекция 11. Использование корпусов в прикладной лингвистике и в других областях В.П. Захаров Санкт-Петербургский государственный университет.
Лекция 9. Обзор корпусов. В.П. Захаров Санкт-Петербургский государственный университет.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
ПАРАЛЛЕЛЬНЫЙ КОРПУС ТЕКСТОВ В ЗАДАЧАХ ЛЕКСИКОГРАФИЧЕСКОГО АНАЛИЗА PARALLEL CORPORA IN LEXICOGRAPHY Л. Н. Беляева (С.Петербург)
Языковая норма Выполнили: Нифантова Алина Цырульникова Юлия.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
Введение в языкознание Л.А. Козловская. Лекция 1. Предмет, структура и задачи языкознания Место языкознания в системе наук. Внутренняя и внешняя лингвистика.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
Язык и речь Понятие модели при описании лингвистических фактов. Структурность языка. Соотношение единиц плана выражения и плана содержания. Уровни и единицы.
Ученые-русисты. Михаил Васильевич Ломоносов 1)разработка научной классификации частей речи и в создании теории «трех штилей»; 2)создал первую научную.
Лекция 2. Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет.
Проектная работа по русскому языку. ФГОС ( старшая ступень ) Выдвижение гипотез, осуществление их проверки, владение приёмами исследовательской деятельности,
Лекция 2. Онлайновые словари. Понятие лексикографического гипертекста.
Изучение стилистики на уроках русского языка в старших классах.
Транксрипт:

Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет

Лекция 1Корпусная лингвистика2 Понятие корпуса Лингвистический, или языковой, корпус текстов – большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.

Лекция 1Корпусная лингвистика3 Проанализируем Большой Электронный Унифицированный Структурированный Размеченный Филологически компетентный Массив языковых данных Предназначенный для …

Лекция 1Корпусная лингвистика4 Словарные картотеки

Лекция 1Корпусная лингвистика5 Электронные библиотеки и их разнообразие Корпус латинских текстов Персей. Корпус текстов Ф. М. Достоевского. Электронная энциклопедия "Брокгауз и Ефрон". Фундаментальная электронная библиотека. Российская виртуальная библиотека. Библиотека М. Мошкова. Электронная библиотека Химического фак-та МГУ. ………………………………………………………. и т.д.

Лекция 1Корпусная лингвистика6 Корпус vs. электронная библиотека Тексты в корпусах рассматриваются прежде всего как образцы текстов. Тексты в электронных библиотеках, исходя из их назначения, правильнее всего называть произведениями со всеми характерными для них атрибутами. Лингвистический корпус текстов:Электронная библиотека: образцы текстовполные тексты лингвистическая разметкабиблиографические и историко- культурные элементы данных (если имеются) лингвостатистикаотсутствие статистики репрезентативность языкового материала"условная" полнота текстов электронной библиотеки отбор языкового материала на основе критериев репрезентативности, лингвистической и историко-культурной значимости отбор текстов, определяемый выбором составителей библиотеки

Лекция 1Корпусная лингвистика7 Лингвистические корпусы Brown Corpus. Ланкастерский корпус английского языка (Lancaster- Oslo-Bergen Corpus, LOB). British National Corpus. International Corpus of English. Bank of English. Cobuild Corpus. Мангеймский корпус немецкого языка. Чешский национальный корпус. Уппсальский корпус русского языка. Национальный корпус русского языка. Корпусы китайского, турецкого, эстонского, албанского и многих других языков

Лекция 1Корпусная лингвистика8 Корпусная лингвистика – раздел компьютерной лингвистики, занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с использованием компьютерных технологий.

Лекция 1Корпусная лингвистика9 Корпус Собственно корпус (массив данных) + корпусный менеджер (специализированная поисковая система)

Лекция 1Корпусная лингвистика10 Конкорданс Конкорданс – список всех употреблений данного слова в контексте (возможно, со ссылками на источник). Чешский национальный корпус: Поиск словоупотреблений слова holubí (голубиный).

Лекция 1Корпусная лингвистика11 Предпосылки создания и использования корпусов Назначение языкового корпуса – показать функционирование лингвистических единиц в их естественной контекстной среде. На основе корпуса можно получить данные: о частоте словоформ, лексем, грамматических категорий, об изменениях частот об изменениях контекстов в различные периоды времени о поведении языковых единиц разных авторов о совместной встречаемости лексических единиц об особенностях их сочетаемости, управления и т.д.

Лекция 1Корпусная лингвистика12 Репрезентативность Размеры и процентные соотношения: Жанры Стили Периоды Авторы Хронологические границы ……………………….

Лекция 1Корпусная лингвистика13 Разметка Англ.: tagging, annotation. Разметка – приписывание текстам и их компонентам специальных меток. Виды разметки: экстралингвистическая (метаразметка) сведения об авторе и сведения о тексте: автор, название, год и место издания, жанр, тематика; структурная (глава, абзац, предложение, словоформа) собственно лингвистическая

Лекция 1Корпусная лингвистика14 Лингвистическая разметка морфологическая разметка part-of-speech tagging (POS-tagging) синтаксическая разметка семантическая разметка анафорическая разметка просодическая разметка и т.д.

Лекция 1Корпусная лингвистика15 Типы корпусов Корпусы, относящиеся ко всему языку; корпусы, относящиеся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.). Существует большое число разных других типов корпусов. Можно выделить различные основания для классификации корпусов.

Лекция 1Корпусная лингвистика16 Классификация корпусов ПризнакТипы корпусов Тип данных Письменные Речевые Смешанные Язык текстов Русский Английский и т.д. «Параллельность» Одноязычные Двуязычные Многоязычные «Литературность»,специфичность Литературные Диалектные Разговорные Терминологические Смешанные Жанр Литературные Фольклорные Драматургические Публицистические

Лекция 1Корпусная лингвистика17 Классификация корпусов (прод.) ПризнакТипы корпусов Доступность Свободно доступные Коммерческие Закрытые Назначение Исследовательские Иллюстративные Динамичность Динамические (мониторные) Статические Разметка Размеченные Неразмеченные Характер разметки Морфологические Синтаксические Семантические Просодические и т.д. Объем текстов Полнотекстовые «Фрагментнотекстовые»

Лекция 1Корпусная лингвистика18 Классификация корпусов (прод.) ПризнакТипы корпусов Хронологический аспект Синхронические Диахронические «Общность» Общие Одного писателя Структура Центральные и архивные Ядерные и периферийные

Лекция 1Корпусная лингвистика19 Пользователи Прикладные лингвисты; лексикографы; лингвисты-теоретики; преподаватели; компьютерные лингвисты; другие специалисты по языку (литературоведы, редакторы); специалисты по общественным наукам (историки, социологи); корпусы как инструмент для разработки и настройки различных автоматизированных систем (машинный перевод, распознавание речи, информационный поиск).