1 Предмет корпусной лингвистики. Сопоставление корпусной и традиционной лингвистики 2 История создания лингвистических корпусов 3 Типология корпусов.

Презентация:



Advertisements
Похожие презентации
Лекция 9. Обзор корпусов. В.П. Захаров Санкт-Петербургский государственный университет.
Advertisements

Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.
Электронные корпуса Корпусная лингвистика. Корпусная лингвистика ? Корпусная лингвистика - наука, занимающаяся разработкой общих принципов построения.
Британские корпуса и словари Какие из корпусов авторитетны?
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.
Российские разработки корпусов устной речи I. Корпусы звучащей речи = фонетические базы данных II. Корпусы устных текстов.
Глушкин Александр Представляет. Графические и табличные информационные модели Презентация.
Модульный принцип описания морфологии в многоязычном многофункциональном словаре Александр Силонов VENI, VIDI… WIKI Usor Anonymus.
Белорусский Государственный Университет ГУО «Центр проблем развития образования» Ольшевская Мария Владимировна Коммуникативно-когнитивный подход к обучению.
Система дистанционного обучения и тестирования © Ивановский государственный энергетический университет,
Выполняли презентацию Абрамова Кира и Искиндирова Динара школы «СОШ» 35.
10-11 класс.. Человек и информация Информация и общество Информатика как наука История развития Основные направления Теоретическая информатика Теории.
Литература 1. Андрейчиков А.В, Андрейчикова О.Н. Интеллектуальные информационные системы: Учебник. – М.: Финансы и статистика, – 424 с. 2. Гаврилова.
Университетская информационная система РОССИЯ ( УИС РОССИЯ ) Режим доступа:
Частотно-основанный подход к языковой динамике Соловьев В.Д. Казанский федеральный университет.
Инструменты ИКТ в обучении лексике Web based Concordancers and other tools for Vocabulary development Москва, 2010 Наталья Катасонова.
Дидактическое и методическое обеспечение образования. Образовательная область «Филология» Кафедра языкового и литературного образования ГБОУ ДПО ЧИППКРО.
Конструирование учебно-методического комплекса. Учебно-методический комплекс является обязательной частью основной образовательной программы ВУЗ, разрабатывается.
Транксрипт:

1 Предмет корпусной лингвистики. Сопоставление корпусной и традиционной лингвистики 2 История создания лингвистических корпусов 3 Типология корпусов

Баранов А.Н. Корпусная лингвистика // Баранов А.Н. Введение в прикладную лингвистику. М., С. 112–137. Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. – СПб., – 48 с. Захаров В.П. Корпусная лингвистика: учебник для студентов гуманитарных вузов / В.П. Захаров, С.Ю. Богданова. – Иркутск, – 161 с. Зубов А.В. Информационные технологии в лингвистике: учеб. пособие /А.В. Зубов, И.И. Зубова.– М., – 208 с.

Корпусная лингвистика раздел лингвистики (компьютерной лингвистики), занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий. Корпусная лингвистика сформировалась как отдельный раздел науки о языке в первой половине 90-х гг. XX в.

собранных в соответствии с определенными принципами, представленных в электронном виде, унифицированных, размеченных по определенному стандарту, обеспеченных специализированной поисковой системой.

представлением данных в реальном контексте; достаточно большой представительностью данных (при большом объёме корпуса); возможностью многократного использования единожды созданного корпуса для решения различных задач.

Объект корпусной лингвистики – корпус текстов, который, с одной стороны, представляет собой исходный речевой материал для корпусной лингвистики и для других лингвистических дисциплин; с другой стороны, является результатом деятельности корпусной лингвистики.

Двойственный характер объекта обусловливает двойственный характер корпусной лингвистики нацеленность как на создание, так и на использование корпусов текстов.

Предмет корпусной лингвистики теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей.

В понятие корпус текстов входит также корпусный менеджер (корпус-менеджер) специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.

Поиск в корпусе позволяет построить конкорданс список всех фиксаций искомой языковой единицы в контекстах со ссылками на источник.

КОРПУСНАЯ ЛИНГВИСТИКА ТРАДИЦИОННАЯ ЛИНГВИСТИКА Основное внимание – изучению речи В исследованиях опора на данные корпуса текста Предпочтение квантитативным методам Текст рассматривается как некоторая физическая сущность Основное внимание – изучению языка В исследованиях путь от теории к её объяснению и подтверждению в фактах речи Предпочтение квалитативным методы Текст рассматривается как некоторая абстракция

Первые лингвистические корпусы текстов появились в 60-е гг. ХХ в.

Первый корпус текстов – Брауновский корпус (The Brown Corpus) создан в 1963 г. в Брауновском университете (США). Создатели корпуса У. Френсис и Г. Кучера.

Брауновский корпус включает 500 текстов из американских книг, газет, журналов, впервые опубликованных в США в 1961 г. Каждый текст имеет длину 2000 словоупотреблений, и все собрание включает 1 млн. слов.

Тексты в Брауновском корпусе принадлежат 15-ти наиболее массовым жанрам англоязычной печатной прозы США. Корпус сопровождается большим количеством материалов первичной статистической обработки (например, частотным и алфавитно-частотным словарем).

Цель создания Брауновского корпуса – обеспечить системное изучение отдельных жанров письменного английского языка и сравнение жанров. Появление Брауновского корпуса вызвало всеобщий интерес и оживленные дискуссии (по поводу принципов отбора текстов и состава потенциально решаемых задач).

По принципам Брауновского корпуса был создан корпус текстов Ланкастер-Осло- Берген (по названиям британского и двух норвежских университетов), впервые опубликованных в Великобритании в 1961 г.: 15 жанров, 500 текстов по 2000 словоупотреблений, т.е. 1 млн. слов британского варианта английского языка.

Брауновский корпус задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках.

По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы (Швеция) Уппсальский корпус русского языка.

В 1980-е годы создаются корпусы большего размера.

Корпусы английского языка Британский Национальный Корпус (British National Corpus, BNC), Международный корпус английского языка (International Corpus of English – ICE), Корпус современного американского английского (Corpus of Contemporary American English – COCA) и др.

В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А.П. Ершова.

В настоящее время корпусы созданы для многих языков мира. Некоторые из них содержат миллиарды словоупотреблений.

Наименование корпусаКоличество словоупотреблений Национальный корпус русского языка более 360 млн. словоупотреблений Компьютерный корпус текстов русских газет конца ХХ века около 200 тыс. словоупотреблений Корпус русского языка ХАНКО (Хельсинский университет) тыс. словоупотреблений Уппсальский корпус русских текстов Доступен для поиска на сайте tuebingen.de/b1/en/korpora.html 1 млн. словоупотреблений Словарь-корпус языка А.С. Грибоедова тыс. словоупотреблений

Наименование корпусаКоличество словоупотреблений Банк английского языка (Bank of English) Свободный доступ: млн. словоупотреблений, 56 млн. в свободном доступе Венгерский национальный корпус млн. словоупотреблений Корпус испанского языка (исторический) млн. словоупотреблений, тексты 13–20 вв. Создан в Иллинойском университете, США Мангеймский корпус немецкого языка (Institut für Deutsche Sprache, Mannheim, Germany) млн. словоупотреблений

Наименование корпусаКоличество словоупотреблений Корпус латинских текстов «Персей» Корпус современного датского языка 50 млн. словоупотреблений Тексты 1998–2002 гг. Корпус современного итальянского языка CORIS/CODIS млн. словоупотреблений Корпус современного китайского языка (LIVAC Synchronous Corpus) млн. словоупотреблений (150 млн. иероглифов) Национальный корпус словенского языка более 100 млн. словоупотреблений Национальный корпус болгарского языка млн. словоупотреблений

противопоставление корпусов, относящихся ко всему языку, корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя и т.п.); разделение корпусов по типу лингвистической разметки.

ПризнакТипы корпусов Тип данныхПисьменные Устные Смешанные Язык текстовРусский Английский и т.д. «Параллельность»Одноязычные Двуязычные Многоязычные «Литературность», специфичность Литературные Фольклорные Публицистические Диалектные Разговорные Драматургические Терминологические Смешанные

ПризнакТипы корпусов ДоступностьСвободно доступные Коммерческие Закрытые НазначениеИсследовательские Иллюстративные РазметкаРазмеченные Неразмеченные Характер разметкиМорфологические Синтаксические Семантические и т.д. ДинамичностьДинамические Статические Объем текстовПолнотекстовые «Фрагментнотекстовые» Хронологический аспектСинхронические Диахронические