Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемМарина Мызникова
1 1 Предмет корпусной лингвистики. Сопоставление корпусной и традиционной лингвистики 2 История создания лингвистических корпусов 3 Типология корпусов
2 Баранов А.Н. Корпусная лингвистика // Баранов А.Н. Введение в прикладную лингвистику. М., С. 112–137. Захаров В.П. Корпусная лингвистика: Учебно-метод. пособие. – СПб., – 48 с. Захаров В.П. Корпусная лингвистика: учебник для студентов гуманитарных вузов / В.П. Захаров, С.Ю. Богданова. – Иркутск, – 161 с. Зубов А.В. Информационные технологии в лингвистике: учеб. пособие /А.В. Зубов, И.И. Зубова.– М., – 208 с.
4 Корпусная лингвистика раздел лингвистики (компьютерной лингвистики), занимающийся разработкой общих принципов построения и использования лингвистических корпусов (корпусов текстов) с применением компьютерных технологий. Корпусная лингвистика сформировалась как отдельный раздел науки о языке в первой половине 90-х гг. XX в.
5 собранных в соответствии с определенными принципами, представленных в электронном виде, унифицированных, размеченных по определенному стандарту, обеспеченных специализированной поисковой системой.
6 представлением данных в реальном контексте; достаточно большой представительностью данных (при большом объёме корпуса); возможностью многократного использования единожды созданного корпуса для решения различных задач.
7 Объект корпусной лингвистики – корпус текстов, который, с одной стороны, представляет собой исходный речевой материал для корпусной лингвистики и для других лингвистических дисциплин; с другой стороны, является результатом деятельности корпусной лингвистики.
8 Двойственный характер объекта обусловливает двойственный характер корпусной лингвистики нацеленность как на создание, так и на использование корпусов текстов.
9 Предмет корпусной лингвистики теоретические основы и практические механизмы создания и использования представительных массивов языковых данных, предназначенных для лингвистических исследований в интересах широкого круга пользователей.
10 В понятие корпус текстов входит также корпусный менеджер (корпус-менеджер) специализированная поисковая система, включающая программные средства для поиска данных в корпусе, получения статистической информации и предоставления результатов пользователю в удобной форме.
11 Поиск в корпусе позволяет построить конкорданс список всех фиксаций искомой языковой единицы в контекстах со ссылками на источник.
12 КОРПУСНАЯ ЛИНГВИСТИКА ТРАДИЦИОННАЯ ЛИНГВИСТИКА Основное внимание – изучению речи В исследованиях опора на данные корпуса текста Предпочтение квантитативным методам Текст рассматривается как некоторая физическая сущность Основное внимание – изучению языка В исследованиях путь от теории к её объяснению и подтверждению в фактах речи Предпочтение квалитативным методы Текст рассматривается как некоторая абстракция
14 Первые лингвистические корпусы текстов появились в 60-е гг. ХХ в.
15 Первый корпус текстов – Брауновский корпус (The Brown Corpus) создан в 1963 г. в Брауновском университете (США). Создатели корпуса У. Френсис и Г. Кучера.
16 Брауновский корпус включает 500 текстов из американских книг, газет, журналов, впервые опубликованных в США в 1961 г. Каждый текст имеет длину 2000 словоупотреблений, и все собрание включает 1 млн. слов.
17 Тексты в Брауновском корпусе принадлежат 15-ти наиболее массовым жанрам англоязычной печатной прозы США. Корпус сопровождается большим количеством материалов первичной статистической обработки (например, частотным и алфавитно-частотным словарем).
18 Цель создания Брауновского корпуса – обеспечить системное изучение отдельных жанров письменного английского языка и сравнение жанров. Появление Брауновского корпуса вызвало всеобщий интерес и оживленные дискуссии (по поводу принципов отбора текстов и состава потенциально решаемых задач).
20 По принципам Брауновского корпуса был создан корпус текстов Ланкастер-Осло- Берген (по названиям британского и двух норвежских университетов), впервые опубликованных в Великобритании в 1961 г.: 15 жанров, 500 текстов по 2000 словоупотреблений, т.е. 1 млн. слов британского варианта английского языка.
21 Брауновский корпус задал стандарт в 1 млн словоупотреблений для создания представительных корпусов на других языках.
22 По аналогичной модели был построен и русский корпус, созданный в 1980-е годы в Университете Уппсалы (Швеция) Уппсальский корпус русского языка.
23 В 1980-е годы создаются корпусы большего размера.
24 Корпусы английского языка Британский Национальный Корпус (British National Corpus, BNC), Международный корпус английского языка (International Corpus of English – ICE), Корпус современного американского английского (Corpus of Contemporary American English – COCA) и др.
26 В СССР таким проектом был Машинный Фонд русского языка, создававшийся по инициативе А.П. Ершова.
29 В настоящее время корпусы созданы для многих языков мира. Некоторые из них содержат миллиарды словоупотреблений.
30 Наименование корпусаКоличество словоупотреблений Национальный корпус русского языка более 360 млн. словоупотреблений Компьютерный корпус текстов русских газет конца ХХ века около 200 тыс. словоупотреблений Корпус русского языка ХАНКО (Хельсинский университет) тыс. словоупотреблений Уппсальский корпус русских текстов Доступен для поиска на сайте tuebingen.de/b1/en/korpora.html 1 млн. словоупотреблений Словарь-корпус языка А.С. Грибоедова тыс. словоупотреблений
31 Наименование корпусаКоличество словоупотреблений Банк английского языка (Bank of English) Свободный доступ: млн. словоупотреблений, 56 млн. в свободном доступе Венгерский национальный корпус млн. словоупотреблений Корпус испанского языка (исторический) млн. словоупотреблений, тексты 13–20 вв. Создан в Иллинойском университете, США Мангеймский корпус немецкого языка (Institut für Deutsche Sprache, Mannheim, Germany) млн. словоупотреблений
32 Наименование корпусаКоличество словоупотреблений Корпус латинских текстов «Персей» Корпус современного датского языка 50 млн. словоупотреблений Тексты 1998–2002 гг. Корпус современного итальянского языка CORIS/CODIS млн. словоупотреблений Корпус современного китайского языка (LIVAC Synchronous Corpus) млн. словоупотреблений (150 млн. иероглифов) Национальный корпус словенского языка более 100 млн. словоупотреблений Национальный корпус болгарского языка млн. словоупотреблений
38 противопоставление корпусов, относящихся ко всему языку, корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя и т.п.); разделение корпусов по типу лингвистической разметки.
39 ПризнакТипы корпусов Тип данныхПисьменные Устные Смешанные Язык текстовРусский Английский и т.д. «Параллельность»Одноязычные Двуязычные Многоязычные «Литературность», специфичность Литературные Фольклорные Публицистические Диалектные Разговорные Драматургические Терминологические Смешанные
40 ПризнакТипы корпусов ДоступностьСвободно доступные Коммерческие Закрытые НазначениеИсследовательские Иллюстративные РазметкаРазмеченные Неразмеченные Характер разметкиМорфологические Синтаксические Семантические и т.д. ДинамичностьДинамические Статические Объем текстовПолнотекстовые «Фрагментнотекстовые» Хронологический аспектСинхронические Диахронические
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.