Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемdownload.yandex.ru
1 Лекция 9. Обзор корпусов. В.П. Захаров Санкт-Петербургский государственный университет
2 Лекция 9Корпусная лингвистика2 Классификация корпусов (1) Два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки. Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (treebanks, «банки синтаксических структур»).
3 Лекция 9Корпусная лингвистика3 Классификация корпусов (2) Для анализа и сравнения корпусов необходим набор признаков-характеристик. В частности: Тип данных Язык текстов «Параллельность» «Литературность» Специфичность Жанр Доступность Назначение Динамичность Разметка Характер разметки Объем текстов Хронологический аспект «Общность» Структура
4 Лекция 9Корпусная лингвистика4 Корпусы в Интернет (1) Национальный корпус русского языка 70 млн слов Компьютерный корпус текстов русских газет конца ХХ-го века тыс. слов Корпус русского языка ХАНКО (Хельсинский университет) тыс. слов Ручная морфологическ ая разметка Корпуса русских текстов на сайте Университета в Лидсе, Великобритания Русские корпуса Тюбингенского Университета tuebingen.de/b1/en/korpora.html Словарь-корпус языка А.С. Грибоедова тыс. слов
5 Лекция 9Корпусная лингвистика5 Корпусы в Интернет (2) Уппсальский корпус русских текстов Доступен для поиска на сайте tuebingen.de/b1/en/korpora.html 1 млн слов 600 текстов (публицистика ; литературные произведения ) Банк английского языка (Bank of English) px?group=153 Свободный доступ: CorpusSearch.aspx 524 млн слов, 56 млн в свободном доступе (The Collins Wordbanks Online English corpus: 36 млн – брит. англ., 10 млн – амер. англ., 10 млн – брит. разговорн. англ.) Британский национальный корпус или млн слов Корпусные менеджеры SARA и XAIRA ( Венгерский национальный корпус млн слов
6 Лекция 9Корпусная лингвистика6 Корпусы в Интернет (3) Корпус испанского языка (исторический) млн слов, тексты 13–20 вв. Создан в Иллинойском университете, США Корпус современного датского языка 50 млн слов Тексты 1998–2002 гг. Корпус современного итальянского языка CORIS/CODIS млн слов Корпус современного китайского языка (LIVAC Synchronous Corpus) млн слов (150 млн иероглифов) Мангеймский корпус немецкого языка (Institut für Deutsche Sprache, Mannheim, Germany) mannheim.de/~cosmas/ 1610 млн слов Корпусный менеджер COSMAS Национальный корпус словенского языка Более 100 млн слов
7 Лекция 9Корпусная лингвистика7 Корпусы в Интернет (4) Польский национальный корпус 93 млн слов Словацкий национальный корпус млн слов Используется корпусный менеджер Manatee/Bonito Хорватский национальный корпус 53 млн слов Корпусный менеджер Manatee/Bonito Чешский национальный корпус млн слов млн нового корпуса современной лексики Корпусный менеджер Manatee/Bonito Эстонский корпус pus/1980/index.html.en
8 Лекция 9Корпусная лингвистика8 Корпусы в Интернет (5)
9 Лекция 9Корпусная лингвистика9 Национальный корпус русского языка (ruscorpora.ru) предыстория Проекта; текущие задачи Проекта; состав рабочих групп; источники текстов; поисковая система; дизайн и поддержка сайта
10 Лекция 9Корпусная лингвистика10 Национальный корпус русского языка (2)
11 Лекция 9Корпусная лингвистика11 Поиск в НКРЯ (1) Поле «Слово» Поле «Грамматические признаки» Поле «Семантические признаки» Расстояние между словами
12 Лекция 9Корпусная лингвистика12 Поиск в НКРЯ (2)
13 Лекция 9Корпусная лингвистика13 Британский национальный корпус (BNC)
14 Лекция 9Корпусная лингвистика14 The LIVAC (Linguistic Variations in Chinese Speech Communities) synchronous corpus
15 Лекция 9Корпусная лингвистика15 Корпус польского языка (1)
16 Лекция 9Корпусная лингвистика16 Корпус польского языка (2)
17 Лекция 9Корпусная лингвистика17 Словацкий национальный корпус (SNK)
18 Лекция 9Корпусная лингвистика18 Чешский национальный корпус (ČNK)
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.