Лекция 2. Технология создания корпусов В.П. Захаров Санкт-Петербургский государственный университет
Лекция 2Корпусная лингвистика2 Циклы создания корпуса A. A. Проектирование. B. B. Создание. C. C. Эксплуатация: 1) использование по назначению; 2) сопровождение.
Лекция 2Корпусная лингвистика3 Технологический процесс создания корпуса Проектирование корпуса. Определение перечня источников Оцифровка текстов: способы получения текстов в электронном виде; проблема авторского права Анализ и предварительная обработка текстов Подготовка "технологического" описания Подготовка библиографического и экстралингвистического описания Конвертирование (если требуется).
Лекция 2Корпусная лингвистика4 Технологический процесс создания корпуса (продолжение) Удаление или преобразование нетекстовых элементов Экстралингвистическая разметка текста Графематический анализ Собственно лингвистическая разметка. Автоматизация лингвистической разметки Корректировка результатов автоматической разметки: исправление ошибок и снятие неоднозначности.
Лекция 2Корпусная лингвистика5 Технологический процесс создания корпуса (продолжение) Конвертирование размеченных текстов в структуру специализированной лингвистической информационно- поисковой системы (corpus manager), обеспечивающей быстрый многоаспектный поиск и статистическую обработку Хранение промежуточных данных Обеспечение доступа к корпусу Документационное обеспечение.
Лекция 2Корпусная лингвистика6 Документационное обеспечение См.
Лекция 2Корпусная лингвистика7 Developing Linguistic Corpora: a Guide to Good Practice / Edited by Martin Wynne Preface Martin Wynne (AHDS Literature, Languages and Linguistics, University of Oxford, UK) Preface Chapter 1 Corpus and Text: Basic Principles John Sinclair (Tuscan Word Centre) Chapter 1 Chapter 2 Adding Linguistic Annotation Geoffrey Leech (Lancaster University) Chapter 2 Chapter 3 Metadata for Corpus Work Lou Burnard (University of Oxford) Chapter 3 Chapter 4 Character Encoding in Corpus Construction Anthony McEnery and Richard Xiao (Lancaster University) Chapter 4 Chapter 5 Spoken Language Corpora Paul Thompson (University of Reading) Chapter 5 Chapter 6 Archiving, Distribution and Preservation Martin Wynne (University of Oxford) Chapter 6 Appendix to chapter one: How to make a corpus John Sinclair (Tuscan Word Centre) Appendix to chapter one: How to make a corpus Bibliography