Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемdownload.yandex.ru
1 Лекция 11. Использование корпусов в прикладной лингвистике и в других областях В.П. Захаров Санкт-Петербургский государственный университет
2 Лекция 11Корпусная лингвистика2 Корпусы в прикладной лингвистике и в других областях Пользователи Прикладные лингвисты различного профиля. Лексикографы. Преподаватели: корпусы как база при обучении языкам. Компьютерные лингвисты: выявление статистических и других закономерностей для создания и отладки компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы, специалисты по рекламе). Специалисты по общественным наукам (историки, социологи и др.).
3 Лекция 11Корпусная лингвистика3 Что дают корпусы пользователям реальные контексты; реальные статистические данные (на больших объемах текстов); сочетаемость (коллокации); категоризацию языкового материала; проекции языка на различные подъязыки.
4 Лекция 11Корпусная лингвистика4 Корпусы как средство описания и применения языка Фонетика и фонология (корпуса устной речи); морфология; словообразование; словоизменение; лексикология; фразеология; парадигматика в широком смысле; синтагматика (коллокации, словосочетания); синтаксис; синтаксис связного текста; семантика; стилистика; прагматика.
5 Лекция 11Корпусная лингвистика5 Прикладные задачи Лексикография, подготовка словарей ; подготовка грамматик; подготовка учебной литературы; преподавание языков; самостоятельное изучение языков; справки по правописанию; языковая политика; сохранение языкового наследия; машинный перевод; информационный поиск; распознавание речи; распознавание текста; тестирование и отладка систем автоматизированной обработки текста (NLP).
6 Лекция 11Корпусная лингвистика6 Использование корпусов прикладными лингвистами Лексикография Исследования в области словарного запаса – самые частые в корпусной лингвистике. Можно сказать, что корпуса совершили революцию в лексикографии. По крайней мере, все современные словари английского языка создаются на базе корпусов. Корпусы позволяют получить данные по лексеме в целом (поиск по лемме) и по конкретной словоформе, выявить типичные/нетипичные употребления и харакетрные сочетания слов. Эти данные могут быть разными: контексты, частоты (абсолютные и относительные), частоты по коллокациям, статистика по жанрам/стилям/авторам, и т.д. Грамматика С помощью корпусов можно исследовать различные морфологические и синтаксические конструкции. Так, можно изучать словообразование, валентности глаголов, типы предложного управления, прямой и обратный порядок слов, синтаксические функции различных грамматических категорий, напр., функции инфинитива в предложении, функции союзов в начале и в середине предложения. Корпусы позволяют также получить сведения о правописании и пунктуации. И т.д.
7 Лекция 11Корпусная лингвистика7 Лексикография При составлении словарей корпусы помогают: выявить новые значения; удалить нерелевантные; более точно упорядочить отдельные значения внутри словарных статей.
8 Лекция 11Корпусная лингвистика8 Примеры Пример 1: KNOW Longman Dictionary of Contemporary English 1987: 20 значений Longman Dictionary of Contemporary English 1995: более 40 значений Пример 2: MATTER Longman Dictionary of Contemporary English 1987: 10 значений Longman Dictionary of Contemporary English 1995: 30 значений
9 Лекция 11Корпусная лингвистика9 Частотные словари Корпусы служат источником для составления общеязыковых частотных словарей и частотных списков отдельных жанров, стилей, подъязыков См. новый частотный словарь русского языка
10 Лекция 11Корпусная лингвистика10 Частотный словарь русского языка (Интернет-версия)
11 Лекция 11Корпусная лингвистика11 Статистические исследования в грамматике Можно сказать, ни одна из современных грамматик не создается без использования корпусов. В ряде случаев статистическая информация о частотах, полученная на основе корпусов непосредственно включается в текст грамматики.
12 Лекция 11Корпусная лингвистика12 Пример Mindt D. An Empirical Grammar of the English Verb System. Berlin, Present Perfect: в отличие от других учебников данная грамматика, базирующаяся на корпусе, показывает, что 2 из 4 грамматических значений этого времени (past-into-present, recent past) используются гораздо реже, чем принято считать.
13 Лекция 11Корпусная лингвистика13 Меры вычисления устойчивости в лексикографии Существуют различные меры учета силы синтагматических связей в тексте (mutual information, t- score, log-likelihood и др.). Но их достоверность требует больших объемов текстовых данные. Поэтому только появление корпусов дало возможность делать на их основе теоретические и практические выводы. В современной лексикографии на основе использования коллокаций наблюдается тенденция: заменять отдельные значения слов дефиниями словосочетаний с этими словами ( Ср. Cobuild Dictionary (2000): вместо особого значения для brink появился фразеологизм be on the brink ) иллюстрировать фразеологизмы примерами из корпуса увеличивать число устойчивых словосочетаний в словаре
14 Лекция 11Корпусная лингвистика14 Меры вычисления устойчивости: MI score
15 Лекция 11Корпусная лингвистика15 Меры вычисления устойчивости: T score
16 Лекция 11Корпусная лингвистика16 Меры вычисления устойчивости: LL score
17 Лекция 11Корпусная лингвистика17 Меры вычисления устойчивости в грамматике Меры учета силы синтагматических связей в тексте (mutual information, t-score, log-likelihood и др.) используются и при написании грамматик. Например, Longman Grammar of Written and Spoken English. London, 1999 показывает, что одни глаголы (bet, doubt, know, mean и др.) почти всегда используется в Present Tense, в то время как другие (eye, glance, grin, nod и др.), как правило, стоят в Past Tense. Эти данные невозможно было бы получить без корпусов.
18 Лекция 11Корпусная лингвистика18 Словари и грамматики подъязыков Корпуса позволяют на основе статданных учесть различия в лексике и грамматике применительно к подъязыкам (жанры, стили, языки писателей, специальные языки). Так, например, корпусные исследования показали, что: в современном английском языке в разговорной речи чаще встречается время present, в то время в художественных текстах чаще встречается время past (Longman Grammar of Written and Spoken English. London, 1999). в разговорной речи пассивный залог глагола TO BE встречается реже, чем в художественной прозе, в то время как для глагола TO GET наблюдается обратная картина в художественных текстах чаще встречается время past (Mindt D. An Empirical Grammar of the English Verb System. Berlin, 2000). То же – см. сравнение употребления существительных галоша и калоша в русском языке (слайд 25 из лекции 10)
19 Лекция 11Корпусная лингвистика19 Социология, культура, литературоведение В настоящее время растет интерес к изучению идеологии и культуры через язык. Корпуса оказываются здесь назаменимым средством. То же самое относится к новому направлению в прикладной лингвистике, к юридической лингвистике. Корпусные данные широко используются при разработке систем контент-анализа, для определения авторства, в стилистических исследованиях.
20 Лекция 11Корпусная лингвистика20 Использование корпусов для настройки и самообучения лингвистических автоматов В системах автоматической обработки текстов, как правило, используются два подхода к анализу текста: на основе лингвистических (контекстных и/или синтаксических) правил или на основе стохастических (статистических) алгоритмов. В обоих случаях создание качественного лингвистического и математического обеспечения для этих систем невозможно без использования корпусов, которые используются и как источник данных, и как настроечные тренировочные массивы.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.