Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемМарфа Лутошкина
1 Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет
2 Лекция 10Корпусная лингвистика2 Пользователи корпусов Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры (контексты) употребления тех или иных языковых элементов и конструкций. Лингвисты-теоретики: корпусы как экспериментальная база для проверки гипотез и доказательства теорий. Прикладные лингвисты различного профиля. Лексикографы. Преподаватели: корпусы как база при обучении языкам. Компьютерные лингвисты: выявление статистических и других закономерностей для создания и отладки компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы, специалисты по рекламе). Специалисты по общественным наукам (историки, социологи и др.).
3 Лекция 10Корпусная лингвистика3 Корпусы дают реальные контексты; реальные статистические данные (на больших объемах текстов); сочетаемость (коллокации); категоризацию языкового материала; проекции языка на различные подъязыки.
4 Лекция 10Корпусная лингвистика4 Корпусы как средство изучения языка и развития лингвистической теории Фонетика и фонология (корпуса устной речи); морфология; словообразование; словоизменение; лексикология; фразеология; парадигматика в широком смысле; синтагматика (коллокации, словосочетания); синтаксис; синтаксис связного текста; семантика; стилистика; прагматика.
5 Лекция 10Корпусная лингвистика5 Прикладные задачи Лексикография; подготовка учебной литературы; преподавание языков; самостоятельное изучение языков; справки по правописанию; языковая политика; сохранение языкового наследия; машинный перевод; информационный поиск; распознавание речи; распознавание текста; тестирование и отладка систем автоматизированной обработки текста (NLP).
6 Лекция 10Корпусная лингвистика6 Примеры решения лингвистических задач на базе корпусов (1) Морфология и словоизменение С помощью размеченного корпуса можно выяснить, в какой функции чаще всего выступают слова, относящиеся к разным частям речи: наречие- предикатив (жарко), наречие-предлог (вокруг), существительное-предлог (в связи) и т.д. Можно выяснить, с какими падежами чаще всего используется тот или иной предлог.. Можно сравнить частотность лексических или грамматических вариантов (галоша – калоша, сахара – сахару). Можно выявить нетипичные грамматические явления, конструкции (напр., предлог+существительное в именительном падеже: отдать в солдаты). Корпуса позволяют получить данные о конкретных формах слова и о целых грамматических категориях. И т д. Словообразование В корпусах, где можно использовать оператор "усечение" легко подобрать примеры и собрать статистические данные о словах с заданными приставками, суффиксами, корнями. Напр., какова продуктивность (с одними и теми же корнями) суффиксов -истский и -истический, -истский и -альный? Каково значение суффикса -тель, кроме значения 'деятель'?
7 Лекция 10Корпусная лингвистика7 Примеры решения лингвистических задач на базе корпусов (2) Лексикология Лексикология – раздел языкознания, изучающий лексику языка и слово как единицу лексики. Изучает значения слов, многозначность, омонимию, синонимию, антонимию и другие отношения между значениями слов, а также изменения в словарном составе языка, отражение в языке социальных, территориальных, профессиональных характеристик. Для всего этого корпуса дают разнообразный материал (контексты, частоты, экстралингвистические характеристики). Синтаксис С помощью корпусов можно исследовать различные синтаксические явления и конструкции. Так можно изучать валентности глаголов, типы предложного управления, прямой и обратный порядок слов, синтаксические функции различных грамматических категорий (напр., функции инфинитива в предложении, функции союзов в начале и в середине предложения). Корпуса позволяют получить данные об использовании и функциях различных знаков препинания. И т.д. Семантика Различные типы семантической разметки. Разметка в НКРЯ. Пражский синтаксический корпус с тектограмматический разметкой. PropBank. Лексические семантические ресурсы. WordNet. FrameNet.
8 Лекция 10Корпусная лингвистика8 Меры вычисления устойчивости (collocation) Существуют различные меры учета силы синтагматических связей в тексте (mutual information, t- score, log-likelihood и др.). Но их достоверность требует больших объемов текстовых данные. Поэтому только появление корпусов дало возможность делать на их основе теоретические заключения.
9 Лекция 10Корпусная лингвистика9 Меры вычисления устойчивости: MI score
10 Лекция 10Корпусная лингвистика10 Меры вычисления устойчивости: T score
11 Лекция 10Корпусная лингвистика11 Меры вычисления устойчивости: LL score
12 Лекция 10Корпусная лингвистика12 Примеры решения лингвистических задач на базе корпусов С помощью размеченного корпуса можно выяснить, в какой функции чаще всего выступают слова, относящиеся к разным частям речи: наречие-предикатив (жарко), наречие-предлог (вокруг), существительное-предлог (в связи) и т.д. Можно выяснить, с какими падежами чаще всего используется тот или иной предлог.. Можно сравнить частотность лексических или грамматических вариантов (галоша – калоша, сахара – сахару). Можно выявить нетипичные грамматические явления, конструкции (напр., предлог+существительное в именительном падеже: отдать в солдаты). Корпуса позволяют получить данные о конкретных формах слова и о целых грамматических категориях. И т д.
13 Лекция 10Корпусная лингвистика13 НКРЯ: Поиск существительных мужского рода неодушевленных с суффиксом -тель
14 Лекция 10Корпусная лингвистика14 НКРЯ: Поиск существительных мужского рода одушевленных с суффиксом -тель
15 Лекция 10Корпусная лингвистика15 АОТ: Поиск существительных мужского рода одушевленных с суффиксом -тель
16 Лекция 10Корпусная лингвистика16 АОТ: Поиск существительных мужского рода неодушевленных с суффиксом -тель
17 Лекция 10Корпусная лингвистика17 НКРЯ: поиск наречия «бегом»
18 Лекция 10Корпусная лингвистика18 НКРЯ: поиск существительного «бег»
19 Лекция 10Корпусная лингвистика19 НКРЯ: «браузер» vs. «броузер» (1)
20 Лекция 10Корпусная лингвистика20 НКРЯ: «браузер» vs. «броузер» (2)
21 Лекция 10Корпусная лингвистика21 НКРЯ: «галоши» vs. «калоши» (1)
22 Лекция 10Корпусная лингвистика22 НКРЯ: «галоши» vs. «калоши» (2)
23 Лекция 10Корпусная лингвистика23 АОТ: «галоши» vs. «калоши» (1)
24 Лекция 10Корпусная лингвистика24 АОТ: «галоши» vs. «калоши» (2)
25 Лекция 10Корпусная лингвистика25 Корпусные данные, полученные на разных подъязыках галошикалоши НКРЯ 4 0 АОТ НКРЯ: художественные тексты - 41,5%; АОТ (библиотека Мошкова): художественные тексты – по оценкам, не менее 85%
26 Лекция 10Корпусная лингвистика26 НКРЯ: «кремль» vs. «Кремль» (1)
27 Лекция 10Корпусная лингвистика27 НКРЯ: «кремль» vs. «Кремль» (2)
28 Лекция 10Корпусная лингвистика28 АОТ: «кремль» vs. «Кремль» (1)
29 Лекция 10Корпусная лингвистика29 АОТ: «кремль» vs. «Кремль» (2)
30 Лекция 10Корпусная лингвистика30 НКРЯ: «офсайд» vs. «оффсайд» (1)
31 Лекция 10Корпусная лингвистика31 НКРЯ: «офсайд» vs. «оффсайд» (2)
32 Лекция 10Корпусная лингвистика32 АОТ: «офсайд» vs. «оффсайд» (1)
33 Лекция 10Корпусная лингвистика33 АОТ: «офсайд» vs. «оффсайд» (2)
34 Лекция 10Корпусная лингвистика34 Яндекс: «офсайд» vs. «оффсайд» (1)
35 Лекция 10Корпусная лингвистика35 Яндекс: «офсайд» vs. «оффсайд» (2)
36 Лекция 10Корпусная лингвистика36 Как пользоваться корпусом
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.