Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет
Лекция 10Корпусная лингвистика2 Пользователи корпусов Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры (контексты) употребления тех или иных языковых элементов и конструкций. Лингвисты-теоретики: корпусы как экспериментальная база для проверки гипотез и доказательства теорий. Прикладные лингвисты различного профиля. Лексикографы. Преподаватели: корпусы как база при обучении языкам. Компьютерные лингвисты: выявление статистических и других закономерностей для создания и отладки компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы, специалисты по рекламе). Специалисты по общественным наукам (историки, социологи и др.).
Лекция 10Корпусная лингвистика3 Корпусы дают реальные контексты; реальные статистические данные (на больших объемах текстов); сочетаемость (коллокации); категоризацию языкового материала; проекции языка на различные подъязыки.
Лекция 10Корпусная лингвистика4 Корпусы как средство изучения языка и развития лингвистической теории Фонетика и фонология (корпуса устной речи); морфология; словообразование; словоизменение; лексикология; фразеология; парадигматика в широком смысле; синтагматика (коллокации, словосочетания); синтаксис; синтаксис связного текста; семантика; стилистика; прагматика.
Лекция 10Корпусная лингвистика5 Прикладные задачи Лексикография; подготовка учебной литературы; преподавание языков; самостоятельное изучение языков; справки по правописанию; языковая политика; сохранение языкового наследия; машинный перевод; информационный поиск; распознавание речи; распознавание текста; тестирование и отладка систем автоматизированной обработки текста (NLP).
Лекция 10Корпусная лингвистика6 Примеры решения лингвистических задач на базе корпусов (1) Морфология и словоизменение С помощью размеченного корпуса можно выяснить, в какой функции чаще всего выступают слова, относящиеся к разным частям речи: наречие- предикатив (жарко), наречие-предлог (вокруг), существительное-предлог (в связи) и т.д. Можно выяснить, с какими падежами чаще всего используется тот или иной предлог.. Можно сравнить частотность лексических или грамматических вариантов (галоша – калоша, сахара – сахару). Можно выявить нетипичные грамматические явления, конструкции (напр., предлог+существительное в именительном падеже: отдать в солдаты). Корпуса позволяют получить данные о конкретных формах слова и о целых грамматических категориях. И т д. Словообразование В корпусах, где можно использовать оператор "усечение" легко подобрать примеры и собрать статистические данные о словах с заданными приставками, суффиксами, корнями. Напр., какова продуктивность (с одними и теми же корнями) суффиксов -истский и -истический, -истский и -альный? Каково значение суффикса -тель, кроме значения 'деятель'?
Лекция 10Корпусная лингвистика7 Примеры решения лингвистических задач на базе корпусов (2) Лексикология Лексикология – раздел языкознания, изучающий лексику языка и слово как единицу лексики. Изучает значения слов, многозначность, омонимию, синонимию, антонимию и другие отношения между значениями слов, а также изменения в словарном составе языка, отражение в языке социальных, территориальных, профессиональных характеристик. Для всего этого корпуса дают разнообразный материал (контексты, частоты, экстралингвистические характеристики). Синтаксис С помощью корпусов можно исследовать различные синтаксические явления и конструкции. Так можно изучать валентности глаголов, типы предложного управления, прямой и обратный порядок слов, синтаксические функции различных грамматических категорий (напр., функции инфинитива в предложении, функции союзов в начале и в середине предложения). Корпуса позволяют получить данные об использовании и функциях различных знаков препинания. И т.д. Семантика Различные типы семантической разметки. Разметка в НКРЯ. Пражский синтаксический корпус с тектограмматический разметкой. PropBank. Лексические семантические ресурсы. WordNet. FrameNet.
Лекция 10Корпусная лингвистика8 Меры вычисления устойчивости (collocation) Существуют различные меры учета силы синтагматических связей в тексте (mutual information, t- score, log-likelihood и др.). Но их достоверность требует больших объемов текстовых данные. Поэтому только появление корпусов дало возможность делать на их основе теоретические заключения.
Лекция 10Корпусная лингвистика9 Меры вычисления устойчивости: MI score
Лекция 10Корпусная лингвистика10 Меры вычисления устойчивости: T score
Лекция 10Корпусная лингвистика11 Меры вычисления устойчивости: LL score
Лекция 10Корпусная лингвистика12 Примеры решения лингвистических задач на базе корпусов С помощью размеченного корпуса можно выяснить, в какой функции чаще всего выступают слова, относящиеся к разным частям речи: наречие-предикатив (жарко), наречие-предлог (вокруг), существительное-предлог (в связи) и т.д. Можно выяснить, с какими падежами чаще всего используется тот или иной предлог.. Можно сравнить частотность лексических или грамматических вариантов (галоша – калоша, сахара – сахару). Можно выявить нетипичные грамматические явления, конструкции (напр., предлог+существительное в именительном падеже: отдать в солдаты). Корпуса позволяют получить данные о конкретных формах слова и о целых грамматических категориях. И т д.
Лекция 10Корпусная лингвистика13 НКРЯ: Поиск существительных мужского рода неодушевленных с суффиксом -тель
Лекция 10Корпусная лингвистика14 НКРЯ: Поиск существительных мужского рода одушевленных с суффиксом -тель
Лекция 10Корпусная лингвистика15 АОТ: Поиск существительных мужского рода одушевленных с суффиксом -тель
Лекция 10Корпусная лингвистика16 АОТ: Поиск существительных мужского рода неодушевленных с суффиксом -тель
Лекция 10Корпусная лингвистика17 НКРЯ: поиск наречия «бегом»
Лекция 10Корпусная лингвистика18 НКРЯ: поиск существительного «бег»
Лекция 10Корпусная лингвистика19 НКРЯ: «браузер» vs. «броузер» (1)
Лекция 10Корпусная лингвистика20 НКРЯ: «браузер» vs. «броузер» (2)
Лекция 10Корпусная лингвистика21 НКРЯ: «галоши» vs. «калоши» (1)
Лекция 10Корпусная лингвистика22 НКРЯ: «галоши» vs. «калоши» (2)
Лекция 10Корпусная лингвистика23 АОТ: «галоши» vs. «калоши» (1)
Лекция 10Корпусная лингвистика24 АОТ: «галоши» vs. «калоши» (2)
Лекция 10Корпусная лингвистика25 Корпусные данные, полученные на разных подъязыках галошикалоши НКРЯ 4 0 АОТ НКРЯ: художественные тексты - 41,5%; АОТ (библиотека Мошкова): художественные тексты – по оценкам, не менее 85%
Лекция 10Корпусная лингвистика26 НКРЯ: «кремль» vs. «Кремль» (1)
Лекция 10Корпусная лингвистика27 НКРЯ: «кремль» vs. «Кремль» (2)
Лекция 10Корпусная лингвистика28 АОТ: «кремль» vs. «Кремль» (1)
Лекция 10Корпусная лингвистика29 АОТ: «кремль» vs. «Кремль» (2)
Лекция 10Корпусная лингвистика30 НКРЯ: «офсайд» vs. «оффсайд» (1)
Лекция 10Корпусная лингвистика31 НКРЯ: «офсайд» vs. «оффсайд» (2)
Лекция 10Корпусная лингвистика32 АОТ: «офсайд» vs. «оффсайд» (1)
Лекция 10Корпусная лингвистика33 АОТ: «офсайд» vs. «оффсайд» (2)
Лекция 10Корпусная лингвистика34 Яндекс: «офсайд» vs. «оффсайд» (1)
Лекция 10Корпусная лингвистика35 Яндекс: «офсайд» vs. «оффсайд» (2)
Лекция 10Корпусная лингвистика36 Как пользоваться корпусом