Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет.

Презентация:



Advertisements
Похожие презентации
Лекция 11. Использование корпусов в прикладной лингвистике и в других областях В.П. Захаров Санкт-Петербургский государственный университет.
Advertisements


ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Типовые расчёты Растворы
Школьная форма Презентация для родительского собрания.
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Урок повторения по теме: «Сила». Задание 1 Задание 2.
Маршрутный лист «Числа до 100» ? ? ?
Тренировочное тестирование-2008 Ответы к заданиям КИМ Часть I.
Michael Jackson
Лингвистика или языкознание – наука о языке (от греч. «лингва» язык)
1 Карагандинский государственный технический университет Лекция 4-1. Особенности задач оптимизации. «Разработка средств механизации для устройства «Разработка.
Разработал: Учитель химии, биологии высшей квалификационной категории Баженов Алексей Анатольевич.
Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Введение в языкознание Л.А. Козловская. Лекция 1. Предмет, структура и задачи языкознания Место языкознания в системе наук. Внутренняя и внешняя лингвистика.
О СИТУАЦИИ НА РЫНКЕ ТРУДА И РЕАЛИЗАЦИИ РЕГИОНАЛЬНЫХ ПРОГРАММ ПО СНИЖЕНИЮ НАПРЯЖЕННОСТИ НА РЫНКЕ ТРУДА СУБЪЕКТОВ СЕВЕРО-КАВКАЗСКОГО ФЕДЕРАЛЬНОГО ОКРУГА.
Распределение заданий по частям экзаменационной работы Количество заданийМаксимальный первичный балл Часть 1 (изложение) 37 Часть 2 (тестовые задания)
Ф. Т. Алескеров, Л. Г. Егорова НИУ ВШЭ VI Московская международная конференция по исследованию операций (ORM2010) Москва, октября 2010 Так ли уж.
Результаты пробного ЕГЭ по русскому языку, проведённого Таганрогским государственным педагогическим институтом г.
Транксрипт:

Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет

Лекция 10Корпусная лингвистика2 Пользователи корпусов Пользователей корпусов, как правило, интересует не содержание конкретных текстов, а их метатекстовая информация и примеры (контексты) употребления тех или иных языковых элементов и конструкций. Лингвисты-теоретики: корпусы как экспериментальная база для проверки гипотез и доказательства теорий. Прикладные лингвисты различного профиля. Лексикографы. Преподаватели: корпусы как база при обучении языкам. Компьютерные лингвисты: выявление статистических и других закономерностей для создания и отладки компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы, специалисты по рекламе). Специалисты по общественным наукам (историки, социологи и др.).

Лекция 10Корпусная лингвистика3 Корпусы дают реальные контексты; реальные статистические данные (на больших объемах текстов); сочетаемость (коллокации); категоризацию языкового материала; проекции языка на различные подъязыки.

Лекция 10Корпусная лингвистика4 Корпусы как средство изучения языка и развития лингвистической теории Фонетика и фонология (корпуса устной речи); морфология; словообразование; словоизменение; лексикология; фразеология; парадигматика в широком смысле; синтагматика (коллокации, словосочетания); синтаксис; синтаксис связного текста; семантика; стилистика; прагматика.

Лекция 10Корпусная лингвистика5 Прикладные задачи Лексикография; подготовка учебной литературы; преподавание языков; самостоятельное изучение языков; справки по правописанию; языковая политика; сохранение языкового наследия; машинный перевод; информационный поиск; распознавание речи; распознавание текста; тестирование и отладка систем автоматизированной обработки текста (NLP).

Лекция 10Корпусная лингвистика6 Примеры решения лингвистических задач на базе корпусов (1) Морфология и словоизменение С помощью размеченного корпуса можно выяснить, в какой функции чаще всего выступают слова, относящиеся к разным частям речи: наречие- предикатив (жарко), наречие-предлог (вокруг), существительное-предлог (в связи) и т.д. Можно выяснить, с какими падежами чаще всего используется тот или иной предлог.. Можно сравнить частотность лексических или грамматических вариантов (галоша – калоша, сахара – сахару). Можно выявить нетипичные грамматические явления, конструкции (напр., предлог+существительное в именительном падеже: отдать в солдаты). Корпуса позволяют получить данные о конкретных формах слова и о целых грамматических категориях. И т д. Словообразование В корпусах, где можно использовать оператор "усечение" легко подобрать примеры и собрать статистические данные о словах с заданными приставками, суффиксами, корнями. Напр., какова продуктивность (с одними и теми же корнями) суффиксов -истский и -истический, -истский и -альный? Каково значение суффикса -тель, кроме значения 'деятель'?

Лекция 10Корпусная лингвистика7 Примеры решения лингвистических задач на базе корпусов (2) Лексикология Лексикология – раздел языкознания, изучающий лексику языка и слово как единицу лексики. Изучает значения слов, многозначность, омонимию, синонимию, антонимию и другие отношения между значениями слов, а также изменения в словарном составе языка, отражение в языке социальных, территориальных, профессиональных характеристик. Для всего этого корпуса дают разнообразный материал (контексты, частоты, экстралингвистические характеристики). Синтаксис С помощью корпусов можно исследовать различные синтаксические явления и конструкции. Так можно изучать валентности глаголов, типы предложного управления, прямой и обратный порядок слов, синтаксические функции различных грамматических категорий (напр., функции инфинитива в предложении, функции союзов в начале и в середине предложения). Корпуса позволяют получить данные об использовании и функциях различных знаков препинания. И т.д. Семантика Различные типы семантической разметки. Разметка в НКРЯ. Пражский синтаксический корпус с тектограмматический разметкой. PropBank. Лексические семантические ресурсы. WordNet. FrameNet.

Лекция 10Корпусная лингвистика8 Меры вычисления устойчивости (collocation) Существуют различные меры учета силы синтагматических связей в тексте (mutual information, t- score, log-likelihood и др.). Но их достоверность требует больших объемов текстовых данные. Поэтому только появление корпусов дало возможность делать на их основе теоретические заключения.

Лекция 10Корпусная лингвистика9 Меры вычисления устойчивости: MI score

Лекция 10Корпусная лингвистика10 Меры вычисления устойчивости: T score

Лекция 10Корпусная лингвистика11 Меры вычисления устойчивости: LL score

Лекция 10Корпусная лингвистика12 Примеры решения лингвистических задач на базе корпусов С помощью размеченного корпуса можно выяснить, в какой функции чаще всего выступают слова, относящиеся к разным частям речи: наречие-предикатив (жарко), наречие-предлог (вокруг), существительное-предлог (в связи) и т.д. Можно выяснить, с какими падежами чаще всего используется тот или иной предлог.. Можно сравнить частотность лексических или грамматических вариантов (галоша – калоша, сахара – сахару). Можно выявить нетипичные грамматические явления, конструкции (напр., предлог+существительное в именительном падеже: отдать в солдаты). Корпуса позволяют получить данные о конкретных формах слова и о целых грамматических категориях. И т д.

Лекция 10Корпусная лингвистика13 НКРЯ: Поиск существительных мужского рода неодушевленных с суффиксом -тель

Лекция 10Корпусная лингвистика14 НКРЯ: Поиск существительных мужского рода одушевленных с суффиксом -тель

Лекция 10Корпусная лингвистика15 АОТ: Поиск существительных мужского рода одушевленных с суффиксом -тель

Лекция 10Корпусная лингвистика16 АОТ: Поиск существительных мужского рода неодушевленных с суффиксом -тель

Лекция 10Корпусная лингвистика17 НКРЯ: поиск наречия «бегом»

Лекция 10Корпусная лингвистика18 НКРЯ: поиск существительного «бег»

Лекция 10Корпусная лингвистика19 НКРЯ: «браузер» vs. «броузер» (1)

Лекция 10Корпусная лингвистика20 НКРЯ: «браузер» vs. «броузер» (2)

Лекция 10Корпусная лингвистика21 НКРЯ: «галоши» vs. «калоши» (1)

Лекция 10Корпусная лингвистика22 НКРЯ: «галоши» vs. «калоши» (2)

Лекция 10Корпусная лингвистика23 АОТ: «галоши» vs. «калоши» (1)

Лекция 10Корпусная лингвистика24 АОТ: «галоши» vs. «калоши» (2)

Лекция 10Корпусная лингвистика25 Корпусные данные, полученные на разных подъязыках галошикалоши НКРЯ 4 0 АОТ НКРЯ: художественные тексты - 41,5%; АОТ (библиотека Мошкова): художественные тексты – по оценкам, не менее 85%

Лекция 10Корпусная лингвистика26 НКРЯ: «кремль» vs. «Кремль» (1)

Лекция 10Корпусная лингвистика27 НКРЯ: «кремль» vs. «Кремль» (2)

Лекция 10Корпусная лингвистика28 АОТ: «кремль» vs. «Кремль» (1)

Лекция 10Корпусная лингвистика29 АОТ: «кремль» vs. «Кремль» (2)

Лекция 10Корпусная лингвистика30 НКРЯ: «офсайд» vs. «оффсайд» (1)

Лекция 10Корпусная лингвистика31 НКРЯ: «офсайд» vs. «оффсайд» (2)

Лекция 10Корпусная лингвистика32 АОТ: «офсайд» vs. «оффсайд» (1)

Лекция 10Корпусная лингвистика33 АОТ: «офсайд» vs. «оффсайд» (2)

Лекция 10Корпусная лингвистика34 Яндекс: «офсайд» vs. «оффсайд» (1)

Лекция 10Корпусная лингвистика35 Яндекс: «офсайд» vs. «оффсайд» (2)

Лекция 10Корпусная лингвистика36 Как пользоваться корпусом