Лекция 11. Использование корпусов в прикладной лингвистике и в других областях В.П. Захаров Санкт-Петербургский государственный университет.

Презентация:



Advertisements
Похожие презентации
Лекция 10. Лингвистические исследования. Использование корпусов В.П. Захаров Санкт-Петербургский государственный университет.
Advertisements

ЛИНГВИСТИЧЕСКИЕ КОРПУСЫ: НОВОЕ НАПРАВЛЕНИЕ ПРОЕКТНОЙ ДЕЯТЕЛЬНОСТИ Львова Ольга Владимировна доцент кафедры информатизации образования МГПУ.
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Лекция 1. Введение в корпусную лингвистику В.П. Захаров Санкт-Петербургский государственный университет.
Наука о языке Русистика Лингвистика Филология языкознание.
Инструменты ИКТ в обучении лексике Web based Concordancers and other tools for Vocabulary development Москва, 2010 Наталья Катасонова.
1 Работу выполнил ученик 6 класса Стариков Иван. Работу выполнил ученик 6 класса Стариков Иван. Автор работы.
Лекция 3. Корпус как особый тип информационно- поисковой системы В.П. Захаров Санкт-Петербургский государственный университет.
Исследование рынка труда в области компьютерной лингвистики Руководитель проекта – Татьяна Ландо Участники проекта - Алешкина Анастасия - Глуховский Сергей.
Обобщение знаний по теме «Глагол» Исследование слова «сверкать»
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
СИНТАКСИС КАК УЧЕНИЕ О ПРЕДЛОЖЕНИИ И СЛОВОСОЧЕТАНИИ Лекция 1.
Троицкий Д.И. Лингвистическое и программное обеспечение САПР 1 Классификация грамматик и языков Лекция 9 Кафедра «Автоматизированные станочные системы»
Частные методы, входящие в контекстный анализ. Апресян,Ю.Д. Дистрибутивный анализ // Лингвистический энциклопедический словарь. - М., 1990: 137 – 138.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Научный стиль. Определение научного стиля.. Что такое научный стиль? Научный стиль – разновидность книжных стилей литературного языка. Он применяется.
Учитель: Остроносова Е. М. МБОУ СОШ 3 г Клинцы. Задача экзаменационного теста 2009 года Проверка уровня сформированности навыков экзаменуемых использовать.
Автоматическое определение авторства Лидия Михайловна Пивоварова Системы понимания текста.
Практическая грамматика английского языка Специальность Иностранный язык.
Лекция 1 Введение. Программирование.. Введение. Информатика – предмет и задачи. Существует много определений информатики: Информатика это наука и сфера.
Транксрипт:

Лекция 11. Использование корпусов в прикладной лингвистике и в других областях В.П. Захаров Санкт-Петербургский государственный университет

Лекция 11Корпусная лингвистика2 Корпусы в прикладной лингвистике и в других областях Пользователи Прикладные лингвисты различного профиля. Лексикографы. Преподаватели: корпусы как база при обучении языкам. Компьютерные лингвисты: выявление статистических и других закономерностей для создания и отладки компьютерных моделей языка. Другие специалисты по языку (литературоведы, редакторы, специалисты по рекламе). Специалисты по общественным наукам (историки, социологи и др.).

Лекция 11Корпусная лингвистика3 Что дают корпусы пользователям реальные контексты; реальные статистические данные (на больших объемах текстов); сочетаемость (коллокации); категоризацию языкового материала; проекции языка на различные подъязыки.

Лекция 11Корпусная лингвистика4 Корпусы как средство описания и применения языка Фонетика и фонология (корпуса устной речи); морфология; словообразование; словоизменение; лексикология; фразеология; парадигматика в широком смысле; синтагматика (коллокации, словосочетания); синтаксис; синтаксис связного текста; семантика; стилистика; прагматика.

Лекция 11Корпусная лингвистика5 Прикладные задачи Лексикография, подготовка словарей ; подготовка грамматик; подготовка учебной литературы; преподавание языков; самостоятельное изучение языков; справки по правописанию; языковая политика; сохранение языкового наследия; машинный перевод; информационный поиск; распознавание речи; распознавание текста; тестирование и отладка систем автоматизированной обработки текста (NLP).

Лекция 11Корпусная лингвистика6 Использование корпусов прикладными лингвистами Лексикография Исследования в области словарного запаса – самые частые в корпусной лингвистике. Можно сказать, что корпуса совершили революцию в лексикографии. По крайней мере, все современные словари английского языка создаются на базе корпусов. Корпусы позволяют получить данные по лексеме в целом (поиск по лемме) и по конкретной словоформе, выявить типичные/нетипичные употребления и харакетрные сочетания слов. Эти данные могут быть разными: контексты, частоты (абсолютные и относительные), частоты по коллокациям, статистика по жанрам/стилям/авторам, и т.д. Грамматика С помощью корпусов можно исследовать различные морфологические и синтаксические конструкции. Так, можно изучать словообразование, валентности глаголов, типы предложного управления, прямой и обратный порядок слов, синтаксические функции различных грамматических категорий, напр., функции инфинитива в предложении, функции союзов в начале и в середине предложения. Корпусы позволяют также получить сведения о правописании и пунктуации. И т.д.

Лекция 11Корпусная лингвистика7 Лексикография При составлении словарей корпусы помогают: выявить новые значения; удалить нерелевантные; более точно упорядочить отдельные значения внутри словарных статей.

Лекция 11Корпусная лингвистика8 Примеры Пример 1: KNOW Longman Dictionary of Contemporary English 1987: 20 значений Longman Dictionary of Contemporary English 1995: более 40 значений Пример 2: MATTER Longman Dictionary of Contemporary English 1987: 10 значений Longman Dictionary of Contemporary English 1995: 30 значений

Лекция 11Корпусная лингвистика9 Частотные словари Корпусы служат источником для составления общеязыковых частотных словарей и частотных списков отдельных жанров, стилей, подъязыков См. новый частотный словарь русского языка

Лекция 11Корпусная лингвистика10 Частотный словарь русского языка (Интернет-версия)

Лекция 11Корпусная лингвистика11 Статистические исследования в грамматике Можно сказать, ни одна из современных грамматик не создается без использования корпусов. В ряде случаев статистическая информация о частотах, полученная на основе корпусов непосредственно включается в текст грамматики.

Лекция 11Корпусная лингвистика12 Пример Mindt D. An Empirical Grammar of the English Verb System. Berlin, Present Perfect: в отличие от других учебников данная грамматика, базирующаяся на корпусе, показывает, что 2 из 4 грамматических значений этого времени (past-into-present, recent past) используются гораздо реже, чем принято считать.

Лекция 11Корпусная лингвистика13 Меры вычисления устойчивости в лексикографии Существуют различные меры учета силы синтагматических связей в тексте (mutual information, t- score, log-likelihood и др.). Но их достоверность требует больших объемов текстовых данные. Поэтому только появление корпусов дало возможность делать на их основе теоретические и практические выводы. В современной лексикографии на основе использования коллокаций наблюдается тенденция: заменять отдельные значения слов дефиниями словосочетаний с этими словами ( Ср. Cobuild Dictionary (2000): вместо особого значения для brink появился фразеологизм be on the brink ) иллюстрировать фразеологизмы примерами из корпуса увеличивать число устойчивых словосочетаний в словаре

Лекция 11Корпусная лингвистика14 Меры вычисления устойчивости: MI score

Лекция 11Корпусная лингвистика15 Меры вычисления устойчивости: T score

Лекция 11Корпусная лингвистика16 Меры вычисления устойчивости: LL score

Лекция 11Корпусная лингвистика17 Меры вычисления устойчивости в грамматике Меры учета силы синтагматических связей в тексте (mutual information, t-score, log-likelihood и др.) используются и при написании грамматик. Например, Longman Grammar of Written and Spoken English. London, 1999 показывает, что одни глаголы (bet, doubt, know, mean и др.) почти всегда используется в Present Tense, в то время как другие (eye, glance, grin, nod и др.), как правило, стоят в Past Tense. Эти данные невозможно было бы получить без корпусов.

Лекция 11Корпусная лингвистика18 Словари и грамматики подъязыков Корпуса позволяют на основе статданных учесть различия в лексике и грамматике применительно к подъязыкам (жанры, стили, языки писателей, специальные языки). Так, например, корпусные исследования показали, что: в современном английском языке в разговорной речи чаще встречается время present, в то время в художественных текстах чаще встречается время past (Longman Grammar of Written and Spoken English. London, 1999). в разговорной речи пассивный залог глагола TO BE встречается реже, чем в художественной прозе, в то время как для глагола TO GET наблюдается обратная картина в художественных текстах чаще встречается время past (Mindt D. An Empirical Grammar of the English Verb System. Berlin, 2000). То же – см. сравнение употребления существительных галоша и калоша в русском языке (слайд 25 из лекции 10)

Лекция 11Корпусная лингвистика19 Социология, культура, литературоведение В настоящее время растет интерес к изучению идеологии и культуры через язык. Корпуса оказываются здесь назаменимым средством. То же самое относится к новому направлению в прикладной лингвистике, к юридической лингвистике. Корпусные данные широко используются при разработке систем контент-анализа, для определения авторства, в стилистических исследованиях.

Лекция 11Корпусная лингвистика20 Использование корпусов для настройки и самообучения лингвистических автоматов В системах автоматической обработки текстов, как правило, используются два подхода к анализу текста: на основе лингвистических (контекстных и/или синтаксических) правил или на основе стохастических (статистических) алгоритмов. В обоих случаях создание качественного лингвистического и математического обеспечения для этих систем невозможно без использования корпусов, которые используются и как источник данных, и как настроечные тренировочные массивы.