Частотно-основанный подход к языковой динамике Соловьев В.Д. Казанский федеральный университет
Google Books & Ngram Viewer Google Books – хорошо известная электронная библиотека, содержащая 15 миллионов книг (12% всех опубликованных книг) Для подсчета частоты слов выбрано подмножество из 5 миллионов книг, содержащих более 500 миллиардов (!) слов, в том числе, русскоязычная часть – более 35 миллиардов слов (это в 70 раз больше, чем в НКРЯ) Реализован удобный интерфейс (Ngram Viewer, 2010), предоставляющий статистическую информацию в виде графиков Во вторую версию Ngram Viewer (2013) включена морфологическая и синтаксическая информация
Преимущества Google Books Ngram Viewer Колоссальный объем Многоязычность Диахроничность
Culturomics Статья в январском номере Science за 2011: Quantitative Analysis of Culture Using Millions of Digitized Books Соловьев В.Д. Частотность как объект корпусных исследований. Корпусная лингвистика Бочкарев В.В., грант РФФИ
Примеры исследований частотности с Ngram Viewer Уточнение закона Ципфа Уточнение закона Хипса Скорость эволюции лексики языка Динамика эмоций Динамика черт характера
Закон Ципфа
Закон Ципфа
Точка перегиба
Динамика точки перегиба
Закон Хипса
Уточнение закона Хипса – зависимость от размера корпуса
Эволюция лексики языка Ядро лексики – список Сводеша – эволюционирует с примерно постоянной скоростью Ядро грамматики – тоже с постоянной скоростью (Wichmann, 2009) А вся лексика? Учитывая не только изменение состава лексикона, но и изменение частот слов (употребимости)
Измерение скорости эволюции лексики языка Нормированная скорость изменения лексического состава рассчитывается по формуле: где T - интервал времени (10 лет), D - значение метрики Кульбака-Лейблера для распределений частот слов в годы t и t +T, H - энтропия частотного распределения.
Скорости эволюции всей лексики языка: английский
Динамика расстояния между лексикой языков: британский и американский
Динамика лексикона: выводы В целом лексика меняется с постоянной скоростью Заметно ускорение изменений во время войн и в последние 10 лет Расхождение диалектов английского языка сменилось в середине 20 века их сближением
Динамика эмоций Базовые эмоции: anger, fear, disgust, sadness, joy, surprise Суммирование частот слов в синонимическом ряду. Синонимический ряд для anger в английском: anger, rage, fury.
Частота эмотивной лексики в английском
Частота эмотивной лексики в русском
Динамика эмоций: выводы Уменьшение частоты в 2-3 раза за последние 2 века Зависимость от социальных потрясений (русский +, английский -) Фиксированный порядок эмоций по частоте для разных языков: удовольствие, страх, печаль, гнев
Черты характера в русском Русский семантический словарь (ред. Шведова Н.Ю.), т.3, 2003 Более 500 слов, разбитых на 21 семантическое поле
Динамика черт характера
Человек
Заключение Появившиеся в последние годы большие и сверхбольшие корпусы текстов создают принципиально новые возможности для исследования языка, культуры, общества Диахронические корпусы позволяют исследовать процессы развития. Одним из важнейших динамических параметров является частотность слов и конструкций Обнаруживаются новые эффекты, возникают новые постановки задач Возникла новая область исследований!
Благодарю за внимание!