Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемИлья Бутаков
1 Частотно-основанный подход к языковой динамике Соловьев В.Д. Казанский федеральный университет
2 Google Books & Ngram Viewer Google Books – хорошо известная электронная библиотека, содержащая 15 миллионов книг (12% всех опубликованных книг) Для подсчета частоты слов выбрано подмножество из 5 миллионов книг, содержащих более 500 миллиардов (!) слов, в том числе, русскоязычная часть – более 35 миллиардов слов (это в 70 раз больше, чем в НКРЯ) Реализован удобный интерфейс (Ngram Viewer, 2010), предоставляющий статистическую информацию в виде графиков Во вторую версию Ngram Viewer (2013) включена морфологическая и синтаксическая информация
3 Преимущества Google Books Ngram Viewer Колоссальный объем Многоязычность Диахроничность
4 Culturomics Статья в январском номере Science за 2011: Quantitative Analysis of Culture Using Millions of Digitized Books Соловьев В.Д. Частотность как объект корпусных исследований. Корпусная лингвистика Бочкарев В.В., грант РФФИ
5 Примеры исследований частотности с Ngram Viewer Уточнение закона Ципфа Уточнение закона Хипса Скорость эволюции лексики языка Динамика эмоций Динамика черт характера
6 Закон Ципфа
7 Закон Ципфа
8 Точка перегиба
9 Динамика точки перегиба
10 Закон Хипса
11 Уточнение закона Хипса – зависимость от размера корпуса
12 Эволюция лексики языка Ядро лексики – список Сводеша – эволюционирует с примерно постоянной скоростью Ядро грамматики – тоже с постоянной скоростью (Wichmann, 2009) А вся лексика? Учитывая не только изменение состава лексикона, но и изменение частот слов (употребимости)
13 Измерение скорости эволюции лексики языка Нормированная скорость изменения лексического состава рассчитывается по формуле: где T - интервал времени (10 лет), D - значение метрики Кульбака-Лейблера для распределений частот слов в годы t и t +T, H - энтропия частотного распределения.
14 Скорости эволюции всей лексики языка: английский
15 Динамика расстояния между лексикой языков: британский и американский
16 Динамика лексикона: выводы В целом лексика меняется с постоянной скоростью Заметно ускорение изменений во время войн и в последние 10 лет Расхождение диалектов английского языка сменилось в середине 20 века их сближением
17 Динамика эмоций Базовые эмоции: anger, fear, disgust, sadness, joy, surprise Суммирование частот слов в синонимическом ряду. Синонимический ряд для anger в английском: anger, rage, fury.
18 Частота эмотивной лексики в английском
19 Частота эмотивной лексики в русском
20 Динамика эмоций: выводы Уменьшение частоты в 2-3 раза за последние 2 века Зависимость от социальных потрясений (русский +, английский -) Фиксированный порядок эмоций по частоте для разных языков: удовольствие, страх, печаль, гнев
21 Черты характера в русском Русский семантический словарь (ред. Шведова Н.Ю.), т.3, 2003 Более 500 слов, разбитых на 21 семантическое поле
22 Динамика черт характера
23 Человек
24 Заключение Появившиеся в последние годы большие и сверхбольшие корпусы текстов создают принципиально новые возможности для исследования языка, культуры, общества Диахронические корпусы позволяют исследовать процессы развития. Одним из важнейших динамических параметров является частотность слов и конструкций Обнаруживаются новые эффекты, возникают новые постановки задач Возникла новая область исследований!
25 Благодарю за внимание!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.