Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемВиталий Голицын
1 MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий 12 – 16 мая 2011 г. Украина, Крым, Партенит ОСОБЕННОСТИ РАСПРЕДЕЛЕНИЯ УНИКАЛЬНЫХ СЛОВ В ТЕКСТОВЫХ МАССИВАХ Ландэ Дмитрий Владимирович 1,2, Снарский Андрей Александрович 2 1 ИПРИ НАН Украины, 2 НТУУ «Киевский политехнический институт» Киев, Украина
2 Если последовательно каждому уникальному слову из текстового массива, начиная с первого, приписывать номер, то можно получить зависимость между позицией слова в тексте и этим номером. График зависимости «номер слова в тексте – номер уникального слова»
3 Закон Хипса
4 Закон Ципфа
5 Формальное доказательство закон Хипса
6 Верхняя кромка соответствует повышенной частоте встречаемости слов после их первого появления.
7 График рангового распределения количества новых слов в заданном окне наблюдения для потока Интернет-новостей, сканируемых системой InfoStream, удовлетворительно аппроксимирующегося степенной функцией. Ранжированное распределение количества новых слов в окне наблюдения шириной в 250 слов
8 Зависимость R/S для распределения количества новых слов в окне наблюдения шириной в 250 слов (в логарифмической шкале)
9 При окне наблюдений в 250 слов эта величина R/S для романа Л.Толстого «Анна Каренина» составила 1,1, в то время, как для политематического потока из Интернет – в среднем 1,25. Одновременно, показатель Херста для первого случая составил 0,75, а для второго – в среднем 0,70. Первые предварительные результаты
10 Подходы: -Анализ соответствия закону Ципфа - Анализ соответствия закону Хипса (связано с предыдущим) - Анализ распределения новых слов в «окнах» наблюдения - Анализ наличия коррелированных элементов в тексте: Проблема определения осмысленности текста Значения χ отношения среднего установившегося значения объема сжатого перемешанного текста к объему сжатого исходного текста
11 MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий 12 – 16 мая 2011 г. Украина, Крым, Партенит Спасибо за внимание! Ландэ Д.В.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.