MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий 12 – 16 мая 2011 г. Украина, Крым, Партенит ОСОБЕННОСТИ РАСПРЕДЕЛЕНИЯ УНИКАЛЬНЫХ СЛОВ В ТЕКСТОВЫХ МАССИВАХ Ландэ Дмитрий Владимирович 1,2, Снарский Андрей Александрович 2 1 ИПРИ НАН Украины, 2 НТУУ «Киевский политехнический институт» Киев, Украина
Если последовательно каждому уникальному слову из текстового массива, начиная с первого, приписывать номер, то можно получить зависимость между позицией слова в тексте и этим номером. График зависимости «номер слова в тексте – номер уникального слова»
Закон Хипса
Закон Ципфа
Формальное доказательство закон Хипса
Верхняя кромка соответствует повышенной частоте встречаемости слов после их первого появления.
График рангового распределения количества новых слов в заданном окне наблюдения для потока Интернет-новостей, сканируемых системой InfoStream, удовлетворительно аппроксимирующегося степенной функцией. Ранжированное распределение количества новых слов в окне наблюдения шириной в 250 слов
Зависимость R/S для распределения количества новых слов в окне наблюдения шириной в 250 слов (в логарифмической шкале)
При окне наблюдений в 250 слов эта величина R/S для романа Л.Толстого «Анна Каренина» составила 1,1, в то время, как для политематического потока из Интернет – в среднем 1,25. Одновременно, показатель Херста для первого случая составил 0,75, а для второго – в среднем 0,70. Первые предварительные результаты
Подходы: -Анализ соответствия закону Ципфа - Анализ соответствия закону Хипса (связано с предыдущим) - Анализ распределения новых слов в «окнах» наблюдения - Анализ наличия коррелированных элементов в тексте: Проблема определения осмысленности текста Значения χ отношения среднего установившегося значения объема сжатого перемешанного текста к объему сжатого исходного текста
MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий MegaLing'2011 Горизонты прикладной лингвистики и лингвистических технологий 12 – 16 мая 2011 г. Украина, Крым, Партенит Спасибо за внимание! Ландэ Д.В.