Изучение характеристик сообществ русскоязычной блогосферы А.В. Сычев, И.А.Гадебский
Цель исследования анализ структуры и связи между атрибутами профилей сообществ в наиболее популярных в России блог- хостингах LiveJournal и LiveInternet поиск эффективных методик обработки данных из профилей сообществ, позволяющих получить дополнительную информацию о сообществах и их интересах
Исходные данные Реестр русскоязычных сообществ «Живого журнала» Реестр русскоязычных сообществ «Живого журнала» Топ сообществ LiveInternetТоп сообществ LiveInternet Для проведения исследования всего было скачано 2905 профилей сообществ LiveJournal и профилей сообществ LiveInternet
Задачи Построение х ронологи и создания сообществ Расчет усредненных значений атрибутов профилей и их корреляции Анализ р аспределени я интересов в сообществах Кластеризация сообществ по интересам, указанным в профиле Кластеризация интересов по сообществ ам, в профиле которых они указаны
Хронология создания сообществ LiveJournal
Хронология создания сообществ LiveJournal и LiveInternet
Атрибуты профилей LiveJournal Название поля профиляМаксимумСреднееМедиана 1Количество интересов Количество смотрителей271,81,0 3Количество модераторов120,30,0 4Количество членов Количество читателей Входит в сообщества (количество)290,10,0 7Тип аккаунта (0-беспл.,1-улучш., 2-платн.)20,030,00 8Дата создания Дата обновления Количество подарков50,010,00 11Количество записей Написано Получено Количество пользователей с правом записи
Атрибуты профилей LiveJournal. Корреляция ,110,090,100,110,010,050,160,190,030,04-0,050,050,10 2 0,230,310,300,020,16-0,020,130,070,300,010,30 3 0,260,29-0,010,110,040,060,040,120,010,160,25 4 0,910,060,19-0,210,170,100,730,080,620,99 5 0,050,15-0,180,180,070,580,060,520,90 6 0,00-0,110,020,000,05 0,030,04 7 0,070,020,000,05 0,030,04 8 0,12-0,01-0,20-0,21-0,15-0,21 9 0,030,12-0,050,080, ,130,090,140, ,150,740, ,130, ,62
Атрибуты профилей LiveInternet Название поляМаксимумСреднееМедиана 1Дата регистрации Записей в дневнике Комментариев в дневнике Написано сообщений ,16-0,05-0,03 20,44 30,99
Распределение интересов в сообществах LiveJournal Хотя бы 1 интерес был указан в профиле 2260 сообществ Общее количество интересов получилось равным 43247
Распределение интересов в сообществах LiveJournal
Величина ICW рассчитывалась как сумма весов интересов, указанных в профиле сообщества. Вес интереса был равен частоте его встречаемости в профилях всех сообществ. Величина CIC рассчитывалась как количество интересов из профиля сообщества, указанных также в профиле хотя бы одного другого сообщества.
Распределение интересов в сообществах LiveInternet
Кластеризация сообществ по интересам (интересов по сообществам) Первичное расстояние между сообществами расcчитывалось по формуле: Сообщество c i рассматривалось как множество интересов, указанных в его профиле. При проведении процедуры кластеризации расстояние между кластерами рассчитывалось по формуле среднего расстояния. При проведении кластеризации интересов расчет расстояния между интересами выполнялся по аналогичной формуле, при этом вместо размера сообщества подставлялся размер множества сообществ, в которых указан данный интерес.
Кластеризация сообществ по интересам (интересов по сообществам) В качестве исходных данных для процедуры кластеризации сообществ (интересов) была использована матрица сообщество-интерес, на основе который строилась матрица сообщество- сообщество (интерес-интерес). При проведении кластеризации интерес ов в связи с ограничениями вычислительного характера учитывались только интересы, указывавшиеся в двух и более сообществах, т.е. фактически кластеризация выполнялась на прореженных матрицах.
Исходные данные для построения матрицы Сообщество-Интерес
Характеристики матриц Сообщество-Интерес и "Сообщество- Сообщество" (без прореживания)
Характеристики матриц Сообщество-Интерес и "Интерес - Интерес " (с прореживанием)
Характеристики кластеров сообществ LiveJournal
Распределение кластеров сообществ LiveInternet при различных значениях порога кластеризации Th
Характеристики кластеров интересов LiveInternet
Распределение кластеров интересов LiveJournal при различных значениях порога кластеризации Th
Кластеризация сообществ CF – как часто встречается интерес в профилях сообществ, образующих кластер ICF – количество других кластеров, содержащих сообщества с этим интересом, PF – частота встречаемости интереса в профилях всех сообществ CF-ICF – метрика, аналогичная TF-IDF, и показывающая специфичность интереса для данного кластера
Ранжирование интересов в кластере (LiveInternet) ИнтересCFICFPFCF-ICFИнтересCFICFPFCF-ICF 1фоны ,82120lilac1110,031 2эпиграфы ,81521purple1110,031 3аватары ,63322violet1110,031 4картинки ,48823сиреневый1120,031 5дизайны ,28524фотошоп ,031 6заказы930590,16825схемы оформления1120,031 7дизайн ,12626велкомы1110,031 8фотошоп ,07727заголовки1110,031 9готовые дизайны37110,07228фотографии.1130,031 10фотографии ,05629глиттер1110,031 11подписи2460,052……………………….. 12поиск картинок24100,05261эмо ,015 13схемы28220,04762рисунки ,014 14оформление28270,04763гламур ,014 15анимации212290,04464интернет ,014 16дневники ,03965критика ,013 17сообщества231950,03766стихи ,013 18создание аватарок1110,03167аниме ,011 19happy tree friends1190,03168любовь ,010
Приложения поиск латентных суперсообществ и определение их тематики автоматическое структурирование пространства интересов автоматическая оценка тематической принадлежности и специфичности интересов
Спасибо за внимание. Вопросы, пожалуйста