АНАЛИЗ ДАННЫХ ТРАФИКА НАУЧНОГО УЧРЕЖДЕНИЯ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ Рыговский И.А. Научный руководитель: д.т.н., проф. Родионов А. С. XII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям г. Новосибирск, 04 октября 2011 г.
Анализ трафика. Гипотезы IP трафик ИВМиМГ СО РАН, г., Детализация – 5 мин, час, день. Выявление и анализ паттернов поведения пользователей – поиск норма поведения, отклонение от нормы – для различных интервалах времени Поиск кластеров пользователей – относительно активности пользователей – относительно количества потребляемого трафика – для различных типов трафика Поиск сходств и различий между известными группами пользователей
1) Индикаторный ряд – {0, 1}, где 0 – отсутствие активности, 1 – пользователь активен (с учётом порога активности). 2) Индивидуально для каждого пользователя - преобразование трафика к числовой последовательности из{0..N} уровней; с учётом «выбросов», удовлетворяющим неравенству Маркова:, где x – количество интервалов, K – трафик, E – мат. ожидание Подготовка данных
Sum, Avg, Sqr, Max, Min и т.д. Анализ последовательностей Преобразование ряда: { } {101} Кластеризация, многомерный анализ Анализ Индикаторный ряд Отношение между уровнями
Предварительный анализ. TCP трафик. Пользователи. Индикаторный ряд
Многомерное шкалирование Индикаторный ряд. Дни.
Дни ( ). Метод Уорда. Иерархические методы
Количество трафика: 1)Различное ПО 2)Различная частота пользования 3)Различная скорость канала 4)Различные незначимые для поведения предпочтения 5)………. Одинаковое поведение - «выбросы» - общая норма поведения - вес наиболее отличным атрибутам Анализ поведения
Предварительный анализ. TCP трафик. Пользователи. Цвет – реальный трафик.
Между объектами: Евклидово расстояние Между кластерами: Расстояние между ближайшими/далёкими соседями (объектами кластера) Среднее расстояние между кластерами – Между центрами кластеров (среднее между центрами) – С учётом объёмов кластеров (между центрами с учётом размеров) – С учётом всех объектов (используя координаты между всеми парами точек) Метод Уорда (прирост суммы квадратов расстояний объектов до центров кластера) V k = i j (x ij - x jl ) 2 Метрики
Sum, Avg, Sqr, Max, Min Евклидово расстояние K-means Иерархическая кластеризация Параллельные вычисления
Ускорение линейное K=5 K=20 N S
Single Link (метод ближайшего соседа) A[N][(N/p] - расстояний между кластерами; B[N] – соседний объект каждого кластера. Centroid, median (геометрические метрики) С[N] - центры кластеров. Расчёт расстояний до них, для каждой итерации Ward (метод Уорда) M[N][N] на каждой итерации Многомерное шкалирование M[N][2] - точки в 2d пространство Message Passing
Центр параллельных вычислительных технологий ГОУ ВПО СибГУТИ 1,44 TFLOPS Вычислительные ресурсы
Спасибо за внимание!