АНАЛИЗ ДАННЫХ ТРАФИКА НАУЧНОГО УЧРЕЖДЕНИЯ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ Рыговский И.А. Научный руководитель: д.т.н., проф. Родионов А. С. XII.

Презентация:



Advertisements
Похожие презентации
Анализ предметных взаимосвязей по результатам оценки знаний студентов Научный руководитель: Штейнберг А.М Выполнила: Сухорукова Ольга.
Advertisements

Проект : Ассоциативный поиск информации с помощью нейронных сетей. Задача: методы кластеризации данных.
Анализ данных Кластеризация. План лекции Модельные алгоритмы (пример: EM) Концептуальные алгоритмы (пример: COBWEB) Цель: Знакомство с основными алгоритмами.
Анализ данных Кластеризация. План лекции Иерархические алгоритмы (пример: алгоритм ближайшего соседа) Итеративные алгоритмы (пример: k-means) Плотностные.
Определение. Случайная величина имеет нормальное распределение вероятностей с параметрами и 2, если ее плотность распределения задается формулой:
КЛАСТЕРНЫЙ АНАЛИЗ. Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые.
КЛАСТЕРНЫЙ АНАЛИЗ. Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые.
Кластерный анализ Минск Литература 1.Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Дж.-О.Ким, Ч.У.Мюллер, У.Р.Клекка и др.; Под.
Анализ данных Кластеризация. План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Курсовая работа «Восприятия веб-сайтов разработчиками и конечными пользователями: сходства и различия» Выполнил: Студент 4 курса д/о Зверев И. С. Научный.
Учебники и учебные пособия Открытый банк задач Система диагностических и тренировочных работ Методика подготовки обучающихся к выполнению заданий части.
ТИПЫ КОМПЬЮТЕРНЫХ МОДЕЛЕЙ Компьютерная математическая модельИмитационное моделирование Компьютерная математическая модель – это программа, реализующая.
Веб-система агрегации и интеллектуального анализа проектов фриланс-бирж Докладчик: Савин И.И. 1.
Задание B1 ТРЕБОВАНИЯ: Анализировать реальные числовые данные; осуществлять практические расчеты по формулам, пользоваться оценкой и прикидкой при практических.
Создание геометрических моделей объектов и снимков с заданными параметрами Говоров А.В. ИКИ РАН, МИИГАиК.
Федерация водного поло Росссии Материал: научная литература по исследованию операций, математической статистики и теории случайных процессов. Гипотеза:
Важность структурирования информации сайта Карпович Сергей Руководитель SEO Деловой Мир Онлайн.
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Алгоритм приближённого joinа на потоках данных Выполнил : Юра Землянский, 445 группа Научный руководитель : Б.А. Новиков СПб, 2011 Санкт-Петербургский.
Транксрипт:

АНАЛИЗ ДАННЫХ ТРАФИКА НАУЧНОГО УЧРЕЖДЕНИЯ С ИСПОЛЬЗОВАНИЕМ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ Рыговский И.А. Научный руководитель: д.т.н., проф. Родионов А. С. XII Всероссийская конференция молодых ученых по математическому моделированию и информационным технологиям г. Новосибирск, 04 октября 2011 г.

Анализ трафика. Гипотезы IP трафик ИВМиМГ СО РАН, г., Детализация – 5 мин, час, день. Выявление и анализ паттернов поведения пользователей – поиск норма поведения, отклонение от нормы – для различных интервалах времени Поиск кластеров пользователей – относительно активности пользователей – относительно количества потребляемого трафика – для различных типов трафика Поиск сходств и различий между известными группами пользователей

1) Индикаторный ряд – {0, 1}, где 0 – отсутствие активности, 1 – пользователь активен (с учётом порога активности). 2) Индивидуально для каждого пользователя - преобразование трафика к числовой последовательности из{0..N} уровней; с учётом «выбросов», удовлетворяющим неравенству Маркова:, где x – количество интервалов, K – трафик, E – мат. ожидание Подготовка данных

Sum, Avg, Sqr, Max, Min и т.д. Анализ последовательностей Преобразование ряда: { } {101} Кластеризация, многомерный анализ Анализ Индикаторный ряд Отношение между уровнями

Предварительный анализ. TCP трафик. Пользователи. Индикаторный ряд

Многомерное шкалирование Индикаторный ряд. Дни.

Дни ( ). Метод Уорда. Иерархические методы

Количество трафика: 1)Различное ПО 2)Различная частота пользования 3)Различная скорость канала 4)Различные незначимые для поведения предпочтения 5)………. Одинаковое поведение - «выбросы» - общая норма поведения - вес наиболее отличным атрибутам Анализ поведения

Предварительный анализ. TCP трафик. Пользователи. Цвет – реальный трафик.

Между объектами: Евклидово расстояние Между кластерами: Расстояние между ближайшими/далёкими соседями (объектами кластера) Среднее расстояние между кластерами – Между центрами кластеров (среднее между центрами) – С учётом объёмов кластеров (между центрами с учётом размеров) – С учётом всех объектов (используя координаты между всеми парами точек) Метод Уорда (прирост суммы квадратов расстояний объектов до центров кластера) V k = i j (x ij - x jl ) 2 Метрики

Sum, Avg, Sqr, Max, Min Евклидово расстояние K-means Иерархическая кластеризация Параллельные вычисления

Ускорение линейное K=5 K=20 N S

Single Link (метод ближайшего соседа) A[N][(N/p] - расстояний между кластерами; B[N] – соседний объект каждого кластера. Centroid, median (геометрические метрики) С[N] - центры кластеров. Расчёт расстояний до них, для каждой итерации Ward (метод Уорда) M[N][N] на каждой итерации Многомерное шкалирование M[N][2] - точки в 2d пространство Message Passing

Центр параллельных вычислительных технологий ГОУ ВПО СибГУТИ 1,44 TFLOPS Вычислительные ресурсы

Спасибо за внимание!