Анализ данных Кластеризация
План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать определение кластеризации Определить область применения и типы
Обучение с учителем Классификация: Набор для обучения Набор для проверки Набор объектов без класса Задача: присвоить объекту класс из имеющихся
Обучение без учителя Кластеризация: Набор данных Задача: найти полезное разбиение набора объектов
Определение Кластеризация – задача разбиения заданной выборки объектов на кластеры в зависимости от их схожести
Особенности кластеризации Заранее неизвестны характеристики кластеров Не всегда заранее известно количество кластеров
Применение кластеризации Основные цели: Выявление полезной информации из кластерной структуры (напр.: теории происхождения) Сжатие данных (напр.: при индексации веб- страниц) Обнаружение новизны (напр.: поиск трендов)
Сферы применения кластеризации Биология: – Поиск новых видов и теорий происхождения Социология – Поиск эффективных рабочих групп Информатика – Поиск групп похожих документов, изображений и прочих медиафайлов
Обобщенный алгоритм кластеризации 1.Приведение данных к нужному виду 2.Выбор меры близости 3.Выбор алгоритма кластеризации 4.Выполнение алгоритма над данными 5.Представление результатов алгоритма 6.Интерпретация результатов кластеризации
Меры близости Мера близости – представление близости между двумя объектами обычно выраженное числом Виды мер близости: Меры измерения расстояния между объектами по числовым шкалам Меры схожести признаков двух объектов по наборам атрибутов
Меры близости расстояния Евклидова метрика: Манхэттенское расстояние:
Меры близости расстояния Другие популярные метрики: Расстояние Минковского Расстояние Хэмминга Расстояние Левенштейна (Дамерау- Левенштейна)
Меры схожести Коэффициент Жаккара: Коэффициент Дайса: и еще много метрик из биологии
Типы алгоритмов Иерархические – Агломеративные и дивизимные Неиерархические – Плотностные – Итеративные – Модельные – Концептуальные – Другие
Представление результатов кластеризации Дендрограмма Мозаичное представление Линейная проекция Номограмма Другие графики Кластеры чаще всего цветом выделяются
Представление результатов кластеризации Иерархические – Дендрограмма – Мозаичное представление Неиерархические – Линейная проекция – Номограмма – Другие графики
Спасибо за внимание Вопросы по кластеризации присылайте на: