Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемАнатолий Шеметов
1 Анализ данных Кластеризация
2 План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать определение кластеризации Определить область применения и типы
3 Обучение с учителем Классификация: Набор для обучения Набор для проверки Набор объектов без класса Задача: присвоить объекту класс из имеющихся
4 Обучение без учителя Кластеризация: Набор данных Задача: найти полезное разбиение набора объектов
5 Определение Кластеризация – задача разбиения заданной выборки объектов на кластеры в зависимости от их схожести
6 Особенности кластеризации Заранее неизвестны характеристики кластеров Не всегда заранее известно количество кластеров
7 Применение кластеризации Основные цели: Выявление полезной информации из кластерной структуры (напр.: теории происхождения) Сжатие данных (напр.: при индексации веб- страниц) Обнаружение новизны (напр.: поиск трендов)
8 Сферы применения кластеризации Биология: – Поиск новых видов и теорий происхождения Социология – Поиск эффективных рабочих групп Информатика – Поиск групп похожих документов, изображений и прочих медиафайлов
9 Обобщенный алгоритм кластеризации 1.Приведение данных к нужному виду 2.Выбор меры близости 3.Выбор алгоритма кластеризации 4.Выполнение алгоритма над данными 5.Представление результатов алгоритма 6.Интерпретация результатов кластеризации
10 Меры близости Мера близости – представление близости между двумя объектами обычно выраженное числом Виды мер близости: Меры измерения расстояния между объектами по числовым шкалам Меры схожести признаков двух объектов по наборам атрибутов
11 Меры близости расстояния Евклидова метрика: Манхэттенское расстояние:
12 Меры близости расстояния Другие популярные метрики: Расстояние Минковского Расстояние Хэмминга Расстояние Левенштейна (Дамерау- Левенштейна)
13 Меры схожести Коэффициент Жаккара: Коэффициент Дайса: и еще много метрик из биологии
14 Типы алгоритмов Иерархические – Агломеративные и дивизимные Неиерархические – Плотностные – Итеративные – Модельные – Концептуальные – Другие
15 Представление результатов кластеризации Дендрограмма Мозаичное представление Линейная проекция Номограмма Другие графики Кластеры чаще всего цветом выделяются
16 Представление результатов кластеризации Иерархические – Дендрограмма – Мозаичное представление Неиерархические – Линейная проекция – Номограмма – Другие графики
17 Спасибо за внимание Вопросы по кластеризации присылайте на:
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.