Анализ данных Кластеризация. План лекции Модельные алгоритмы (пример: EM) Концептуальные алгоритмы (пример: COBWEB) Цель: Знакомство с основными алгоритмами.

Презентация:



Advertisements
Похожие презентации
Анализ данных Кластеризация. План лекции Иерархические алгоритмы (пример: алгоритм ближайшего соседа) Итеративные алгоритмы (пример: k-means) Плотностные.
Advertisements

Анализ данных Кластеризация. План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать.
Обучение без учителя Владимир Вежневец, Антон Конушин Александр Вежневец Компьютерное зрение МГУ ВМК, Осень 2006.
Logit и probit модели Петровская А. Славская Т. Шинов В. Высшая школа экономики, Москва,
Прогнозирование ARMA- МОДЕЛЕЙ ВРЕМЕННЫХ РЯДОВ С «ПРОПУСКАМИ» БГУ, ФПМИ, МАГИСТРАНТ Лобач Сергей Викторович.
Лабораторная работа 6 Обработка результатов эксперимента в MathCad.
Задача таксономии и частичного обучения Лекция 6.
Случайные и систематические погрешности при измерениях и расчетах.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Стохастическое программирование выполнили Шпарик Анна Кутас Юлия.
Большая часть классического численного анализа основывается на приближении многочленами, так как с ними легко работать. Однако для многих целей используются.
Количественные характеристики случайных переменных Математическое ожидание (среднее значение) Математическое ожидание (среднее значение) Дисперсия и среднее.
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ. СТАТИСТИЧЕСКАЯ ОЦЕНКА.
Модели принятия решений Задачи распознавания Детерминированный случай Распознавание при стохастических данных Показатели качества распознавания Оптимальный.
МЕТОД КОЙКА Предположим,что для описаний некоторого процесса используется модель с бесконечным лагом вида: Предположим,что для описаний некоторого процесса.
Нормальное распределение Тема 1. Вопросы для обсуждения 1.Случайная величина и ее распределение 2.Математическое ожидание и его оценка 3.Дисперсия и ее.
ЛОГІТ ТА ПРОБІТ-МОДЕЛІ РЕГРЕСІЇ В ПРОГНОЗУВАННІ СЕП 1.Моделі дискретного вибору. 2.Логіт та пробіт-моделі регресії. 3.Особливості вирішення логіт та пробіт-моделей.
Имитационное моделирование в исследовании и разработке информационных систем Лекция 5 Примеры систем моделирования (продолжение) Статистическая обработка.
Лекция 9: Метод предельных упрощений (МПУ) По тому, как организован процесс обучения распознающих систем, четко выделяются два подхода к проблеме ОРО.
Оценка неизвестных параметров распределений Точечное оценивание.
Транксрипт:

Анализ данных Кластеризация

План лекции Модельные алгоритмы (пример: EM) Концептуальные алгоритмы (пример: COBWEB) Цель: Знакомство с основными алгоритмами кластеризации

Модельные алгоритмы Находят распределение данных по кластерам согласно некоторой модели Максимизируют сходство модели с реальным распределением данных

Модельные алгоритмы Преимущества: Хорошая масштабируемость Можно работать с небольшим количеством данных Недостатки: Нужны модели (но есть популярные решения)

Expectation-Maximization (EM) Основная идея: набор данных может быть смоделирован с помощью линейной комбинации нормальных распределений Нужно найти параметры максимизирующие функцию правдоподобия

Алгоритм работы EM Инициализация: Начальные k распределений (похоже на k- means) Шаг кластеризации: 1.Ожидание (шаг Е) 2.Максимизация (шаг М)

Инициализация EM Инициализация: Начальные k распределений: мат.ожидания μ, ковариации Σ, веса w – все вместе Θ Вектор скрытых переменных G Допустимое отклонение от функции правдоподобия ε Прочие условия выхода из цикла

E-шаг (ожидание) Задача: вычислить G по текущему приближению Θ

E-шаг (ожидание) Задача: вычислить G по текущему приближению Θ

М-шаг (максимизация) Задача: максимизации правдоподобия и поиск следующего приближения G по текущим значениям G и Θ Среднее значение и дисперсия:

Правдоподобие ЕМ Значение правдоподобия: Максимальное значение - наилучшее

Пример ЕМ

Применение ЕМ Обработка результатов экспериментов Распознавание образов Поиск аномалий

Концептуальные алгоритмы Основная идея: создание концепции описания каждого кластера Обычно генерируют иерархию кластеров, но не относятся к иерархической кластеризации

Концептуальные алгоритмы Преимущества Масштабируемость Работа при неизвестном количестве объектов (легкое добавление в ходе работы) Недостатки: Относительно сложный мат.аппарат

COBWEB Основная идея: последовательно строит дерево кластеров, рассматривая полезность отнесения объекта к какому- либо кластеру

Критерий полезности Основная идея: максимальное значение вероятности одинаковых значений свойств двух объектов из одной категории и различных для разных категорий

Свойства критерия полезности Предиктивность P(C k | A = υ ij ) Предсказуемость P(A j = υ ij | C k ) Усиленное влияние распространенных свойств P(A = υ ij ) Высокая вероятность что объекты из одной категории обладают одинаковыми свойствами Низкая вероятность наличия этих свойств у объектов из других категорий

Формула критерия полезности C k – категории A j – свойства υ ij – значения свойств

Алгоритм COBWEB Добавление нового объекта может: Слить две категории Разделить категорию на две Добавить новую категорию Отправить объект дальше по иерархии

Алгоритм COBWEB 1.Если у категории нет подкатегорий, то создать подкатегорию и отнести к ней объект 2.Если есть, то вычислить пользу: – От отнесения объекта к имеющейся подкатегории – От создания новой подкатегории 3.Если отнесли к имеющейся подкатегории, то вычислить пользу слияния наиболее подходящих объекту категорий

Применение COBWEB Веб-анализ Экспертные системы Анализ разнородных данных

Спасибо за внимание Вопросы по кластеризации присылайте на: