Кластерный анализ Подготовил: Евгений Дзень. 1.Суть кластерного анализа 2.История возникновения метода 3.Рассмотрение типичной задачи (с использованием.

Презентация:



Advertisements
Похожие презентации
КЛАСТЕРНЫЙ АНАЛИЗ. Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые.
Advertisements

Кластерный анализ Минск Литература 1.Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Дж.-О.Ким, Ч.У.Мюллер, У.Р.Клекка и др.; Под.
КЛАСТЕРНЫЙ АНАЛИЗ. Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Анализ предметных взаимосвязей по результатам оценки знаний студентов Научный руководитель: Штейнберг А.М Выполнила: Сухорукова Ольга.
Лекция 10 Временные ряды в эконометрических исследованиях.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
ДИНАМИЧЕСКИЕ ЭКОНОМЕТРИЧЕСКИЕ МОДЕЛИ. Опр. Эконометрическая модель является динамической, если в данный момент времени она учитывает значения входящих.
КЛАСТЕРНЫЙ АНАЛИЗ Класс 2 Класс 1 Класс 3 ОБЪЕКТ Х1 ХnХn ПРИЗНАКИ.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Графические способы представления информации Кластеры Автор презентации: Лебедева М. Б.
Временные ряды в эконометрических исследованиях..
Т ЕМА 6. «С РЕДНИЕ ВЕЛИЧИНЫ И ПОКАЗАТЕЛИ ВАРИАЦИИ »
Основы статистики Краткий конспект.. 1. Статистика (лат.status – государство, его состояние, определяемое по результатам наблюдения) – наука, изучающая.
Большая часть классического численного анализа основывается на приближении многочленами, так как с ними легко работать. Однако для многих целей используются.
Кластерный анализ Демьянюк Антон Ромашина Мария Лисяк Марина НИУ ВШЭ, Москва, 2012.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Корреляционные зависимости. Регрессионная модель это функция, описывающая зависи- мость между количественными характеристиками сложных систем. это функция,
Лекция по МОП ТЕМА: Измерение связи двух признаков.
Транксрипт:

Кластерный анализ Подготовил: Евгений Дзень

1.Суть кластерного анализа 2.История возникновения метода 3.Рассмотрение типичной задачи (с использованием STATISTICA 8.0) 4.Методы кластерного анализа и его специфика 5.Меры расстояния 6.Алгоритмы объединения в кластеры 7.Рассмотрение примера из сферы бизнеса

1.Суть кластерного анализа 2.История возникновения метода 3.Рассмотрение типичной задачи (с использованием STATISTICA 8.0) 4.Методы кластерного анализа и его специфика 5.Меры расстояния 6.Алгоритмы объединения в кластеры 7.Рассмотрение примера из сферы бизнеса

Животные подразделяются на : а) принадлежащих императору; б) набальзамированных; в) дрессированных; г) молочных поросят; д) сирен; е) сказочных; ж) бродячих собак; з) включённых в данную классификацию; и) дрожащих, как сумасшедшие; к) неисчислимых; л) нарисованных самой лучшей верблюжьей кисточкой; м) других; н) тех, которые только что разбили цветочную вазу и о) тех, которые издалека напоминают мух. (Хорхе Луис Борхес, Другие исследования: ).

Генеральная совокупность Cluster 1 Cluster 2 Cluster 1.1 Cluster 1.2 Cluster 2.2 Cluster 2.1

1.Суть кластерного анализа 2.История возникновения метода 3.Рассмотрение типичной задачи (с использованием STATISTICA 8.0) 4.Методы кластерного анализа и его специфика 5.Меры расстояния 6.Алгоритмы объединения в кластеры 7.Рассмотрение примера из сферы бизнеса

Первые работы, описывающие методы кластерного анализа относятся к концу 30-х годов. Считается, что термин «кластерный анализ» первым в употребление ввёл американский психолог из университета Беркли Роберт Трайон (Robert C. Tryon) в Однако активный интерес к данной теме пришёлся на период гг. Импульсом для разработки многих кластерных методов послужила книга «Начала численной таксономии», опубликованная в 1963 г. двумя биологами Робертом Сокэлом и Петером Снитом (Sneath, Sokal).

1.Суть кластерного анализа 2.История возникновения метода 3.Рассмотрение типичной задачи (с использованием STATISTICA 8.0) 4.Методы кластерного анализа и его специфика 5.Меры расстояния 6.Алгоритмы объединения в кластеры 7.Рассмотрение примера из сферы бизнеса

В исходной таблице мы имеем данные по группе студентов за истекший семестр Проведя регрессионный анализ, мы выяснили, что между двумя параметрами (Time, Score) имеется устойчивая положительная линейная зависимость (коэффициент корреляции Пирсона = 0,68 при α=0,05) Взглянем на наши данные построив диаграмму рассеяния…

Как можно охарактеризовать такую неоднородность? Какие группы объектов можно выделить?

Древовидная кластеризация Кластеризация по методу K-средних Двувходовое объединение

Не существует единственно правильной априорной разбивки на кластеры. Поэтому нужно пробовать разные варианты разбивки. Выделяют два критерия «хорошей» разбивки на кластеры: ПЕРВЫЙ формальный связан с тем, что объекты одной группы заметно отличаются от объектов другой группы по всем включенным в анализ переменным; ВТОРОЙ содержательный определяется возможностью разумной интерпретации каждого кластера.

График показывает, что кластеры заметно отлича- ются по переменной «вре- мя» и практически не отли- чаются по переменной «оценка». Таким образом, вторая переменная являет- ся как бы лишней, не добавляя никакой информации. Почему так происходит? Обратим внимание на то, что для измерения переменной «время» исполь- зуются трехзначные числа, а для переменной «оценка» одноразрядные. Решение данной проблемы – стандартизация данных!

Как сделать переменные равноправными в образовании кластеров? ИТОГ: мы получим значения переменных, колеблющиеся около нуля. Добьёмся этого средствами STATISTICA 8.0 ->

А теперь повторим процедуру кластерного анализа с «новыми» переменными…

Графики информируют нас о том, что студентов можно разбить на две группы, при этом первая группа характеризуется низкой посещаемостью класса (переменная «Time» равна -0,9097, т.е. время значительно ниже среднего) и низкими результатами на экзамене (переменная «Score» также существенно ниже средней и равна -0,8062). До стандартизацииПосле

Цифры на картинке справа обозначают расстояния каждого объекта (в рассматриваемом примере студента) до центра кластера. Поскольку центр клас- тера характеризует кластер, то чем меньше расстояния до центра, тем типичнее объект для данного кластера. По Кластеру1 Евклидово расстояние между кластерами Поэлементный состав Кластера1

Выделяя три кластера, мы видим, что два из них весьма похожи на те кластеры, которых было только два. Смысл третьего кластера любопытен: фактически имеется группа студентов, которые довольно вяло посещали дополнительные самостоятель- ные занятия, но получили средние, а вовсе не плохие оценки. Разбиение, число кластеров=3 Вывод напрашивается сам собой: либо эти студенты вообще «продвинуты» в компьютерных технологиях и им на освоение нового программного продукта требуется гораздо меньше времени, либо они имеют изучаемые программы дома и работают c ними довольно много. Интерпретация

При разбивке на четыре кластера новый кластер обнаруживает группу студентов (в количестве 4 человек), которые, хотя и усердно посещали компьютерный класс, на экзамене показали посредственные результаты. Разбиение, число кластеров=4 Либо это просто слабые студенты, либо то, чем они занимались в компьютерном классе, имеет весьма отдаленное отношение к изучаемому предмету. Особое значение проведенному анализу придает то, что мы можем выделить пофамильно студентов каждого кластера. Интерпретация

1.Суть кластерного анализа 2.История возникновения метода 3.Рассмотрение типичной задачи (с использованием STATISTICA 8.0) 4.Методы кластерного анализа и его специфика 5.Меры расстояния 6.Алгоритмы объединения в кластеры 7.Рассмотрение примера из сферы бизнеса

Методы кластерного анализа относятся к так называемым многомерным методам. Перед исследователем находится поле из множества объектов, каждый из которых описывается множеством переменных. Методы кластерного анализа позволяют разбить изучаемую совокупность объектов на группы объектов. Кластерный анализ делится на несколько этапов. 1.Спецификация проблемы, т. е. выбор переменных, на основе которых будет производиться кластеризация. 2.Выбор меры расстояния между объектами. 3.Преобразование переменных. 4.Выбор метода кластеризации. 5.Задание количества кластеров. 6.Интерпретация полученных результатов. 7.Оценка эффективности кластерного анализа.

1.АГГЛОМЕРАТИВНЫЕ Исследователь начинает с создания элементарных кластеров, каждый из которых состоит только из одного исходного наблюдения (одной точки), а на каждом последующем шаге происходит объединение двух наиболее близких кластеров в один. Графически процесс может быть представлен в виде дендрограммы, что позволяет видеть величину расстояния, на котором соответствующие элементы связываются в новый кластер. 2.ДИВИЗИВНЫЕ Разбивка кластеров происходит непосредственно при заданном заранее числе кластеров. Метод K-средних строит ровно K различных кластеров, расположенных на возможно больших расстояниях друг от друга

1.Суть кластерного анализа 2.История возникновения метода 3.Рассмотрение типичной задачи (с использованием STATISTICA 8.0) 4.Методы кластерного анализа и его специфика 5.Меры расстояния 6.Алгоритмы объединения в кластеры 7.Рассмотрение примера из сферы бизнеса

Для того чтобы определить близость, или схожесть, различных объектов, необходимо ввести некоторую количественную величину, характеризующую эту близость (схожесть). Естественным представляется ввести некоторую меру расстояния между объектами, аналогичную обычному физическому пространству. Каждый объект будет представляться точкой в многомерном пространстве признаков. В таком случае кластеры будут выглядеть как скопления этих точек своего рода «галактики» в «космическом пространстве».

В кластерном анализе используют следующие меры для измерения расстояний. 1. Евклидово расстояние (Euclidean distances). Наиболее общий тип расстояния. Хорошо известное из школьного курса как геометрическое расстояние. Вычисляется по формуле (по исходным, а не по стандартизованным данным): расстояние(x,y) = [Σ i (x i - y i ) 2 ] 1/2 2. Квадрат евклидова расстояния (Squared Euclidean distances). Применяется, чтобы придать большие веса более отдаленным друг от друга объектам: расстояние(x,y) = Σ i (x i - y i ) 2 3. Расстояние городских кварталов (City-block (Manhattan) distances). В большинстве случаев эта мера расстояния приводит к таким же результатам, как и для обычного расстояния Евклида. Однако для этой меры влияние отдельных больших разностей (выбросов) уменьшается (так как они не возводятся в квадрат). расстояние(x,y) = Σ i |x i - y i |

4. Расстояние Чебышева (Chebychev ditances metric). Это расстояние может оказаться полезным, когда желают определить два объекта как "различные", если они различаются по какой-либо одной координате (каким-либо одним измерением). расстояние(x,y) = Максимум|x i - y i | 5. Степенное расстояние. Иногда желают прогрессивно увеличить или уменьшить вес, относящийся к размерности, для которой соответствующие объекты сильно отличаются. Это может быть достигнуто с использованием степенного расстояния: расстояние(x,y) = (Σ i |x i - y i | p ) 1/r где r и p - параметры, определяемые пользователем. Если оба они равны 2, то это расстояние совпадает с расстоянием Евклида. 6. Процент несогласия (Percent disagreement). Эта мера используется в тех случаях, когда данные являются категориальными. расстояние(x,y) = (Количество x i y i )/ i

1.Суть кластерного анализа 2.История возникновения метода 3.Рассмотрение типичной задачи (с использованием STATISTICA 8.0) 4.Методы кластерного анализа и его специфика 5.Меры расстояния 6.Алгоритмы объединения в кластеры 7.Рассмотрение примера из сферы бизнеса

На первом шаге мы измерили расстояния между нашими объектами, которые и рассматриваем в качестве первичных кластеров. Далее встаёт вопрос: По какому правилу следует производить дальнейшее объединение? Для этого также используется ряд методов. 1. Метод ближайшего соседа (одиночная связь, Single linkage). Расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами («ближайшими соседями») в различных кластерах. Это правило похоже на «нанизывание» объектов для формирования кластеров, и результирующие кластеры имеют тенденцию быть представлены длинными «цепочками».

2.Метод наиболее удаленного соседа (полная связь, Complete linkage). Расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах. 3.Невзвешенное попарное среднее (Unweighted pair- group average). Расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. 5.Взвешенное попарное среднее (Weighted pair-group average). Метод идентичен предыдущему за исключением того, что при вычислениях размер соответствующих кластеров (т. е. число содержащихся в них объектов) используется в качестве весового коэффициента. Поэтому предпочтительней использовать данный метод, если есть предположение о неравных размерах кластеров.

5.Невзвешенный центроидный метод (Unweighted pair- group centroid). В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести. 6.Взвешенный центроидный метод (медиана). Этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). 7.Метод Варда (Ward's method). Этот метод отличается от всех других методов, поскольку для оценки расстояний между кластерами он использует методы дисперсионного анализа. Метод минимизирует сумму квадратов для любых двух (гипотетических) кластеров, которые могут быть сформированы на каждом шаге. В целом метод представляется очень эффективным, однако он стремится создавать кластеры малого размера.

1.Суть кластерного анализа 2.История возникновения метода 3.Рассмотрение типичной задачи (с использованием STATISTICA 8.0) 4.Методы кластерного анализа и его специфика 5.Меры расстояния 6.Алгоритмы объединения в кластеры 7.Рассмотрение примера из сферы бизнеса

«КРИТИЧЕСКИЕ ФАКТОРЫ УСПЕХА ПРОЕКТА: НЕКОТОРЫЕ АСПЕКТЫ УПРАВЛЕНИЯ IT-ПРОЕКТАМИ В КИТАЕ» Логика проведения анализа данных: 1.Анализ надёжности и достоверности 2.Факторный анализ 3.Кластерный анализ

«КРИТИЧЕСКИЕ ФАКТОРЫ УСПЕХА ПРОЕКТА: НЕКОТОРЫЕ АСПЕКТЫ УПРАВЛЕНИЯ IT-ПРОЕКТАМИ В КИТАЕ»

«КРИТИЧЕСКИЕ ФАКТОРЫ УСПЕХА ПРОЕКТА: НЕКОТОРЫЕ АСПЕКТЫ УПРАВЛЕНИЯ IT-ПРОЕКТАМИ В КИТАЕ»

Спасибо за внимание !