Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних. - презентация

Презентация на тему: " Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних." — Транскрипт:

1 Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних

2 Х1 – численность населения на 1 января 2009 г., тыс. человек; Х2 – среднедушевые денежные доходы (в месяц), руб.; Х3 – потребительские расходы в среднем на душу населения (в месяц), руб.; Х4 – валовой региональный продукт в 2007 г., млн. руб.; Х5 – продукция сельского хозяйства, млн. руб.; Х6 – ввод в действие общей площади жилых домов, тыс. м 2 ; Х7 – оборот розничной торговли, млн. руб. Далее проведем кластеризацию регионов методом k-средних

3 В окне диалога Анализ кластера выбираем K-Means clustering

4 В появившемся окне диалога необходимо указать все переменные (ЛКМ по кнопке Variables и выбрать все переменные)

5 В открывающемся списке Cluster выбрать Cases (rows) – разбивать на кластеры строки (регионы)

6 Указать количество кластеров (Number of clusters) равным 2 Последовательно будем увеличивать число кластеров начиная с двух и анализировать качество разбиения на кластеры

7 Остальные параметры в окне диалога оставим без изменения Number of iterations – максимальное число итераций, которое необходимо выполнить (если стабилизация кластеров не произойдет за меньшее число итераций) В нашем случае стабилизация произойдет меньше чем за 10 итераций, установленных по умолчанию

8 Раздел Initial cluster centers – способ определения начальных центров кластеров: -Choose observations to maximize initial between-cluster distances (выбрать наблюдения, максимизирующие начальные расстояния между кластерами) -Sort distances and take observations at constant intervals (сортировать расстояния и выбрать наблюдения на постоянных интервалах) -Choose the first N (Number of clusters) observations (выбрать первые N наблюдений) Можно оставить по умолчанию Будем менять, если не будет хватать итераций для достижения стабилизации кластеров или для проверки получения другого решения

9 После нажатия кнопки Ok появляется окно диалога для вывода результатов анализа (на вкладке Advanced расширенный набор результатов) В верхней части указана общая информация : -Число переменных: 7 -Число наблюдений: 13 -Метод k-средних -Обработка пропущенных значений пропущена -Число кластеров: 2 -Решение найдено за 1 итерацию

10 Кнопка Summary: Clusters means & Euclidean distances позволяет вывести информацию о координатах центров кластеров и показать матрицу расстояний между кластерами (используется евклидова метрика) Основной задачей метода является получить кластеры различные настолько, на сколько это возможно Поэтому центры кластеров должны максимально отличаться друг от друга (наглядно это видно на графике)

11 Кнопка Summary: Clusters means & Euclidean distances позволяет вывести информацию о координатах центров кластеров и показать матрицу расстояний между кластерами (используется евклидова метрика) Основной задачей метода является получить кластеры различные настолько, на сколько это возможно Поэтому чем больше расстояние между кластерами, тем лучше Ниже главной диагонали евклидово расстояние между кластерами, а выше главной диагонали – квадрат евклидова расстояния между кластерами

12 Кнопка Analysis of variance выводит таблицу дисперсионного анализа В таблице приведены значения межгрупповых (Between SS) и внутригрупповых (Within SS) дисперсий признаков. Чем меньше значение внутригрупповой дисперсии и больше значение межгрупповой дисперсии, тем лучше признак характеризует принадлежность объектов к кластеру и тем качественнее кластеризация О качестве кластеризации можно судить и по величине значения F- критерия (чем больше, тем лучше) и уровня значимости p (чем меньше, тем лучше). Признаки с уровнем значимости p>0,05 можно из процедуры кластеризации исключить

13 Кнопка Analysis of variance выводит таблицу дисперсионного анализа Для двух кластеров результаты дисперсионного анализа говорят о хорошем качестве кластеризации: уровень значимости p везде меньше 5%, только для признака Х2 уровень значимости почти 3%

14 Кнопка Graph of means позволяет просмотреть средние значения для каждого кластера на линейном графике Такое расположение координат центров кластеров говорит об очень хорошем качестве кластеризации Нам удалось разбить регионы на две далеко отстоящие друг от друга группы

15 Кнопка Members of each clusters & distances предназначена для просмотра распределения объектов по кластерам В таблице указаны расстояния от каждого объекта до центра кластера

16 Интерпретация результатов кластеризации Кластер 1: Республика Дагестан Краснодарский край Ставропольский край Волгоградская область Ростовская область Кластер 2: Остальные регионы

17 Интерпретация результатов кластеризации Кластер 1: Республика Дагестан Краснодарский край Ставропольский край Волгоградская область Ростовская область Кластер 2: Остальные регионы На графике координат центров кластеров видно, что средние значения всех признаков в первом кластере значительно выше, чем соответствующие показатели во втором кластере

18 Сравнение результатов кластеризации Метод k-средних Кластер 1: Республика Дагестан Краснодарский край Ставропольский край Волгоградская область Ростовская область Кластер 2: Остальные регионы Иерархические алгоритмы 1 кластер: 1) Республика Адыгея 6) Карачаево-Черкесская Республика 4) Кабардино-Балкарская Республика 7) Республика Северная Осетия 11) Астраханская область 2 кластер: 3) Республика Ингушетия 5) Республика Калмыкия 8) Чеченская республика 3 кластер: 2) Республика Дагестан 10) Ставропольский край 12) Волгоградская область 4 кластер: 9) Краснодарский край 13) Ростовская область Полученные два кластера – это объединенные из выделенных ранее кластеров 3,4 и 1,2

19 Повторим кластеризацию методом k-средних, последовательно увеличивая число кластеров Три кластера Линейный график средних значений признаков для каждого кластера Также получили достаточно хорошее разбиение на кластеры. Все координаты центров кластеров различны, причем значения в первом кластере самые большие, во втором меньше, а в третьем еще меньше Особенно значительно отличается первый кластер от второго и третьего

20 Результаты дисперсионного анализа Три кластераДва кластера Сравнивая результаты дисперсионного анализа для двух и трех кластеров, видим, что для трех кластеров заметно увеличились значения внутригрупповых дисперсий, при небольшом снижении межгрупповых дисперсия для трех кластеров Также в случае трех кластеров признак Х2 стал играть более существенную роль и его значение p сильно снизилось с 3% до 0,05%

21 Вывод Разбиение регионов на три кластера можно считать приемлемым: показатели в первом кластере наиболее высокие, во втором кластере – средние, в третьем кластере – самые низкие Состав кластеров Разбиение на 2 кластера Кластер 1: Республика Дагестан Краснодарский край Ставропольский край Волгоградская область Ростовская область Кластер 2: Остальные регионы В новом разбиении из первого кластера выделили Краснодарский край и Ростовскую область Второй кластер остался без изменений

22 Продолжим кластеризацию методом k-средних, последовательно увеличивая число кластеров Четыре кластераПять кластеров В случае пяти кластеров значительное ухудшение показателей различия между несколькими кластерами – отдельные координаты в разных кластерах мало отличаются друг от друга Поэтому дальнейшее увеличение числа кластеров ухудшает качество кластеризации

23 Четыре кластера В случае четырех кластеров по признаку Х1 совпадают координаты третьего и четвертого кластера, а остальные координаты отличаются Поэтому кластеризацию на 4 группы можно признать удовлетворительной Также сохраняется распределение регионов возрастанию рассматриваемых показателей

24 Четыре кластера Результаты дисперсионного анализа для четырех кластеров еще более улучшились: На низком уровне находится внутригрупповая дисперсия и на высоком межгрупповая; значения F-критерия высокие, уровни значимости меньше 1%

25 Состав четырех кластеров совпадает с выделенным ранее иерархическими методами кластеризации 1 кластер: 1) Республика Адыгея 6) Карачаево-Черкесская Республика 4) Кабардино-Балкарская Республика 7) Республика Северная Осетия 11) Астраханская область 2 кластер: 3) Республика Ингушетия 5) Республика Калмыкия 8) Чеченская республика 3 кластер: 2) Республика Дагестан 10) Ставропольский край 12) Волгоградская область 4 кластер: 9) Краснодарский край 13) Ростовская область По сравнению с кластеризацией методом k-средних на три группы из самого многочисленного кластера с низкими значениями показателей выделили: Республику Ингушетия Республику Калмыкия Чеченскую республику, у которых эти значения больше

26 Исходные показатели регионов и средние по кластерам Х1 – численность населения на 1 января 2009 г., тыс. человек; Х2 – среднедушевые денежные доходы (в месяц), руб.; Х3 – потребительские расходы в среднем на душу населения (в месяц), руб.; Х4 – валовой региональный продукт в 2007 г., млн. руб.; Х5 – продукция сельского хозяйства, млн. руб.; Х6 – ввод в действие общей площади жилых домов, тыс. м 2 ; Х7 – оборот розничной торговли, млн. руб.

Скачать бесплатно презентацию на тему "Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних." в формате .ppt (PowerPoint)

Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних. - презентация

Похожие презентации

Презентация на тему: " Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних." — Транскрипт:

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь

Вход в систему

Войти с помощью социльных сетей

Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних. - презентация

Похожие презентации

Презентация на тему: " Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних." — Транскрипт:

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь