Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних.

Презентация:



Advertisements
Похожие презентации
Кластерный анализ в программе STATISTICA. ЛИТЕРАТУРА: 1.Вуколов Э.А. Основы статистического анализа. Практикум по статистическим методам и исследованию.
Advertisements

Анализ исполнения консолидированных бюджетов субъектов Российской Федерации, входящих в состав Южного федерального округа, в январе-декабре 2009 года.
Межрегиональное управление Министерства регионального развития Российской Федерации по Северо-Кавказскому федеральному округу Социально-экономическое развитие.
Анализ исполнения консолидированных бюджетов субъектов Российской Федерации, входящих в состав Южного федерального округа, в январе-сентябре 2009 года.
Анализ исполнения консолидированных бюджетов субъектов Российской Федерации, входящих в состав Южного федерального округа, в январе-октябре 2009 года.
О достижении в Ставропольском крае целевых показателей программ по реализации приоритетных национальных проектов на годы и I полугодие 2013 года.
Межрегиональное управление Министерства регионального развития Российской Федерации по Северо-Кавказскому федеральному округу Социально-экономическое развитие.
Excel_повторение
Лабораторная работа 2 «Уровень и качество жизни населения РФ» Силантьев В.Б. Филиал ВЗФЭИ в г. Уфе Кафедра ЭММ Ноябрь 2011.
Тема урока: «Статистический метод в изучении географии» Практическая работа 2 «Использование статистического метода в обработке данных переписи населения.
Разработка комплекса программ для кластерного анализа регионов Сибирского федерального округа Исполнитель: Пилиненская Анна Александровна Научный руководитель:
Лекция 6 множественная регрессия и корреляция. ( продолжение )
Исследование физических моделей Преподаватель Иванская С.А.
Использование прикладного ПО для решения задач по теме «Линейная парная регрессия»
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г.22 сентября 2012 г. Лекция 10. Однофакторный дисперсионный анализ Задача дисперсионного.
ПОВТОРЕНИЕ 1. Сколько входит ячеек в блок А1:С3? 9 ячеек.
Построение диаграмм в электронной таблице MS Excel.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Графический метод решения задач математического программирования 1. Общий вид задачи математического программирования Z = F(X) >min Z = F(X) >min g i (x.
Транксрипт:

Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних

Х1 – численность населения на 1 января 2009 г., тыс. человек; Х2 – среднедушевые денежные доходы (в месяц), руб.; Х3 – потребительские расходы в среднем на душу населения (в месяц), руб.; Х4 – валовой региональный продукт в 2007 г., млн. руб.; Х5 – продукция сельского хозяйства, млн. руб.; Х6 – ввод в действие общей площади жилых домов, тыс. м 2 ; Х7 – оборот розничной торговли, млн. руб. Далее проведем кластеризацию регионов методом k-средних

В окне диалога Анализ кластера выбираем K-Means clustering

В появившемся окне диалога необходимо указать все переменные (ЛКМ по кнопке Variables и выбрать все переменные)

В открывающемся списке Cluster выбрать Cases (rows) – разбивать на кластеры строки (регионы)

Указать количество кластеров (Number of clusters) равным 2 Последовательно будем увеличивать число кластеров начиная с двух и анализировать качество разбиения на кластеры

Остальные параметры в окне диалога оставим без изменения Number of iterations – максимальное число итераций, которое необходимо выполнить (если стабилизация кластеров не произойдет за меньшее число итераций) В нашем случае стабилизация произойдет меньше чем за 10 итераций, установленных по умолчанию

Раздел Initial cluster centers – способ определения начальных центров кластеров: -Choose observations to maximize initial between-cluster distances (выбрать наблюдения, максимизирующие начальные расстояния между кластерами) -Sort distances and take observations at constant intervals (сортировать расстояния и выбрать наблюдения на постоянных интервалах) -Choose the first N (Number of clusters) observations (выбрать первые N наблюдений) Можно оставить по умолчанию Будем менять, если не будет хватать итераций для достижения стабилизации кластеров или для проверки получения другого решения

После нажатия кнопки Ok появляется окно диалога для вывода результатов анализа (на вкладке Advanced расширенный набор результатов) В верхней части указана общая информация : -Число переменных: 7 -Число наблюдений: 13 -Метод k-средних -Обработка пропущенных значений пропущена -Число кластеров: 2 -Решение найдено за 1 итерацию

Кнопка Summary: Clusters means & Euclidean distances позволяет вывести информацию о координатах центров кластеров и показать матрицу расстояний между кластерами (используется евклидова метрика) Основной задачей метода является получить кластеры различные настолько, на сколько это возможно Поэтому центры кластеров должны максимально отличаться друг от друга (наглядно это видно на графике)

Кнопка Summary: Clusters means & Euclidean distances позволяет вывести информацию о координатах центров кластеров и показать матрицу расстояний между кластерами (используется евклидова метрика) Основной задачей метода является получить кластеры различные настолько, на сколько это возможно Поэтому чем больше расстояние между кластерами, тем лучше Ниже главной диагонали евклидово расстояние между кластерами, а выше главной диагонали – квадрат евклидова расстояния между кластерами

Кнопка Analysis of variance выводит таблицу дисперсионного анализа В таблице приведены значения межгрупповых (Between SS) и внутригрупповых (Within SS) дисперсий признаков. Чем меньше значение внутригрупповой дисперсии и больше значение межгрупповой дисперсии, тем лучше признак характеризует принадлежность объектов к кластеру и тем качественнее кластеризация О качестве кластеризации можно судить и по величине значения F- критерия (чем больше, тем лучше) и уровня значимости p (чем меньше, тем лучше). Признаки с уровнем значимости p>0,05 можно из процедуры кластеризации исключить

Кнопка Analysis of variance выводит таблицу дисперсионного анализа Для двух кластеров результаты дисперсионного анализа говорят о хорошем качестве кластеризации: уровень значимости p везде меньше 5%, только для признака Х2 уровень значимости почти 3%

Кнопка Graph of means позволяет просмотреть средние значения для каждого кластера на линейном графике Такое расположение координат центров кластеров говорит об очень хорошем качестве кластеризации Нам удалось разбить регионы на две далеко отстоящие друг от друга группы

Кнопка Members of each clusters & distances предназначена для просмотра распределения объектов по кластерам В таблице указаны расстояния от каждого объекта до центра кластера

Интерпретация результатов кластеризации Кластер 1: Республика Дагестан Краснодарский край Ставропольский край Волгоградская область Ростовская область Кластер 2: Остальные регионы

Интерпретация результатов кластеризации Кластер 1: Республика Дагестан Краснодарский край Ставропольский край Волгоградская область Ростовская область Кластер 2: Остальные регионы На графике координат центров кластеров видно, что средние значения всех признаков в первом кластере значительно выше, чем соответствующие показатели во втором кластере

Сравнение результатов кластеризации Метод k-средних Кластер 1: Республика Дагестан Краснодарский край Ставропольский край Волгоградская область Ростовская область Кластер 2: Остальные регионы Иерархические алгоритмы 1 кластер: 1) Республика Адыгея 6) Карачаево-Черкесская Республика 4) Кабардино-Балкарская Республика 7) Республика Северная Осетия 11) Астраханская область 2 кластер: 3) Республика Ингушетия 5) Республика Калмыкия 8) Чеченская республика 3 кластер: 2) Республика Дагестан 10) Ставропольский край 12) Волгоградская область 4 кластер: 9) Краснодарский край 13) Ростовская область Полученные два кластера – это объединенные из выделенных ранее кластеров 3,4 и 1,2

Повторим кластеризацию методом k-средних, последовательно увеличивая число кластеров Три кластера Линейный график средних значений признаков для каждого кластера Также получили достаточно хорошее разбиение на кластеры. Все координаты центров кластеров различны, причем значения в первом кластере самые большие, во втором меньше, а в третьем еще меньше Особенно значительно отличается первый кластер от второго и третьего

Результаты дисперсионного анализа Три кластераДва кластера Сравнивая результаты дисперсионного анализа для двух и трех кластеров, видим, что для трех кластеров заметно увеличились значения внутригрупповых дисперсий, при небольшом снижении межгрупповых дисперсия для трех кластеров Также в случае трех кластеров признак Х2 стал играть более существенную роль и его значение p сильно снизилось с 3% до 0,05%

Вывод Разбиение регионов на три кластера можно считать приемлемым: показатели в первом кластере наиболее высокие, во втором кластере – средние, в третьем кластере – самые низкие Состав кластеров Разбиение на 2 кластера Кластер 1: Республика Дагестан Краснодарский край Ставропольский край Волгоградская область Ростовская область Кластер 2: Остальные регионы В новом разбиении из первого кластера выделили Краснодарский край и Ростовскую область Второй кластер остался без изменений

Продолжим кластеризацию методом k-средних, последовательно увеличивая число кластеров Четыре кластераПять кластеров В случае пяти кластеров значительное ухудшение показателей различия между несколькими кластерами – отдельные координаты в разных кластерах мало отличаются друг от друга Поэтому дальнейшее увеличение числа кластеров ухудшает качество кластеризации

Четыре кластера В случае четырех кластеров по признаку Х1 совпадают координаты третьего и четвертого кластера, а остальные координаты отличаются Поэтому кластеризацию на 4 группы можно признать удовлетворительной Также сохраняется распределение регионов возрастанию рассматриваемых показателей

Четыре кластера Результаты дисперсионного анализа для четырех кластеров еще более улучшились: На низком уровне находится внутригрупповая дисперсия и на высоком межгрупповая; значения F-критерия высокие, уровни значимости меньше 1%

Состав четырех кластеров совпадает с выделенным ранее иерархическими методами кластеризации 1 кластер: 1) Республика Адыгея 6) Карачаево-Черкесская Республика 4) Кабардино-Балкарская Республика 7) Республика Северная Осетия 11) Астраханская область 2 кластер: 3) Республика Ингушетия 5) Республика Калмыкия 8) Чеченская республика 3 кластер: 2) Республика Дагестан 10) Ставропольский край 12) Волгоградская область 4 кластер: 9) Краснодарский край 13) Ростовская область По сравнению с кластеризацией методом k-средних на три группы из самого многочисленного кластера с низкими значениями показателей выделили: Республику Ингушетия Республику Калмыкия Чеченскую республику, у которых эти значения больше

Исходные показатели регионов и средние по кластерам Х1 – численность населения на 1 января 2009 г., тыс. человек; Х2 – среднедушевые денежные доходы (в месяц), руб.; Х3 – потребительские расходы в среднем на душу населения (в месяц), руб.; Х4 – валовой региональный продукт в 2007 г., млн. руб.; Х5 – продукция сельского хозяйства, млн. руб.; Х6 – ввод в действие общей площади жилых домов, тыс. м 2 ; Х7 – оборот розничной торговли, млн. руб.