Кластерный анализ в программе STATISTICA. ЛИТЕРАТУРА: 1.Вуколов Э.А. Основы статистического анализа. Практикум по статистическим методам и исследованию.

Презентация:



Advertisements
Похожие презентации
Кластерный анализ в программе STATISTICA Продолжение: Метод k-средних.
Advertisements

Анализ исполнения консолидированных бюджетов субъектов Российской Федерации, входящих в состав Южного федерального округа, в январе-декабре 2009 года.
Использование прикладного ПО для решения задач по теме «Линейная парная регрессия»
Анализ исполнения консолидированных бюджетов субъектов Российской Федерации, входящих в состав Южного федерального округа, в январе-октябре 2009 года.
Анализ исполнения консолидированных бюджетов субъектов Российской Федерации, входящих в состав Южного федерального округа, в январе-сентябре 2009 года.
Межрегиональное управление Министерства регионального развития Российской Федерации по Северо-Кавказскому федеральному округу Социально-экономическое развитие.
О достижении в Ставропольском крае целевых показателей программ по реализации приоритетных национальных проектов на годы и I полугодие 2013 года.
Лабораторная работа 2 «Уровень и качество жизни населения РФ» Силантьев В.Б. Филиал ВЗФЭИ в г. Уфе Кафедра ЭММ Ноябрь 2011.
Подготовила: Зобнина Руфина Фаильевна, Педагог дополнительного образования МОУ ДОД МЦДО «Лидер»
Презентация к уроку по географии (9 класс) по теме: Европейский юг- Северный Кавказ
Печать документов Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноармейск 2009 г.
Управление компьютером с помощью меню.. Элементы окна программы:
Редактор формул (Microsoft Equation), входит в комплект поставки Microsoft Office 2003 и позволяет вставлять в текст документа математические формулы.
Методика сопоставительной оценки уровня государственного управления в субъектах Российской Федерации на примере регионов Южного федерального округа 24.
Анализ данных Кластеризация. План лекции Иерархические алгоритмы (пример: алгоритм ближайшего соседа) Итеративные алгоритмы (пример: k-means) Плотностные.
Межрегиональное управление Министерства регионального развития Российской Федерации по Северо-Кавказскому федеральному округу Социально-экономическое развитие.
Интерфейс электронных таблиц. Данные в ячейках таблицы. Основные режимы работы.
Урок 3. Формы представления данных (таблицы, формы, запросы, отчеты)
2 Точечная диаграмма Точечную диаграмму удобно использовать, когда необходимо проследить, как меняется одна величина (в данном случае сила тока I), в.
Электронные таблицы. Графики. Диаграммы. Гистограммы.
Транксрипт:

Кластерный анализ в программе STATISTICA

ЛИТЕРАТУРА: 1.Вуколов Э.А. Основы статистического анализа. Практикум по статистическим методам и исследованию операций с использованием пакетов STATISTICA и EXCEL. - М.: Форум, с. 2.Халафян А.А. Statistica 6. Статистический анализ данных. - М.: Бином-Пресс, с.

Рассмотрим некоторые основные социально- экономические показатели регионов Южного федерального округа РФ за 2008 год (источник: Х1 – численность населения на 1 января 2009 г., тыс. человек; Х2 – среднедушевые денежные доходы (в месяц), руб.; Х3 – потребительские расходы в среднем на душу населения (в месяц), руб.; Х4 – валовой региональный продукт в 2007 г., млн. руб.; Х5 – продукция сельского хозяйства, млн. руб.; Х6 – ввод в действие общей площади жилых домов, тыс. м 2 ; Х7 – оборот розничной торговли, млн. руб.

Х1 – численность населения на 1 января 2009 г., тыс. человек; Х2 – среднедушевые денежные доходы (в месяц), руб.; Х3 – потребительские расходы в среднем на душу населения (в месяц), руб.; Х4 – валовой региональный продукт в 2007 г., млн. руб.; Х5 – продукция сельского хозяйства, млн. руб.; Х6 – ввод в действие общей площади жилых домов, тыс. м 2 ; Х7 – оборот розничной торговли, млн. руб.

1.Запускаем программу Statistica 2.Создаем новый документ (Create New Document): В меню Файл выбрать команду Новый… 3.В появившемся окне диалога указываем количество переменных – 7 (число параметров), число регистров – 13 (число регионов). Нажать Ok.

В появившейся таблице вводим исходную информацию

Стандартизируем данные, т.к. они имеют разную размерность: - выделить столбцы - правой кнопкой мыши (ПКМ) по названию любого столбца – переменной вызвать контекстное меню - выбрать команду Fill/Standardize Block Standardize Columns

Стандартизируем данные Результат стандартизации по формуле:

Вызываем диалог кластерного анализа Меню Статистика / Многомерные исследовательские методы / Анализ кластера

В появившемся окне диалога выбираем иерархические агломеративные методы Joining (tree clustering)

Открываем вкладку Advanced

Выбираем переменные - кнопка Variables - в открывшемся окне диалога выбрать все переменные (можно нажать кнопку Select All) - нажать кнопку Ok

В открывающемся списке Input file можно указать: - Raw data (исходные данные) - Distance matrix (матрица расстояний) Следует оставить Raw data (установлено по умолчанию)

В открывающемся списке Cluster надо указать: - Cases (rows) (строки) Кластеризовать надо регионы, а они расположены в строках

В открывающемся списке Amalgamation (linkage) rule (правило объединения в кластеры) можно указать: - Single Linkage (метод одиночной связи) - Complete Linkage (метод полной связи) - Unweighted pair-group average (метод невзвешенного попарного среднего) - Wards method (метод Уорда) - и другие

В открывающемся списке Distance measure (метрика – расстояние между объектами) можно указать: - Euclidean distance (евклидова метрика) - City-block Manhattan distance (манхеттенское расстояние городских кварталов) - Percent disagreement (процент несогласия) - и другие

Выберем метод одиночной связи и евклидову метрику После нажатия кнопки Ok появится окно, в котором можно выбрать результаты анализа (на вкладке Advanced расширенный набор результатов)

Кнопка Distance matrix выводит матрицу расстояний (с учетом выбранной метрики) Например, расстояние между объектами 1 и 2 равно 2,51 по евклидовой метрике – расстоянию между точками в пространстве размерности 7 (исходные данные стандартизированы)

Кнопка Horizontal hierarchical tree plot выводит дендограмму в горизонтальном виде Например, при уровне 1,0 (расстояние между кластерами не превышает одно стандартное отклонение) образовано 6 кластеров: 1 КЛАСТЕР: С1, С6, C4, C7, C112 КЛАСТЕР: C3, C5 3 КЛАСТЕР: С2, С10, C124 КЛАСТЕР: C8 5 КЛАСТЕР: С136 КЛАСТЕР: C9

Кнопка Amalgamation schedule выводит последовательность объединения в кластеры в виде таблицы При уровне 1,0 (расстояние между кластерами не превышает одно стандартное отклонение) образовано 6 кластеров (3 кластера содержат несколько объектов, а остальные 3 кластера по одному объекту): 1 КЛАСТЕР: C3, C5 4 КЛАСТЕР: C8 2 КЛАСТЕР: С2, С10, C12 5 КЛАСТЕР: C9 3 КЛАСТЕР: С1, С6, C4, C7, C116 КЛАСТЕР: С13

1 КЛАСТЕР: C3, C5 4 КЛАСТЕР: C8 2 КЛАСТЕР: С2, С10, C12 5 КЛАСТЕР: C9 3 КЛАСТЕР: С1, С6, C4, C7, C116 КЛАСТЕР: С13 Содержательная интерпретация 1 кластер: Республика Ингушетия Республика Калмыкия 2 кластер: Республика Дагестан Ставропольский край Волгоградская область 3 кластер: Республика Адыгея Карачаево-Черкесская Республика Кабардино-Балкарская Республика Республика Северная осетия Астраханская область 4 кластер: Чеченская республика 5 кластер: Краснодарский край 6 кластер: Ростовская область

Содержательная интерпретация 1 кластер: Республика Ингушетия Республика Калмыкия 2 кластер: Республика Дагестан Ставропольский край Волгоградская область 3 кластер: Республика Адыгея Карачаево-Черкесская Республика Кабардино-Балкарская Республика Республика Северная осетия Астраханская область 4 кластер: Чеченская республика 5 кластер: Краснодарский край 6 кластер: Ростовская область Замечание Возрастание номера кластера не означает возрастание характеристик регионов, входящих в состав кластера В кластерах с меньшим номером объекты расположены ближе друг к другу (плотнее) – были раньше объединены в один кластер

Рассмотрим результаты кластеризации по методу полной связи (Complete Linkage)

Те же самые кластеры (что и в методе одиночной связи на уровне 1,0) образованы уже на уровне 1,36: 1 КЛАСТЕР: С1, С6, C4, C7, C112 КЛАСТЕР: C3, C5 3 КЛАСТЕР: С2, С10, C124 КЛАСТЕР: C8 5 КЛАСТЕР: С136 КЛАСТЕР: C9 Хотя дальнейшее образование кластеров отличается от метода одиночной связи

Рассмотрим результаты кластеризации по методу средней связи (Unweighted pair-group average)

Те же самые кластеры образованы на уровне 1,18: 1 КЛАСТЕР: С1, С6, C4, C7, C112 КЛАСТЕР: C3, C5 3 КЛАСТЕР: С2, С10, C124 КЛАСТЕР: C8 5 КЛАСТЕР: С136 КЛАСТЕР: C9 Дальнейшее образование кластеров почти такое же как и в методе полной связи

Рассмотрим результаты кластеризации по методу Уорда (Wards method) Явно выделяется 4 кластера: 1 КЛАСТЕР: С1, С6, C4, C7, C11 2 КЛАСТЕР: C3, C5, С8 3 КЛАСТЕР: С2, С10, C12 4 КЛАСТЕР: C9, 13

1 КЛАСТЕР: С1, С6, C4, C7, C11 – точно совпадает с кластером, выделенным методом одиночной связи 2 КЛАСТЕР: C3, C5, С8 – добавился объект С8 3 КЛАСТЕР: С2, С10, C12 - точно совпадает с кластером, выделенным методом одиночной связи 4 КЛАСТЕР: C9, 13 – объединились объекты, составлявшие отдельные кластеры Результаты кластеризации методом одиночной связи:

Кластеризация методом Уорда 1 КЛАСТЕР: С1, С6, C4, C7, C11 2 КЛАСТЕР: C3, C5, С8 3 КЛАСТЕР: С2, С10, C12 4 КЛАСТЕР: C9, 13 Содержательная интерпретация 1 кластер: 1) Республика Адыгея 6) Карачаево-Черкесская Республика 4) Кабардино-Балкарская Республика 7) Республика Северная Осетия 11) Астраханская область 2 кластер: 3) Республика Ингушетия 5) Республика Калмыкия 8) Чеченская республика 3 кластер: 2) Республика Дагестан 10) Ставропольский край 12) Волгоградская область 4 кластер: 9) Краснодарский край 13) Ростовская область

Исходные показатели регионов и средние по кластерам Х1 – численность населения на 1 января 2009 г., тыс. человек; Х2 – среднедушевые денежные доходы (в месяц), руб.; Х3 – потребительские расходы в среднем на душу населения (в месяц), руб.; Х4 – валовой региональный продукт в 2007 г., млн. руб.; Х5 – продукция сельского хозяйства, млн. руб.; Х6 – ввод в действие общей площади жилых домов, тыс. м 2 ; Х7 – оборот розничной торговли, млн. руб.

Сравнение дендограмм разных методов Одиночная связь Полная связь Средняя связь Метод Уорда

Далее проведем кластеризацию методом k-средних