Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.

Презентация:



Advertisements
Похожие презентации
Графические способы представления информации Кластеры Автор презентации: Лебедева М. Б.
Advertisements

Средние величины. Средняя величина – обобщающая характеристика совокупности однотипных явлений по какому-либо количественно изменяющемуся признаку.
Тема 4: «Средние величины» Вопросы темы: 1.Сущность и значение средних величин 2.Научные принципы и условия расчета средних величин 3.Средняя арифметическая.
Статистические показатели Основная категория статистики – статистический показатель. Статистический показатель представляет собой результат обобщения информации.
Анализ данных Кластеризация. План лекции Иерархические алгоритмы (пример: алгоритм ближайшего соседа) Итеративные алгоритмы (пример: k-means) Плотностные.
Разработка алгоритмов на базе FRiS-функции Лекция 6.
С ТАТИСТИЧЕСКИЕ МЕТОДЫ ОБУЧЕНИЯ РАСПОЗНАВАНИЮ ОБРАЗОВ Студент гр Хиндикайнен А.С.
Проект : Ассоциативный поиск информации с помощью нейронных сетей. Задача: методы кластеризации данных.
Анализ предметных взаимосвязей по результатам оценки знаний студентов Научный руководитель: Штейнберг А.М Выполнила: Сухорукова Ольга.
Относительные статистические величины Лекция 3. относительные величины это обобщающие показатели, выражающие меру количественных соотношений, присущих.
Задачи комбинированного типа. Функция конкурентного сходства. Лекция 5.
Относительные статистические величины Лекция 3. относительные величины это обобщающие показатели, выражающие меру количественных соотношений, присущих.
РАДИОМЕТРИЧЕСКИЕ СВОЙСТВА СНИМКОВ И ИХ КОМПЬЮТЕРНАЯ ОБРАБОТКА.
Астафурова И.С. Кафедра «Бухгалтерский учет и аудит» Лекция 4.
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
РАЗДЕЛ 1. "ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ ОБЩЕСТВЕННОГО ЗДОРОВЬЯ И ОРГАНИЗАЦИИ ЗДРАВООХРАНЕНИЯ" Тема 1.2. «Основы медицинской статистики и организации статистического.
Модели принятия решений Задачи распознавания Детерминированный случай Распознавание при стохастических данных Показатели качества распознавания Оптимальный.
СТАТИСТИКА Громова Т.В. ст. преподаватель Кафедра менеджмента ИСГТ НТБ.
Анализ данных Кластеризация. План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать.
Кластерный анализ Минск Литература 1.Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Дж.-О.Ким, Ч.У.Мюллер, У.Р.Клекка и др.; Под.
Транксрипт:

Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов на заданное или неизвестное число классов на основании некоторого математического критерия качества классификации (cluster (англ.) гроздь, пучок, скопление, группа элементов, характеризуемых каким-либо общим свойством).

Критерий качества кластеризации в той или иной мере отражает следующие неформальные требования: а) внутри групп объекты должны быть тесно связаны между собой; б) объекты разных групп должны быть далеки друг от друга; в) при прочих равных условиях распределения объектов по группам должны быть равномерными. Требования а) и б) выражают стандартную концепцию компактности классов разбиения; требование в) состоит в том, чтобы критерий не навязывал объединения отдельных групп объектов.

Узловым моментом в кластерном анализе считается выбор метрики (или меры близости объектов), от которого решающим образом зависит окончательный вариант разбиения объектов на группы при заданном алгоритме разбиения. В каждой конкретной задаче этот выбор производится по-своему, с учетом главных целей исследования, физической и статистической природы используемой информации и т. п. При применении экстенсиональных методов распознавания, как было показано в предыдущих разделах, выбор метрики достигается с помощью специальных алгоритмов преобразования исходного пространства признаков.

Другой важной величиной в кластерном анализе является расстояние между целыми группами объектов. Приведем примеры наиболее распространенных расстояний и мер близости, характеризующих взаимное расположение отдельных групп объектов. Пусть i-я группа (класс, кластер) объектов, число объектов, образующих группу, вектор среднее арифметическое объектов, входящих в (другими словами: центр тяжести i-й группы), a расстояние между группами и

Рис. 1. Различные способы определения расстояния между кластерами и : 1 по центрам тяжести, 2 по ближайшим объектам, 3 по самым далеким объектам

Расстояние ближайшего соседа есть расстояние между ближайшими объектами кластеров: (1) Расстояние дальнего соседа расстояние между самыми дальними объектами кластеров: Расстояние центров тяжести равно расстоянию между центральными точками кластеров: (2) (3)

Обобщенное (по Колмогорову) расстояние между классами, или обобщенное K-расстояние, вычисляется по формуле (4) в частности, при при имеем: (5) (6)

Выбор той или иной меры расстояния между кластерами влияет, главным образом, на вид выделяемых алгоритмами кластерного анализа геометрических группировок объектов в пространстве признаков. Так, алгоритмы, основанные на расстоянии ближайшего соседа, хорошо работают в случае группировок, имеющих сложную, в частности, цепочечную структуру. Расстояние дальнего соседа применяется, когда искомые группировки образуют в пространстве признаков шаровидные облака. И промежуточное место занимают алгоритмы, использующие расстояния центров тяжести и средней связи, которые лучше всего работают в случае группировок эллипсоидной формы.

Многообразие алгоритмов кластерного анализа обусловлено также множеством различных критериев, выражающих те или иные аспекты качества автоматического группирования. Простейший критерий качества непосредственно базируется на величине расстояния между кластерами. Наиболее часто применяются критерии в виде отношений показателей "населенности" кластеров к расстоянию между ними. Это, например, может быть отношение суммы межклассовых расстояний к сумме внутриклассовых (между объектами) расстояний или отношение общей дисперсии данных к сумме внутриклассовых дисперсий и дисперсии центров кластеров.