Анализ данных Кластеризация. План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать.

Презентация:



Advertisements
Похожие презентации
Анализ данных Кластеризация. План лекции Иерархические алгоритмы (пример: алгоритм ближайшего соседа) Итеративные алгоритмы (пример: k-means) Плотностные.
Advertisements

Анализ данных Кластеризация. План лекции Модельные алгоритмы (пример: EM) Концептуальные алгоритмы (пример: COBWEB) Цель: Знакомство с основными алгоритмами.
Анализ предметных взаимосвязей по результатам оценки знаний студентов Научный руководитель: Штейнберг А.М Выполнила: Сухорукова Ольга.
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Кластеризация. Немного истории Первые публикации по кластерному анализу появились в конце 30-х гг. прошлого столетия. Активное развитие и широкое использование.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Кластерный анализ. Цель работы ознакомление с проблемой кластерного анализа при интеллектуальной обработке данных в информационных системах; изучение.
Классификация, кластеризация и поиск изображений на основе низкоуровневых характеристик Наталья Васильева Руководитель: Новиков Б. А.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ Белорусский государственный университет Факультет прикладной математики и информатики Кафедра математической.
КЛАСТЕРНЫЙ АНАЛИЗ. Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые.
КЛАСТЕРНЫЙ АНАЛИЗ. Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения. Термин кластерный анализ, впервые.
Веб-система агрегации и интеллектуального анализа проектов фриланс-бирж Докладчик: Савин И.И. 1.
Кластерный анализ Минск Литература 1.Факторный, дискриминантный и кластерный анализ: Пер. с англ. / Дж.-О.Ким, Ч.У.Мюллер, У.Р.Клекка и др.; Под.
Графические способы представления информации Кластеры Автор презентации: Лебедева М. Б.
Подход к выявлению подмножеств похожих документов А. Антонов, С. Баглей, В. Мешков { alexa, baglei, galaktika.ru.
Проект : Ассоциативный поиск информации с помощью нейронных сетей. Задача: методы кластеризации данных.
Кластерный анализ Демьянюк Антон Ромашина Мария Лисяк Марина НИУ ВШЭ, Москва, 2012.
Технология извлечения знаний из использования Интернет.
Система оценивания. Основные функции Нормативная Информационно-диагностическая Карательно -поощрительная Система оценивания.
Лекция по предмету интеллектуальные информационные системы Искусственный интеллект в обработке изображений и распознавании образов на них Автор: к.т.н.
Транксрипт:

Анализ данных Кластеризация

План лекции Определение кластеризации Применение кластеризации Общий алгоритм кластеризации Типы кластеризации Цели: Дать определение кластеризации Определить область применения и типы

Обучение с учителем Классификация: Набор для обучения Набор для проверки Набор объектов без класса Задача: присвоить объекту класс из имеющихся

Обучение без учителя Кластеризация: Набор данных Задача: найти полезное разбиение набора объектов

Определение Кластеризация – задача разбиения заданной выборки объектов на кластеры в зависимости от их схожести

Особенности кластеризации Заранее неизвестны характеристики кластеров Не всегда заранее известно количество кластеров

Применение кластеризации Основные цели: Выявление полезной информации из кластерной структуры (напр.: теории происхождения) Сжатие данных (напр.: при индексации веб- страниц) Обнаружение новизны (напр.: поиск трендов)

Сферы применения кластеризации Биология: – Поиск новых видов и теорий происхождения Социология – Поиск эффективных рабочих групп Информатика – Поиск групп похожих документов, изображений и прочих медиафайлов

Обобщенный алгоритм кластеризации 1.Приведение данных к нужному виду 2.Выбор меры близости 3.Выбор алгоритма кластеризации 4.Выполнение алгоритма над данными 5.Представление результатов алгоритма 6.Интерпретация результатов кластеризации

Меры близости Мера близости – представление близости между двумя объектами обычно выраженное числом Виды мер близости: Меры измерения расстояния между объектами по числовым шкалам Меры схожести признаков двух объектов по наборам атрибутов

Меры близости расстояния Евклидова метрика: Манхэттенское расстояние:

Меры близости расстояния Другие популярные метрики: Расстояние Минковского Расстояние Хэмминга Расстояние Левенштейна (Дамерау- Левенштейна)

Меры схожести Коэффициент Жаккара: Коэффициент Дайса: и еще много метрик из биологии

Типы алгоритмов Иерархические – Агломеративные и дивизимные Неиерархические – Плотностные – Итеративные – Модельные – Концептуальные – Другие

Представление результатов кластеризации Дендрограмма Мозаичное представление Линейная проекция Номограмма Другие графики Кластеры чаще всего цветом выделяются

Представление результатов кластеризации Иерархические – Дендрограмма – Мозаичное представление Неиерархические – Линейная проекция – Номограмма – Другие графики

Спасибо за внимание Вопросы по кластеризации присылайте на: