Разработка кроссплатформенного приложения для кластерного анализа данных на основе рандомизированных алгоритмов Дипломная работа студента 544 группы Морозкова Михаила Андреевича Научный руководитель к. ф.-м. н. Шалымов Д. С. Рецензент д. ф.-м. н., проф. Граничин О. Н. Санкт-Петербургский государственный университет математико-механический факультет кафедра системного программирования 2010 г
Введение Проблемы: Качество кластеризации Трудоёмкость задачи Обоснованность 2 кластера6 кластеров Решение: Рандомизированные алгоритмы Сценарный подход
Постановка задачи Реализация алгоритма Апробация Сравнительный анализ Исследование зависимости от параметров
Рандомизированный алгоритм Cлучайные выборки точек Вычисление индексной функции Построение равномерных аппроксимаций Вычисление характеристической функции Определение индексного множества Входные параметры алгоритма
Реализация Python QT & pyQT NumPy, SciPy Matplotlib
Результаты моделирования
Сравнительный анализ ТестАлгоритм Среднее время, сек % правильных ответов Тест 1 (16 четырехмерных кластеров) Рандомизированный6681 Сьюгер-Джеймс15691 Хартиган16165 Кржановский-Лай15335 Тест 2 (16 десятимерных кластеров) Рандомизированный5683 Сьюгер-Джеймс14496 Хартиган Кржановский-Лай14480 Тест 3 (22 четырехмерных кластера, объединенных в 3 надкластера) Рандомизированный9081 Сьюгер-Джеймс21193 Хартиган21476 Кржановский-Лай21171
Результаты Разработано кроссплатформенное приложение для кластерного анализа данных Реализован новый рандомизированный алгоритм Подтверждены оценки состоятельности Сделены выводы о зависимости работоспособности от параметров