Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна
План лекции 1.Ведение Немного истории Природа многомерна Пример - многомерный статистический контроль процессов Два подхода к анализу данных 2. Идеи, заложенные в проекционном подходе Данные – какие они бывают Классы решаемых задач 3. Метод главных компонент, основные понятия и примеры3. Метод главных компонент, основные понятия и примеры
Метод наименьших квадратов (простейший случай)
Многомерные данные
Контроль производственного процесса … … Контроль производства Возможность воздействовать на процесс для его стабилизации Цель исследования
Контроль производственного процесса Датчик 1 Датчик 2
Контроль производственного процесса
On
Контроль производственного процесса Точки съема Моделирование производилось на основе анализа измерений и внутренних связей присущих этому набору данных Не применялись содержательные физико- химические модели
Моделирование многомерных данных (процессов или явлений) Сложные физико- химические модели Формально-математические модели Проекционные методы (ПГК, ПЛС) 1.Позволяют работать с достаточно большими массивами данных 2.Существенно понижают размерность изучаемой системы 3.Анализируют и позволяют выделить латентные структуры данных 4.Позволяют отделять содержательную часть от шума
Содержательная составляющая задачи. Никакие многомерные методы не помогут, если данные не содержат полезной информации об изучаемом свойстве какие показатели измерять выбор правильного диапазона измерений Постановка задачи когда проводить измерения
Данные 1.Количественные и качественные 2.Управляемые и неуправляемые 3.Прямые измерения и косвенные
Данные СтруктураШум Поглощение Длина волны
Два класса решаемых задач Метод- МГК Задачи 1.Анализ структуры, поиск латентных переменных 2. Классификация и дискриминация n – количество образцов m – количество переменных (факторов) Методы : РГК, ПЛС Задачи 1.Построение модели Y(X) 2.Прогнозирование
Проекционные методы P=3 P=2
Проекционные методы Данные без структурыДанные со скрытой структурой
Проекция на подпространство Проекции данных Главные компоненты Подпространство Исходные данные Центр данных
Метод главных компонент (PCA) Исходные данные Scores Матрица счетов (Scores) Матрица нагрузок Loadings (Loadings) Матрица ошибок
Метод главных компонент t=Xp max|Xp| 2 при условии |p|=1 X t Xp = p ; t T t= Karl Pearson, 1901 X - матрица данных, E - матрица ошибок, обе (n p) T - матрица счетов: (n k), P - матрица нагрузок: (k p) k - число главных компонент (k
Матрица счетов T (scores) Строка – координаты одного объекта в новой системе координат Столбец – проекция всех объектов на одну ось главных компонент
Матрица нагрузок P (loadings) P T X P T - матрица перехода из пространства X в пространство главных компонент
Остатки E E X матрица E имеет ту же структуру что и X e i e i - определяет расстояние от исходного объекта до подпространства главных компонент совокупная ошибка для всех объектов E 0, E 1, … E 0 X E 0 – ошибка при 0-м ГК, т.е. центрированная матрица X
Математическое обеспечение STATISTICA SPSS SAS … Стандартные статистические пакеты UNSCRAMBLER SIMCA PLS -ToolBox для MatLab … Специальные пакеты MatLabExcel+ VBA+.dll Использование стандартного мат. обеспечения для написания проекционных процедур
Пример. Демографические данные Количество объектов (n) = 32 Количество переменных (m) = 12
Предварительная обработка данных Цель – преобразование исходных данных в форму, наиболее удобную для анализа. Автошкалирование Центрирование относительно среднего Взвешивание
График счетов (ГК1-ГК2)
Графики счетов «карты образцов»
График нагрузок (ГК1-ГК2) «карта переменных»
ГК1-ГК2 счета и нагрузки
График ошибок ГК=5 ГК=2 ГК=3 Способ определения правильного количества ГК
Цели и «инструменты» Основные цели МГК 1.Представление объектов в пространстве, отражающем внутреннюю структуру изучаемых данных 2.Понижение размерности системы, отделение содержательной части от шума Основные «инструменты» 1.Графики счетов – «карты образцов» 2.Графики нагрузок – «карты переменных» 3.Графики остатков – способ выбора количества ГК
Что может быть не так? 1.Данные не содержат необходимой информации 2.Использовано недостаточное количество ГК 3.Использовано излишние количество ГК 4.Не удалены выбросы 5.Удалены точки (псевдовыбросы) содержащие важную информацию 6.Недостаточный анализ графиков счетов/нагрузок 7.Использована только стандартная (машинная) диагностика, без содержательного анализа. 8.Использованы неверные методы предварительной обработки данных
Анализ смеси Разделение перекрывающихся пиков X ВЖХ-ДМД времявремя n=30 (cek) длина волны m=28 (нм)
Разделение пиков
Продолжение - за компьютером