Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна.

Презентация:



Advertisements
Похожие презентации
Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна.
Advertisements

1 Построение регрессионных моделей и решение задачи предсказания.
1 Задачи классификации и дискриминации Родионова Оксана Евгеньевна Институт химической физики РАН, Российское хемометрическое общество.
1 Концепция скрытых (латентных) переменных в химическом анализе. Часть 2. Количественный анализ Концепция скрытых (латентных) переменных в химическом анализе.
1 Построение регрессионных моделей и решение задачи предсказания Родионова Оксана Евгеньевна Институт химической физики РАН, Российское.
«Технико-экономический анализ деятельности предприятия» Гиндуллина Тамара Камильевна, к.т.н., доцент кафедры АСУ.
Лекция в МГУ Концепция скрытых (латентных) переменных в химическом анализе. Часть 1. Качественный анализ Институт химической физики РАН им Семенова.
Моделирование. Требования к уровню подготовки учащихся по теме «Моделирование». Учащиеся должны: уметь создавать компьютерные модели с использованием.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Моделирование и формализация. Модель - это упрощенное представление о реальном объекте, процессе или явлении любой аналог, образ (изображение, формула,
1 Особенности распознавания поддельных/некачественных лекарств с помощью ИК- спектроскопии в ближней области Оксана Родионова, Алексей Померанцев Российское.
Глушкин Александр Представляет. Графические и табличные информационные модели Презентация.
Тема урока:. Аннотация Понятие о модели Модель упрощенное представление о реальном объекте, процессе или явлении сохраняет наиболее важные характеристики.
Моделирование и исследование мехатронных систем Курс лекций.
Модуль 1 Автоматизированная обработка информации и автоматизированное управление производствами наноматериалов различного функционального назначения.
Выполнили ученицы 10б класса Шубенкова Таня и Джимбиева Оксана.
Моделирование как метод познания. Модели Модель – это объект, который используется для представления другого объекта (оригинала) с определенной целью.
ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ МОДЕЛИРОВАНИЯ Классификационные признаки моделирования Эффективность моделирования систем.
ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ МОДЕЛИРОВАНИЯ Классификационные признаки моделирования Эффективность моделирования систем.
Компьютерное математическое моделирование в среде Excel.
Транксрипт:

Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна

План лекции 1.Ведение Немного истории Природа многомерна Пример - многомерный статистический контроль процессов Два подхода к анализу данных 2. Идеи, заложенные в проекционном подходе Данные – какие они бывают Классы решаемых задач 3. Метод главных компонент, основные понятия и примеры3. Метод главных компонент, основные понятия и примеры

Метод наименьших квадратов (простейший случай)

Многомерные данные

Контроль производственного процесса … … Контроль производства Возможность воздействовать на процесс для его стабилизации Цель исследования

Контроль производственного процесса Датчик 1 Датчик 2

Контроль производственного процесса

On

Контроль производственного процесса Точки съема Моделирование производилось на основе анализа измерений и внутренних связей присущих этому набору данных Не применялись содержательные физико- химические модели

Моделирование многомерных данных (процессов или явлений) Сложные физико- химические модели Формально-математические модели Проекционные методы (ПГК, ПЛС) 1.Позволяют работать с достаточно большими массивами данных 2.Существенно понижают размерность изучаемой системы 3.Анализируют и позволяют выделить латентные структуры данных 4.Позволяют отделять содержательную часть от шума

Содержательная составляющая задачи. Никакие многомерные методы не помогут, если данные не содержат полезной информации об изучаемом свойстве какие показатели измерять выбор правильного диапазона измерений Постановка задачи когда проводить измерения

Данные 1.Количественные и качественные 2.Управляемые и неуправляемые 3.Прямые измерения и косвенные

Данные СтруктураШум Поглощение Длина волны

Два класса решаемых задач Метод- МГК Задачи 1.Анализ структуры, поиск латентных переменных 2. Классификация и дискриминация n – количество образцов m – количество переменных (факторов) Методы : РГК, ПЛС Задачи 1.Построение модели Y(X) 2.Прогнозирование

Проекционные методы P=3 P=2

Проекционные методы Данные без структурыДанные со скрытой структурой

Проекция на подпространство Проекции данных Главные компоненты Подпространство Исходные данные Центр данных

Метод главных компонент (PCA) Исходные данные Scores Матрица счетов (Scores) Матрица нагрузок Loadings (Loadings) Матрица ошибок

Метод главных компонент t=Xp max|Xp| 2 при условии |p|=1 X t Xp = p ; t T t= Karl Pearson, 1901 X - матрица данных, E - матрица ошибок, обе (n p) T - матрица счетов: (n k), P - матрица нагрузок: (k p) k - число главных компонент (k

Матрица счетов T (scores) Строка – координаты одного объекта в новой системе координат Столбец – проекция всех объектов на одну ось главных компонент

Матрица нагрузок P (loadings) P T X P T - матрица перехода из пространства X в пространство главных компонент

Остатки E E X матрица E имеет ту же структуру что и X e i e i - определяет расстояние от исходного объекта до подпространства главных компонент совокупная ошибка для всех объектов E 0, E 1, … E 0 X E 0 – ошибка при 0-м ГК, т.е. центрированная матрица X

Математическое обеспечение STATISTICA SPSS SAS … Стандартные статистические пакеты UNSCRAMBLER SIMCA PLS -ToolBox для MatLab … Специальные пакеты MatLabExcel+ VBA+.dll Использование стандартного мат. обеспечения для написания проекционных процедур

Пример. Демографические данные Количество объектов (n) = 32 Количество переменных (m) = 12

Предварительная обработка данных Цель – преобразование исходных данных в форму, наиболее удобную для анализа. Автошкалирование Центрирование относительно среднего Взвешивание

График счетов (ГК1-ГК2)

Графики счетов «карты образцов»

График нагрузок (ГК1-ГК2) «карта переменных»

ГК1-ГК2 счета и нагрузки

График ошибок ГК=5 ГК=2 ГК=3 Способ определения правильного количества ГК

Цели и «инструменты» Основные цели МГК 1.Представление объектов в пространстве, отражающем внутреннюю структуру изучаемых данных 2.Понижение размерности системы, отделение содержательной части от шума Основные «инструменты» 1.Графики счетов – «карты образцов» 2.Графики нагрузок – «карты переменных» 3.Графики остатков – способ выбора количества ГК

Что может быть не так? 1.Данные не содержат необходимой информации 2.Использовано недостаточное количество ГК 3.Использовано излишние количество ГК 4.Не удалены выбросы 5.Удалены точки (псевдовыбросы) содержащие важную информацию 6.Недостаточный анализ графиков счетов/нагрузок 7.Использована только стандартная (машинная) диагностика, без содержательного анализа. 8.Использованы неверные методы предварительной обработки данных

Анализ смеси Разделение перекрывающихся пиков X ВЖХ-ДМД времявремя n=30 (cek) длина волны m=28 (нм)

Разделение пиков

Продолжение - за компьютером