1 Построение регрессионных моделей и решение задачи предсказания Родионова Оксана Евгеньевна rcs@chph.ras.ru Институт химической физики РАН, Российское.

Презентация:



Advertisements
Похожие презентации
1 Построение регрессионных моделей и решение задачи предсказания.
Advertisements

1 Концепция скрытых (латентных) переменных в химическом анализе. Часть 2. Количественный анализ Концепция скрытых (латентных) переменных в химическом анализе.
Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна.
Проекционные методы. Основные понятия и примеры Институт химической физики РАН, Москва Родионова Оксана Евгеньевна.
1 Задачи классификации и дискриминации Родионова Оксана Евгеньевна Институт химической физики РАН, Российское хемометрическое общество.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Типовые расчёты Растворы

Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
Ребусы Свириденковой Лизы Ученицы 6 класса «А». 10.
Школьная форма Презентация для родительского собрания.
Урок повторения по теме: «Сила». Задание 1 Задание 2.
Michael Jackson
Случайные и систематические погрешности при измерениях и расчетах.
Теория статистики Описательная статистика и получение статистических выводов Часть 2. 1.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.


Транксрипт:

1 Построение регрессионных моделей и решение задачи предсказания Родионова Оксана Евгеньевна Институт химической физики РАН, Российское хемометрическое общество

2 Два класса решаемых задач Метод- МГК Задачи 1.Анализ структуры, поиск латентных переменных 2. Классификация и дискриминация Методы : РГК, РЛС Задачи 1.Построение модели Y(X) 2.Прогнозирование Y = XA + E

3 Постановка задачи. Исходные данные Независимые наблюдения - предикторы Зависимые переменные - отклики m -количество переменных (факторов) n –количество образцов (наблюдений)

4 Экспериментальные данные Обучающий набор Проверочный набор

5 Цель исследования 1.Построить модель для известных наборов X и Y 2.Оценить возможности модели для предсказания неизвестных значений Y по новым значениям X.

6 Множественная регрессия. Проверка основных статистических гипотез об уравнении регрессии, его коэффициентах и прогнозируемых значениях откликов. 1. Количество переменных больше, чем количество образцов 2. Наличие связей между переменными в X -матрицеСложности

7 Коллинеарность Коллинеарность означает, что между переменными, составляющими матрицу X, существует взаимная корреляция, т.е. они в некоторой степени линейно зависимы между собой, например X1=f (X2, X3, …, Xn) X2X2

8 Двухэтапная процедура РГК Регрессия на главные компоненты (РГК) Для «нужного» числа ГК

9 Моделирование – хемометрический подход (y test, X test ) Проверка качества прогноза (y cal, X cal ) Построение модели

10 Обучающий набор данных Планирование эксперимента 1.Набор должен быть достаточно большим 2.Должны охватывать всю будущую совокупность 3.Измерения X, по возможности, должны быть несложными Теория пробоотбора Измеренные референтным методом

11 Построение модели Модель Среднеквадратичная погрешность моделирования 3. Остаток при моделировании Квадрат остатка для каждого образца 4.

12 Оценка антиоксидантов методом ДСК Объект Антиоксиданты в ПП Цель Оценка эффективности АО Эксперимент Длительное термостарение Обработка Регрессия на главные компоненты Y- измерения Дифференц. калориметрия X- измерения Температура начала окисления

13 ДСК эксперимент Оценка температуры начала окисления (ТНО) при разных скоростях нагрева v

14 ДСК данные и референтные данные

15 Предварительная обработка данных X-измерения X-измерения однородные не взвешиваются Y и -измерения Y и -измерения дисперсия ошибки растет с ростом Y и способ приготовления образцов методом измерения X и Y - центрируются

16 Метод главных компонент в примере с АО График счетов (ГК1-ГК2) ГК1-ГК2: объясняют 96% структуры X и 97 % структуры Y Среднеквадратичная погрешность

17 Проверочный (тестовый) набор данных 1.Набор должен быть достаточно большим 2.Данные должны охватывать всю будущую совокупность 3.Данные не должны быть «слишком» похожи на обучающий набор Измеренные референтны методом Используются только для оценки погрешности предсказания

18 Моделирование – стадия проверки Используются для оценки качества прогноза Модель Среднеквадратичная погрешность при прогнозе 8. Остаток при прогнозе 9. Квадрат остатка для каждого образца

19 Способы проверки Проверка на тестовом наборе Перекрестная проверка Проверка корректировкой размахом Самый надежный способ Используется тогда, когда нельзя собрать тестовый массив 1.Самый быстрый и самый грубый способ 2. Не использует тестовый массив

20 Перекрестная проверка Проверочный набор отсутствует (y test, X test ) Моделируют проверочный набор используя обучающий Создают как бы «проверочный набор» (y cal, X cal ) Самый медленный способ проверки и не всегда надежный

21 Полная перекрестная проверка Модель Модель 1Модель 2 …… Модель N «Тесто вый набор»

22 Проверка корректировкой размахом «Грубый» Погрешность предсказания всегда оценивается слишком оптимистично «Быстрый» Требует построения лишь одной модели

23 Сколько выбрать главных компонент Погрешность предсказания

24 Погрешность моделирования и погрешность предсказания Погрешность моделирования и погрешность предсказания Погрешность моделирования не зависит от вида проверки Проверка на тестовом наборе Перекрестная проверка Проверка корректировкой размахом

25 Число ГК для АО примера 2 главные компоненты

26 Прогноз эффективности АО RMSEP = Yпред=Y 2*RMSEP

27 Слабость РГК РГК – мощное средство борьбы с мультиколлинеарностью в матрице X РГК –двухэтапный метод Декомпозиция X по МГК МЛР Эта декомпозиция не учитывает связи между X и Y

28 Регрессия на латентные структуры (ПЛС - регрессия) Схематическое представление ( Herman Wold, 1973 & Agnar Höskuldsson, 1988 )

29 Интерпретация ПЛС-модели T - матрица счетов Q - матрица нагрузок W –матрица взвешенных (эффективных) нагрузок U - матрица счетов P - матрица нагрузок

30 Графики зависимости X-Y Данные содержат выбросы Данные не содержат выбросов

31 График остаточной вариации Для ПЛС-моделей вариация должна падать Остаточная вариация Y - число ГК

32 Заключительный график Предсказанные значения Y - измеренные значения Y

33 Выводы Два основных проекционных регрессионных метода. Регрессия на главные компоненты Регрессия на латентные структуры. 1.Уменьшают размерность исследуемых данных 2.Позволяют проанализировать скрытые в данных закономерности Выбор меньшего числа ГК дает более устойчивую модель Проверка с помощью представительного тестового набора наиболее надежный способ оценки ошибки прогнозирования

34 Принципы построения «хорошей» калибровки / градуировки правильно приготовить (собрать) образцы визуально изучить данные при необходимости, применить предварительную обработку (pre-processing), шкалирование/ центрирование (scaling/centering) интерпретация модели, изучить структуру данных, выявить и удалить возможные выбросы тщательно оценить размерность модели, оценить погрешность моделирования изучить предсказательные способности модели

35 Определение октанового числа бензина по данным ИК-спектроскопии Исходные данные Обучающий набор = 26 образца Прогнозный набор = 13 образцов Количество переменных (длин волн) = 226 (1100 – 1550 nm)

36 Экспериментальные данные Y Y:

37 Разделения смеси спиртов по данным ИК-спектроскопии Исходные данные Обучающий набор = 16 образцов Проверочный набор = 11 образцов Прогнозный набор = 13 образцов Количество переменных (длин волн) = 101 (1100 – 1600 nm)

38 Экспериментальные данные Y Y1 этанол Y2 метанол Y3 пропанол C Y1 +C Y2 +C Y3 =100%

39 Экспериментальные данные X Измерения: спектры пропускания в диапазоне nm Чистые спектры AU=-log(R)

40 MSC коррекция MSC коррекция поправка на многократное рассеяние MSC – множественная коррекция сигнала Поправка на общее смещениеПоправка на общее расширение Полная MSC-коррекция