1 Построение регрессионных моделей и решение задачи предсказания
2 Два класса решаемых задач Метод- ПГК Задачи 1.Анализ структуры, поиск латентных переменных 2. Классификация и дискриминация Методы : РГК, РЛС Задачи 1.Построение модели Y(X) 2.Прогнозирование
3 Постановка задачи. Исходные данные Независимые наблюдения - предикторы Зависимые переменные - отклики m -количество переменных (факторов) n –количество образцов (наблюдений)
4 Цель исследования 1.Построить модель для известных наборов X и Y 2.Оценить возможности модели для предсказания неизвестных значений Y по новым значениям X.
5 Множественная регрессия. Проверка основных статистических гипотез об уравнении регрессии, его коэффициентах и прогнозируемых значениях откликов. 1. Количество переменных больше, чем количество образцов 2. Наличие связей между переменными в X -матрицеСложности
6 Коллинеарность Коллинеарность означает, что между переменными, составляющими матрицу X, существует взаимная корреляция, т.е. они в некоторой степени линейно зависимы между собой, например X1=f (X2, X3, …, Xn)
7 Двухэтапная процедура РГК Регрессия на главные компоненты (РГК) Для «нужного» количества ГК
8 Моделирование – хемометрический подход (y test, X test ) Проверка качества прогноза (y cal, X cal ) Построение модели
9 Обучающий набор данных Планирование эксперимента 1.Набор должен быть достаточно большим 2.Должны охватывать всю будущую совокупность 3.Измерения X, по возможности, должны быть несложными Теория пробоотбора Измеренные референтным методом
10 Построение модели Модель Ошибка моделирования Калибровочная остаточная дисперсия Стандартная ошибка калибровки
11 Оценка антиоксидантов методом ДСК Объект Антиоксиданты в ПП Цель Оценка эффективности АО Эксперимент Длительное термостарение Обработка Регрессия на главные компоненты Y- измерения Дифференц. калориметрия X- измерения Температура начала окисления
12 ДСК эксперимент Оценка температуры начала окисления (ТНО) при разных скоростях нагрева v
13 ДСК данные и референтные данные
14 Предварительная обработка данных. X-измерения X-измерения однородные не взвешиваются Y и -измерения Y и -измерения дисперсия ошибки растет с ростом Y и способ приготовления образцов методом измерения X и Y - центрируются
15 Метод главных компонент в примере с АО График счетов (ГК1-ГК2) ГК1-ГК2: объясняют 96% структуры X и 97 % структуры Y Стандартная ошибка калибровки
16 Тестовый набор данных 1.Набор должен быть достаточно большим 2.Должны охватывать всю будущую совокупность 3.Не должны быть «слишком» похож на калибровочный набор Измеренные референтны методом Используются только для оценки ошибки предсказания
17 Моделирование – стадия проверки Используются для проверки качества прогноза Модель Ошибка прогнозирования Проверочная дисперсияСтандартная ошибка прогноза
18 Способы проверки Проверка на тестовом наборе Перекрестная проверка Проверка корректировкой размахом Самый надежный способ Используется тогда, когда нельзя собрать тестовый массив 1.Самый быстрый и самый грубый способ 2. Не использует тестовый массив
19 Создают как бы «тестовый массив» Перекрестная проверка Тестовый набор отсутствует (y test, X test ) Моделируют тестовый набор используя калибровочный (y cal, X cal ) Самый медленный способ проверки и не всегда надежный
20 Полная перекрестная проверка Модель Модель 1Модель 2 …… Модель N «Тесто- вый набор»
21 Проверка корректировкой размахом «Грубый» Ошибка предсказания всегда оценивается слишком оптимистично «Быстрый» Требует построения лишь одной модели
22 Сколько выбрать главных компонент
23 Ошибка моделирования и ошибка предсказания Ошибка моделирования не зависит от вида проверки Проверка на тестовом наборе Перекрестная проверка Проверка корректировкой размахом
24 Количество ГК для АО примера 2 главные компоненты
25 Прогноз эффективности АО RMSEP = Yпред=Y 2*RMSEP
26 Слабость РГК РГК – мощное средство борьбы с мультиколлинеарностью в матрице X РГК –двухэтапный метод Декомпозиция X по МГК МЛР Эта декомпозиция не учитывает связи между X и Y
27 Регрессия на латентные структуры (ПЛС - регрессия) Схематическое представление
28 Интерпретация ПЛС-модели T - матрица счетов Q - матрица нагрузок W –матрица взвешенных (эффективных) нагрузок U - матрица счетов P - матрица нагрузок
29 Графике зависимости X-Y Данные содержат выбросы Данные не содержат выбросы
30 График остаточной дисперсии Для ПЛС-моделей дисперсия должна падать Остаточная дисперсия Y – количества ГК
31 Заключительный график Предсказанные значения Y - измеренные значения Y
32 Определение октанового числа бензина по данным ИК-спектроскопии Исходные данные Обучающий массив = 26 образца Прогнозный массив = 13 образцов Количество переменных (длин волн) = 226 (1100 – 1550 nm)
33 Выводы Два основных проекционных регрессионных метода. Регрессия на главные компоненты Регрессия на латентные структуры. 1.Уменьшают размерность исследуемых данных 2.Позволяют проанализировать скрытые в данных закономерности Выбор меньшего числа ГК дает более устойчивую модель Проверка с помощью представительного тестового набора наиболее надежный способ оценки ошибки прогнозирования