1 Концепция скрытых (латентных) переменных в химическом анализе. Часть 2. Количественный анализ Концепция скрытых (латентных) переменных в химическом анализе. Часть 2. Количественный анализ Родионова Оксана Евгеньевна Институт химической физики РАН, Российское хемометрическое общество
2 Два класса решаемых задач Качественный анализ Задачи 1.Анализ структуры, поиск латентных переменных 2. Классификация и дискриминация Модель Y(X) ? Модель Y(X) + Y = XA + E линейная регрессионная модель
3 Экспериментальные данные предикторы ( независимые переменные ) отклики ( зависимые переменные ) p -количество переменных (факторов) n –количество образцов (наблюдений)
4 Экспериментальные данные Обучающий набор Проверочный набор
5 Модельный пример Чистые спектры при C A =C B =1
6 Модельный пример y i A x i i=1,..,9?
7 Метод наименьших квадратов Метод наименьших квадратов (простейший случай) Карл Ф. Гаусс
8 Одномерная градуировка y=xa+ R 2 C =0.796R 2 C =0.469 R 2 P =0.778R 2 P =0.012
9 Одномерная регрессия n=9, p=1 Множественная регрессия n=9, p=8
10 Множественная регрессия
11 Оценка качества модели Среднеквадратичный остаток градуировки Среднеквадратичный остаток проверки
12 Множественная регрессия RMSEC=0 RMSEP=0.35 RMSEP=0.23
13 Представление данных в подпространстве
14 Модельный пример (РГК шаг 1) X=TP t + E nPC=2
15 Модельный пример (РГК шаг 2) RMSEC=0.077 (0)RMSEC=0.051 (0) RMSEP=0.054 (0.35)RMSEP=0.036 (0.23)
16 Три регрессионных метода Множественная регрессия Регрессия на главные компоненты (РГК) ПЛС - регрессия
17 Проекция на латентные структуры (ПЛС) ( Herman Wold, 1973 & Agnar Höskuldsson, 1988 ) X=TP t + E Y=UQ t + F t=Xw max|Y t Xw| 2 при условии |w|=1 X t YY t Xw = w X Y T W P Q U
18 Модельный пример (ПЛС) РГК ПЛС 2
19 Определение качества бензина по ИК- спектру в ближней области Исходные данные Обучающий набор = 26 образца Проверочный набор = 13 образцов Количество переменных (длин волн) = 226 (1100 – 1550 nm)
20 Выбор числа главных компонент … «Тесто- вый набор»
21 Предварительная обработка данных
22 Свалка Глубина (Depth) Зольность (Ash) Влажность (Humidity) Об. вес (Weight) t o летом (Summer T) t o зимой (Winter T) Измеряемые Оцениваемые Линза (Lens = ± 1 ) Основа (Base = ± 1) Отклик Стабильность M i =1–exp(-mT i )
23 Обработка экспериментальных данных линзы основа График счетов Качество градуировки
24
25 График счетов График нагрузок
26 Определение следовых концентраций нефти в воде Общее число образцов N =80Число переменных P =1024 X ( ) Y : 0, 2.5, 5, 10, 20, 50, 100, 300 ppm. 40 обучающих образцов 40 проверочных образцов
27 Нелинейность в ПЛС модели y = log (1+y raw ) X=TP t + E Y=UQ t + F T это X-счета U это Y-счета Ti – Ui показывают связь X-Y
28 Моделирование и прогноз y=0.995x R 2 =0.996
29 ПЛС прогноз В исходных единицах y : ppm RMSEC=0.12 RMSEP=0.24
30 Многомерные и многомодальные данные
31 N-way данные ВЭЖХ-ДДМЛюминесцентный анализ... Гиперспектральный анализ
32 Определение активности антиоксидантов Метод развертки (unfolding)
33 N-way методы PARAFAC Tucker3
34 SIMCA-P Umetrics Программное обеспечение Uscrambler CAMO MVA for Excel Bristol University PLS-Toolbox Eigenvector Matlab chemometrics.ru
35 Специальные журналы по хемометрике
36 Winter Symposiums on Chemometrics Кострома 2002 Белокуриха 2003 Пуш. Горы 2004 Черноголовка 2005 Самара 2006
37 Шестой симпозиум по хемометрике Школа: февраля 2008 Конференция: февраля 2008 Казань
38www.chemometrics.ru