1 Задачи классификации и дискриминации Родионова Оксана Евгеньевна Институт химической физики РАН, Российское хемометрическое общество
2 Два класса решаемых задач Метод- МГК Задачи 1.Анализ структуры, поиск латентных переменных 2. Классификация и дискриминация Методы : РГК, РЛС Задачи 1.Построение модели Y(X) 2.Прогнозирование Классификация и дискриминация SIMCA, PLS-D
3 Распознавание образов (pattern recognition) Без обучения ( Unsupervised) C обучением (Supervised) Не известно существуют ли скрытые группы и сколько их Основной механизм – поиск аналогий в свойствах объектов Основная цель – установить наличие групп (классов), а также выявить причины кластеризации Известно о том, какой группе принадлежат объекты из исходного набора данных Основной механизм – построение модели, для той или иной группы Основная цель классификации новых образцов
4 Геометрическая интерпретация Объекты / образцы/ измерения – точки в пространстве признаков Вектор признаков – переменные (степени свободы) образующие p-мерную систему координат (p – число переменных в векторе признаков) Группы или классы – ограниченные подпространства в пространстве признаков: гиперкуб, гиперсфера и т.п.
5 Возможные ситуации Идеальный случай разделения Имеются выбросы
6 Возможные ситуации X1X1 X2X2 Один из классов не имеет четкой структуры Классы перекрываются
7 Этапы классификации I. Выявление различных групп МГК Факторный анализ Кластерный анализ... II. Построение модели III. Классификация новых образцов } SIMCA PLS-D...
8 Метод SIMCA Метод SIMCA Soft Independent Modeling of Class Analogy Метод формального независимого моделирования аналогий классов (Svante Wold, 1976) X1X1 X2X2 1.Каждый класс моделируется отдельно с помощью МГК 2.Новый образец проверяется на принадлежность каждому построенному классу
9 Этап-1. Моделирование Каждый класс из обучающего набора независимо моделируется МГК с разным числом главных компонент. 1.Предварительная подготовка данных 2.Удаление выбросов 3.Проверка модели и оценка значимости выбранного числа ГК
10 Этап -2. Построение контрольных уровней и анализ модели Размах h: расстояние внутри модели Отклонение d: расстояние до модели
11 Этап – 3. Сравнение моделей Вычисление расстояний между классами и оценка влияние переменных на разделение по классам
12 Этап классификации новых образцов Расстояние от образца до класса Расстояние от образца до центра модели
13 Результаты классификации методом SIMCA Классификационная таблица График Si vs hi График Si/S0 vs hi График Кумана Расстояние между моделями Модельная мощность переменных Дискриминационная мощность переменных Расстояние от образца до одной модели } Расстояние от образца до 2-х разных моделей
14 подлинные образцы; поддельные Распознавание фальсифицированных лекарств - I Пищеварительный фермент. Образцы - таблетки в оболочке Всего: 55 образцов 3 серии подлинных образцов 30 таб. 4 серии поддельных образцов 25 таб. Измерения: спектры диффузнного рассеяния 4000 –7500 см -1. (1750 длин волн).
15 Предварительный МГК анализ 55 образцов Обучающий набор: 25 подлинных образцов Проверочный набор: 25 поддельных образцов 5 подлинных образцов
16 Построение модели для одного класса
17 SIMCA - классификация S crit h crit S i, h i График S i vs h i ( S i /S 0 vs hi)
18 Распознавание фальсифицированных лекарств - II Бактерицидное средство. Образцы - таблетки в оболочке Всего: 30 образцов 2 серии подлинных образцов 10 таб. 1 серия «дженерик» образцов 10 таб. 1 серия поддельных образцов 10 таб. Измерения: спектры диффузного рассеяния 1140 –2300 nm. ( 580 длин волн).
19 Предварительный МГК анализ 30 образцов Обучающий набор: 8 подлинных образцов 9 «дженерик» образцов Проверочный набор: 10 поддельных образцов 2 подлинных образца 1 «дженерик»
20 График Кумана (Coomans plot ) Расстояние от образца до 2-х классов
21 Расстояние между классами ( Model Distance ) Расстояние от одного класса до всех остальных классов. ModelDistance(q,q) = 1 ModelDistan(q,m) > 3 – хорошее разделение
22 Дискриминационная мощность переменной ( Discrimination Power ) Способность j-ой переменной разделять два класса. D j >3 - j-ая переменная сильно влияет на разделение классов.
23 Модельная мощность переменной ( Modeling Power ) Показывает насколько сильное влияние оказывает j-ая переменная на построение модели (класса) M j : 1 0 M j > сильное влияние на модель
24 Пример данных о процессе … … Реализации процесса s1, s2,...,s54 Ключевые переменные процесса (датчики) X1, X2,..., X17 t1 t69 новая реализация
25 Файл Wines (Riccardo Leardi, Genoa, Italy) 178 образцов 13 переменных 3 классa Обучающий набор: 148 образцов Проверочный набор: 30 образцов
26 Методы многомерной классификации Предварительный МГК анализ График счетов T1 vs. T2
27 План упражнения 1. Предобработка исходных данных 2. Построение общей МГК модели 3. Построение индивидуальных МГК моделей для каждого класса. Сохранение моделей 4. Классификация новых образцов : Таблица результатов, график S i vs. h i, график Кумана 5. Анализ результатов
28 ПЛС дискриминация PLS-D X-переменные (дескрипторы) Класс 1 (I 1 ) Класс 2 (I 2 ) Класс N (I N ) Матрица измерений Y 1 Y 2 Y N Матрица принадлежности классу Y-переменные (индикаторы)
29 Влияние ванадиевой пыли на людей (Prof. Pentti Minkkinen, Lappeenranta University of Technology, Finland) Испытательная группа 18 человек подверженных пыли V 2 O 5 на фабрике Контрольная группа 17 человек Измерялись 26 клинических показателей плазмы крови
30 График счетов
31 x 11 x 12 ……x 1k x 21 x 22 ……x 2k ………… ………… x i1 x i2 ……x ik x i+1, 1 x i+1, 2 ……x i+1,k ……… ……… x n1 x n2 x nk Матрица дескрипторов X CLASS C CLASS V Дискриминация (PLS-D) PLS1 Матрица индикаторов Y
V V V V V V V V V V V V V V V V V V C C C C C C C C C C C C C C C C C ГК1 ГК 2 График счетов в PLS-D
33 Файл Wines_PLS 178 образцов 13 переменных 3 классa Обучающий набор: 148 образцов Проверочный набор: 30 образцов Файл WINES_DPLS Матрица X Матрица Y 178 3