EM-алгоритм Альперин Борис 8204
Содержание Вероятностная постановка задачи классификации Параметрический подход к оценке плотности распределения Принцип максимума правдоподобия EM-алгоритм EM-алгоритм с последовательным добавлением компонент Алгоритм классификации (на основе EM-алгоритма) RBF - сеть Пример (на модельных данных)
Вероятностная постановка задачи классификации
Решение задачи 1. Величина потери.
Решение задачи 1. Оптимальное Байесовское решающее правило
Оценка плотности распределения
Принцип максимума правдоподобия
Смеси распределений
Задача разделения смеси
EM-алгоритм
Схема EM-алгоритма
Схема ЕM-алгоритма
E-шаг
M-шаг
EM-алгоритм с последовательным добавлением компонент
Многомерное нормальное распределение
Гаусовские смеси
Плюсы: Позволяют приближать любые непрерывные плотности вероятностей Минусы: Трудоемкость (необходимость обращать ковариационные матрицы) Ковариационные матрицы часто оказываются вырожденными или плохо обусловленными => неустойчивость оценок плотности и алгоритма классификации
Гауссовские смеси
Радиальные функции
Сеть радиальных базисных функций
Алгоритм классификации
Агоритм классификации
RBF - сеть
Пример (модельные данные) 4 класса (красный, зеленый, синий, бирюзовый) Объем выборки – 820 объектов Красный класс - смесь двух гауссовских распределений с диагональной и недиагональной матрицами ковариации. Остальные классы – одно гауссовское распределение. Дисперсия зеленого класса меньше дисперсий остальных, поэтому его элементы находятся ближе к центру. Дисперсия бирюзовых по одной координате больше, чем по другой, в результате чего класс визуально вытянулся. Центры классов располагаются близко, некоторые классы линейно неразделимы.
Пример (модельные данные) Истинное распределение классов – на левом рисунке Результат классификации – на правом Алгоритм допустил 16 ошибок, что на выборке из 820 элементов составляет менее 2%.