Анализ данных Лекция 5 Методы построения математических функций
План Корреляционный анализ Регрессионный анализ Метод опорных векторов Основные цели: научиться оценивать зависимость между двумя переменными, освоить алгоритм классификации SVM
Корреляционный анализ Корреляция – статистическая взаимосвязь нескольких случайных величин Задача корреляции - найти функцию: Если погрешность = 0, то все отлично. Если нет, то требуется оценка вариации.
Вариация Вариация – малое смешение независимого функционала. Вариация ~ среднеквадратичное отклонение
Вариация зависимой переменной Полная вариация зависимой переменной= вариация функции + вариация остаточной случайной компоненты Для корреляционного анализа важна оценка изменчивости зависимой переменной от изменчивости независимых
Индекс корреляции Индекс корреляции – мера оценки соответствия линейного по параметрам уравнения экспериментальным данным
Ковариация Ковариация – мера линейной зависимости двух случайных величин Если X и Y независимы, то cov(X,Y)=0, но обратное неверно.
Коэффициент корреляции Коэффициент корреляции - степень статистической зависимости между двумя числовыми переменными Если p 1 или -1, то X и Y связаны линейно Что делать, если зависимость нелинейная?
Оценка отклонений Можно разбить на интервалы:
Оценка отклонений Оценка отклонения функции: Оценка отклонения зависимой переменной: Кратко: разбили на отрезки по x и оценили отклонения в них, потом все сложили
Корреляционное отношение Корреляционное отношение – определение степени нелинейной зависимости Если группировка не дает результатов, нужно применить регрессионный анализ
Регрессионный анализ Регрессионный анализ – метод моделирования данных, поиска конкретной функции для определения зависимых переменных через независимые
Регрессионный анализ Нужно найти функцию с минимальной степенью ошибки:
Метод наименьших квадратов Ищем функцию среди множества линейных уравнений вида: Итоговая задача – минимизация суммы квадратов:
Метод опорных векторов Суть метода: разделить множество объектов по классам с помощью гиперплоскости в пространстве более высокой размерности Классификация на основе SVM (Support Vector Machine) – одна из наиболее точных
Проведем линию, равноудаленную от точек разных классов Линий получилось много. Линейный классификатор
Разделение полосой Выберем самую широкую разделяющую полосу
Общая задача Поиск широкой разделяющей полосы – задача минимизации: При ограничениях: Это задача квадратичной оптимизации
Метод Лагранжа Метод Лагранжа для нахождения минимума целевой функции при нескольких условиях- неравенствах: 1.Вводим множители Лагранжа, новая целевая функция выглядит так G - уравнения ограничений 1.Берем производные по старым переменным (х) и приравниваем их нулю 2.С помощью этих уравнений выразим х через
Метод Лагранжа Получаем, что для каждого ограничения- неравенства верно только одно: условие выполняется, равенство строгое соответствующий множитель λ=0 Теперь нужно найти минимум по w, b, ξ и максимум по λ для целевой функции:
Метод Лагранжа Возьмем производную по w, приравняем нулю и выразим w : w – линейная комбинация векторов, для которых Эти вектора - опорные
Итоговая задача Подставим w в лагранжиану, теперь задача такова: При условиях: - ядро, которое нужно подобрать (по сути самый важный параметр SVM)
Кратко о SVM 1.Выбираем поверхность, которой будем разделять (ядро) 2.Оптимизируем, пока не получим коэффициенты для этого ядра 3.Все готово!
Резюме SVM Достоинства: Один из лучших алгоритмов классификации Гибкость при различных ядрах Недостатки: Сложность выбора ядра Медленное обучение Мало параметров для настройки