Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемГеоргий Евлашин
1 Анализ данных Лекция 5 Методы построения математических функций
2 План Корреляционный анализ Регрессионный анализ Метод опорных векторов Основные цели: научиться оценивать зависимость между двумя переменными, освоить алгоритм классификации SVM
3 Корреляционный анализ Корреляция – статистическая взаимосвязь нескольких случайных величин Задача корреляции - найти функцию: Если погрешность = 0, то все отлично. Если нет, то требуется оценка вариации.
4 Вариация Вариация – малое смешение независимого функционала. Вариация ~ среднеквадратичное отклонение
5 Вариация зависимой переменной Полная вариация зависимой переменной= вариация функции + вариация остаточной случайной компоненты Для корреляционного анализа важна оценка изменчивости зависимой переменной от изменчивости независимых
6 Индекс корреляции Индекс корреляции – мера оценки соответствия линейного по параметрам уравнения экспериментальным данным
7 Ковариация Ковариация – мера линейной зависимости двух случайных величин Если X и Y независимы, то cov(X,Y)=0, но обратное неверно.
8 Коэффициент корреляции Коэффициент корреляции - степень статистической зависимости между двумя числовыми переменными Если p 1 или -1, то X и Y связаны линейно Что делать, если зависимость нелинейная?
9 Оценка отклонений Можно разбить на интервалы:
10 Оценка отклонений Оценка отклонения функции: Оценка отклонения зависимой переменной: Кратко: разбили на отрезки по x и оценили отклонения в них, потом все сложили
11 Корреляционное отношение Корреляционное отношение – определение степени нелинейной зависимости Если группировка не дает результатов, нужно применить регрессионный анализ
12 Регрессионный анализ Регрессионный анализ – метод моделирования данных, поиска конкретной функции для определения зависимых переменных через независимые
13 Регрессионный анализ Нужно найти функцию с минимальной степенью ошибки:
14 Метод наименьших квадратов Ищем функцию среди множества линейных уравнений вида: Итоговая задача – минимизация суммы квадратов:
15 Метод опорных векторов Суть метода: разделить множество объектов по классам с помощью гиперплоскости в пространстве более высокой размерности Классификация на основе SVM (Support Vector Machine) – одна из наиболее точных
16 Проведем линию, равноудаленную от точек разных классов Линий получилось много. Линейный классификатор
17 Разделение полосой Выберем самую широкую разделяющую полосу
18 Общая задача Поиск широкой разделяющей полосы – задача минимизации: При ограничениях: Это задача квадратичной оптимизации
19 Метод Лагранжа Метод Лагранжа для нахождения минимума целевой функции при нескольких условиях- неравенствах: 1.Вводим множители Лагранжа, новая целевая функция выглядит так G - уравнения ограничений 1.Берем производные по старым переменным (х) и приравниваем их нулю 2.С помощью этих уравнений выразим х через
20 Метод Лагранжа Получаем, что для каждого ограничения- неравенства верно только одно: условие выполняется, равенство строгое соответствующий множитель λ=0 Теперь нужно найти минимум по w, b, ξ и максимум по λ для целевой функции:
21 Метод Лагранжа Возьмем производную по w, приравняем нулю и выразим w : w – линейная комбинация векторов, для которых Эти вектора - опорные
22 Итоговая задача Подставим w в лагранжиану, теперь задача такова: При условиях: - ядро, которое нужно подобрать (по сути самый важный параметр SVM)
23 Кратко о SVM 1.Выбираем поверхность, которой будем разделять (ядро) 2.Оптимизируем, пока не получим коэффициенты для этого ядра 3.Все готово!
24 Резюме SVM Достоинства: Один из лучших алгоритмов классификации Гибкость при различных ядрах Недостатки: Сложность выбора ядра Медленное обучение Мало параметров для настройки
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.