Анализ данных Лекция 5 Методы построения математических функций.

Презентация:



Advertisements
Похожие презентации
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ. СТАТИСТИЧЕСКАЯ ОЦЕНКА.
Advertisements

ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Классификация и регрессия (продолжение) Храброва М.О.
Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
В практических применениях математики очень часто встречается такая задача: Это могут быть результаты эксперимента, данные наблюдений или измерений, статистической.
Лекция 8: Метод группового учёта аргументов (МГУА) Метод наименьших квадратов Общая схема алгоритмов МГУА Алгоритм с ковариациями и квадратичными описаниями.
Метод наименьших квадратов В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей функции получили.
План лекции. 1.Метод наименьших квадратов. 2.Дифференциальные уравнения.
НЕКОТОРЫЕ СВЕДЕНИЯ ИЗ МАТЕМАТИЧЕСКОГО АНАЛИЗА Задачи на условный экстремум Метод неопределенных множителей Лагранжа Рассмотрим функцию двух переменных.
Идентификация систем Определения и задачи идентификации математических моделей Идентификация статических моделей объектов управления.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
В задачу регрессионного анализа входит исследование остаточных величин. Исследование остаточных величин.
Метод наименьших квадратов УиА 15/2 Айтуар А.. В математической статистике методы получения наилучшего приближения к исходным данным в виде аппроксимирующей.
КЛАССИЧЕСКИЙ РЕГРЕССИОННЫЙ АНАЛИЗ. ОБЩАЯ ЛИНЕЙНАЯ МОДЕЛЬ.
1 Если значениями переменной являются элементы конечного множества, то говорят, что она имеет категориальный тип. Например, переменная наблюдение принимает.
Оптимальное планирование эксперимента. Цель планирования эксперимента нахождение таких условий и правил проведения опытов при которых удается получить.
Кафедра математики и моделирования Старший преподаватель Е.Г. Гусев Курс «Высшая математика» Лекция 16. Тема: Линейное программирование. Цель: Ознакомиться.
Транксрипт:

Анализ данных Лекция 5 Методы построения математических функций

План Корреляционный анализ Регрессионный анализ Метод опорных векторов Основные цели: научиться оценивать зависимость между двумя переменными, освоить алгоритм классификации SVM

Корреляционный анализ Корреляция – статистическая взаимосвязь нескольких случайных величин Задача корреляции - найти функцию: Если погрешность = 0, то все отлично. Если нет, то требуется оценка вариации.

Вариация Вариация – малое смешение независимого функционала. Вариация ~ среднеквадратичное отклонение

Вариация зависимой переменной Полная вариация зависимой переменной= вариация функции + вариация остаточной случайной компоненты Для корреляционного анализа важна оценка изменчивости зависимой переменной от изменчивости независимых

Индекс корреляции Индекс корреляции – мера оценки соответствия линейного по параметрам уравнения экспериментальным данным

Ковариация Ковариация – мера линейной зависимости двух случайных величин Если X и Y независимы, то cov(X,Y)=0, но обратное неверно.

Коэффициент корреляции Коэффициент корреляции - степень статистической зависимости между двумя числовыми переменными Если p 1 или -1, то X и Y связаны линейно Что делать, если зависимость нелинейная?

Оценка отклонений Можно разбить на интервалы:

Оценка отклонений Оценка отклонения функции: Оценка отклонения зависимой переменной: Кратко: разбили на отрезки по x и оценили отклонения в них, потом все сложили

Корреляционное отношение Корреляционное отношение – определение степени нелинейной зависимости Если группировка не дает результатов, нужно применить регрессионный анализ

Регрессионный анализ Регрессионный анализ – метод моделирования данных, поиска конкретной функции для определения зависимых переменных через независимые

Регрессионный анализ Нужно найти функцию с минимальной степенью ошибки:

Метод наименьших квадратов Ищем функцию среди множества линейных уравнений вида: Итоговая задача – минимизация суммы квадратов:

Метод опорных векторов Суть метода: разделить множество объектов по классам с помощью гиперплоскости в пространстве более высокой размерности Классификация на основе SVM (Support Vector Machine) – одна из наиболее точных

Проведем линию, равноудаленную от точек разных классов Линий получилось много. Линейный классификатор

Разделение полосой Выберем самую широкую разделяющую полосу

Общая задача Поиск широкой разделяющей полосы – задача минимизации: При ограничениях: Это задача квадратичной оптимизации

Метод Лагранжа Метод Лагранжа для нахождения минимума целевой функции при нескольких условиях- неравенствах: 1.Вводим множители Лагранжа, новая целевая функция выглядит так G - уравнения ограничений 1.Берем производные по старым переменным (х) и приравниваем их нулю 2.С помощью этих уравнений выразим х через

Метод Лагранжа Получаем, что для каждого ограничения- неравенства верно только одно: условие выполняется, равенство строгое соответствующий множитель λ=0 Теперь нужно найти минимум по w, b, ξ и максимум по λ для целевой функции:

Метод Лагранжа Возьмем производную по w, приравняем нулю и выразим w : w – линейная комбинация векторов, для которых Эти вектора - опорные

Итоговая задача Подставим w в лагранжиану, теперь задача такова: При условиях: - ядро, которое нужно подобрать (по сути самый важный параметр SVM)

Кратко о SVM 1.Выбираем поверхность, которой будем разделять (ядро) 2.Оптимизируем, пока не получим коэффициенты для этого ядра 3.Все готово!

Резюме SVM Достоинства: Один из лучших алгоритмов классификации Гибкость при различных ядрах Недостатки: Сложность выбора ядра Медленное обучение Мало параметров для настройки