Лекция 6 Линейная регрессия
Простая линейная регрессия
r = достаточно тесная обратная взаимосвязь
Прогнозирование минимально- максимальный метод линейная регрессия
Минимально-максимальный метод низкая точность метода Y = X
Простая линейная регрессия Генеральная совокупность Выборка
Простая линейная регрессия метод наименьших квадратов (наименьшая сумма квадратов ошибок)
Простая линейная регрессия
Математические ожидания возможных значений У на одной прямой при изменении Х
Прогнозирование с использованием линейной регрессии Два источника неопределенности: 1.неопределенность, обусловленная отклонением точек данных от выборочной прямой регрессии 2.неопределенность, обусловленная отклонением выборочной прямой регрессии от регрессионной прямой генеральной совокупности
Простая линейная регрессия: ошибки Ошибка (ε) – расстояние между значением У и его математическим ожиданием Стандартная ошибка оценки – степень отличия реальных значений Y от оценочных Стандартная ошибка прогноза - вариативность около Y для данного значения Х
Простая линейная регрессия Границы интервала прогноза величины У: df = n-2 Для большой выборки - 95%-ный интервал:
Простая линейная регрессия
Предположения, положенные в основу модели линейной регрессии: для заданного значения Х генеральная совокупность значений У имеет нормальное распределение относительно регрессионной прямой совокупности разброс генеральной совокупности точек данных относительно регрессионной прямой совокупности остается постоянным всюду вдоль этой прямой (дисперсия генеральной совокупности не увеличивается и не уменьшается) слагаемые ошибок ε независимы между собой в генеральной совокупности существует линейная зависимость между Х и У
Разложение дисперсии наблюдение = прогноз + отклонение или наблюдаемое значение Y объясненное линейной зависимостью остаток или отклонение от линейной зависимости
Разложение дисперсии =+ n - 1 = n – 2 + 1
Разложение дисперсии SST = SSR + SSE 222 = SSR/SST = % объясняется взаимосвязью Х и У
Разложение дисперсии Таблица ANOVA для прямолинейной регрессии
Разложение дисперсии SST = SSR + SSE 222 = общая вариация объясненная вариация необъясненная вариация
Коэффициент детерминация b 0 =32.75 Y ср =11 регрессионная прямая Y – Y ср (всего) Y прогноз.-Y ср (объясненное посредством Х) Y.-Y прогноз (необъясненное посредством Х)
Коэффициент детерминации Выборочный коэффициент детерминации измеряет долю изменчивости Y, которую можно объяснить с помощью информации об изменчивости (разнице значений) независимой переменной Х
Коэффициент детерминации 77.5% изменчивости количества продаваемого молока можно объяснить разницей в цене за 1 л
Коэффициент детерминации Для прямолинейной регрессии коэффициент детерминации равен квадрату коэффициента корреляции
Коэффициент детерминации
Проверка гипотез
Проверочная статистика t
Проверка гипотез t расч. = t табл. = отклонить нулевую гипотезу
Проверка гипотез Проверка нулевой гипотезы с помощью таблицы ANOVA df = 1, n-2 Область отклонения гипотезы:
Проверка гипотез F расч. = F табл. = 5.32 отклонить нулевую гипотезу
Анализ остатков Предположения, сделанные для модели прямолинейной регрессии Связь между переменными является линейной Ошибки являются независимыми Дисперсии ошибок равны Значения ошибки нормально распределены
Анализ остатков Проверка соответствия предполагаемой модели Построить гистограмму значений остатков Расположить остатки по значениям оцениваемых величин Расположить остатки по значениям объясняющих переменных Расположить остатки по времени их появления, если исходные данные хронологически упорядочены
Прогноз объемов продаж молока
Регрессия