6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 9. Регрессионный анализ 9-1. Регрессия 9-2. Надежность прогноза.

Презентация:



Advertisements
Похожие презентации
24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г.24 сентября 2012 г. Тема 12. Корреляция и регрессия Корреляция Значимость коэффициента.
Advertisements

Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 5. Сравнение двух выборок 5-1. Зависимые и независимые выборки 5-2.Гипотеза о равенстве.
Российский университет дружбы народов Институт гостиничного бизнеса и туризма В. Дихтяр Теория и методология социально- экономических исследований в туристской.
5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г.5 ноября 2012 г. Лекция 6. Сравнение двух выборок 6-1. Гипотеза о равенстве средних. Парные выборки 6-2.Доверительный.
6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 2. Доверительные интервалы 2-1. Доверительный интервал для доли 2-2. Доверительный.
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Лекция 1 Введение.. Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов.
7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г.7 ноября 2012 г. Лекция 4. Проверка статистических гипотез 4-1. Гипотеза о доле признака 4-2. Гипотеза.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
Лекция 6 Линейная регрессия. Простая линейная регрессия.
Корреляция Примеры 1. Менеджер интересуется, зависит ли объем продаж в этом месяце от объема рекламы в этом же периоде? 2. Преподаватель хочет выяснить,
Российский университет дружбы народов Кафедра экономико-математического моделирования В.И. Дихтяр ФИНАНСОВЫЙ МЕНЕДЖМЕНТ Раздел 2.Инвестиционные решения.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Учитель : Шарова Светлана Геннадьевна, МБОУ гимназия, г. Урюпинск, Волгоградская область УЧИМСЯ РЕШАТЬ ЗАДАЧИ С ПАРАМЕТРАМИ. ПОДГОТОВКА К ЕГЭ. ЗАДАНИЕ.
23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г.23 сентября 2012 г. Лекция 9. Непрерывные распределения 9-1. Функция распределения 9-2. Плотность.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Лабораторная работа 2 «Уровень и качество жизни населения РФ» Силантьев В.Б. Филиал ВЗФЭИ в г. Уфе Кафедра ЭММ Ноябрь 2011.
Основы корреляционного и регрессионного анализа. План лекции: 1.Способы изучения корреляционных зависимостей. 2.Определение коэффициента парной линейной.
Транксрипт:

6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г. Лекция 9. Регрессионный анализ 9-1. Регрессия 9-2. Надежность прогноза

2 Иванов О.В Постановка проблемы Наша цель – научиться отвечать на четыре вопроса: Вопрос 1. Существует ли связь между двумя или более переменными? Вопрос 2. Какой тип имеет эта связь? Вопрос 3. Насколько она сильна? Вопрос 4. Какой можно сделать прогноз, основываясь на этой связи?

3 Иванов О.В Методы Корреляция – статистический метод, позволяющий определить, существует ли зависимость между переменными и на сколько она сильна. Регрессия – статистический метод, который используется для описания характера связи между переменными (положительная или отрицательная, линейная или нелинейная зависимость).

6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г Регрессия Линия регрессии Коэффициенты регрессии

5 Иванов О.В Исследование зависимости На графическом изображении видно, что с увеличением роста увеличивается и вес. Зависимость имеет приближенно линейный характер. Значения переменных колеблются вокруг некоей гипотетической прямой линии, которая называется линией регрессии. Как её построить? рост вес

6 Иванов О.В Линия регрессии Мы хотим построить наилучшую линию. Есть несколько методов: - Метод натянутой нити - Метод наименьших разностей - Метод наименьших квадратов

7 Иванов О.В Какая прямая наилучшая? Наши данные представляют собой пары (x, y). Для каждого x имеется некоторое значение y. Кроме того, каждому x соответствует значение линейной функции y = ax + b. Сравним их. Расстояние между этими значениями должно быть минимально.

8 Иванов О.В Сумма квадратов разностей минимальна… Расстояние между этими значениями должно быть минимально.

9 Иванов О.В Ищем коэффициенты уравнения y = ax + b В каком случае расстояние минимально? Сумма зависит только от двух параметров - a и b, используем метод наименьших квадратов.

10 Иванов О.В Коэффициенты a и b Два уравнения, которые мы получим после нахождения двух частных производных, представляют систему с двумя неизвестными. Из этой системы находятся коэффициенты: Наклон прямой Смещение прямой вдоль оси Y

11 Иванов О.В Формулы для вычислений в таблице Для табличных вычислений более удобны следующие формулы:

12 Иванов О.В Пример вычисления Найдем линейное уравнение регрессии. СтудентЧасы x Оценка y A682 B263 C157 D588 E268 F375

13 Иванов О.В Шаг 1. Достроим таблицу Достраиваем таблицу тремя столбцами и итоговой строкой. Проводим необходимые вычисления. СтудентЧасы x Оценка y xyx2x2 y2y2 A B C D E F Σx=19Σy=433Σxy=1476Σx 2 =79Σy 2 =31935 Абсолютно так же! То есть повторно можно не делать!

14 Иванов О.В Шаги 2-3. Подставим в формулы, пишем ответ Подставим полученные в таблице значения в формулы для a и b: Ответ. Получили уравнение «наилучшей прямой»: y = 5,6 x + 54,5

15 Иванов О.В Интерпретация 1. Увеличение времени подготовки на 1 час приводит к улучшению результата на 5,6 балла. 2. Чтобы улучшить результат на 10 баллов, нужно заниматься на 1,8 часа больше. 3. Если не заниматься вообще – получишь 54,5 балла. 4. Чтобы получить 100 баллов, нужно заниматься 8,1 часов. Два последних вывода ошибочны! Выходим за границы анализируемой области! y = 5,6 x + 54,5

16 Иванов О.В Будьте осторожны с прогнозами! Когда прогнозы распространяются за пределы исследуемых данных, интерпретировать результаты необходимо с особой осторожностью. рост вес

17 Иванов О.В Пример и вывод В 1979 году некоторые эксперты предсказывали, что в США к 2003 году запасы нефти будут исчерпаны. Этот прогноз основывался на уровне потребления нефти, характерного для того времени, и на объемах запасов. Однако с тех пор автомобильная промышленность выпустила много энергоемких машин. Также, существуют множество все еще неоткрытых нефтяных месторождений. Наконец, когда-нибудь наука откроет, как использовать другие виды топлива для автомобилей, что- нибудь вроде арахисового масла. Прогнозы должны основываться на текущих условиях или на предположении, что существующие ныне тенденции продолжатся в будущем. Это предположение может оправдаться или не оправдаться.

18 Иванов О.В Отчет из SPSS Отчет о расчете коэффициентов регрессии, полученный из SPSS.

6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г.6 ноября 2012 г Надежность прогноза

20 Иванов О.В Регрессионное исследование Уже научились: Шаг 1. Графически изображать пары значений (x, y). Шаг 2. Если визуально просматривается связь, находить коэффициент корреляции. Шаг 3. Оценивать значимость коэффициента корреляции. Шаг 4. Если коэффициент значим, то находить уравнение регрессии. Шаг 5. Строить разумные прогнозы: для значения независимой переменной х предсказать значение зависимой переменной у. Научимся: Шаг 6. Оценивать надежность прогноза: найти коэффициент детерминации, стандартную ошибку оценки и интервал предсказания.

21 Иванов О.В Наблюдаемые и предсказываемые значения Наблюдаемое значение Предсказываемое значение Среднее значение

22 Иванов О.В Объяснимое и необъяснимое отклонение Необъяснимое отклонение Объяснимое отклонение Общее отклонение

23 Иванов О.В Вариация в регрессионной модели Общее отклонение есть сумма объяснимой и необъяснимой вариации: Общая вариация Объяснимая вариация Необъяснимая вариация

24 Иванов О.В Пример Рассчитаем общее отклонение, объяснимую и необъяснимую вариацию. СтудентЧасы x Оценка y A68287,9248,735,296,7 B26365,742,27,184,0 C15760,1145,59,6230,0 D58882,4104,131,7250,7 E26865,742,25,417,4 F37571,20,914,28,0 Σ=19Σ=433Σ=583,5Σ=103,3Σ=686,8

25 Иванов О.В Коэффициент детерминации Коэффициент детерминации вычисляется как отношение объяснимой вариации к общей вариации: Коэффициент детерминации – это мера вариации зависимой переменной, которая определяется линией регрессии и независимой переменной. Коэффициент обозначается r 2.

26 Иванов О.В Пример Вычислим на основе результатов, полученных в таблице: Значение коэффициента детерминации можно получить, если возвести в квадрат коэффициент корреляции.

27 Иванов О.В Интерпретация коэффициента детерминации Если r = 0,922, то r 2 = 0,85 или 85%. Это означает, что 85% вариации зависимой переменной определяется вариацией независимой переменной. Оставшиеся 15% – необъяснимая или случайная вариация. Это значение называется коэффициентом недетерминации и находится вычитанием коэффициента детерминации из единицы. По мере того, как r приближается к нулю, значение r 2 уменьшается еще быстрее. Например, если r = 0,6, то r 2 = 0,36, то есть только 36% вариации зависимой переменной могут быть связаны с вариацией независимой переменной.

28 Иванов О.В Стандартная ошибка оценки Стандартная ошибка оценки – это стандартное отклонение наблюдаемых значений у от предсказываемых значений у: Стандартная ошибка оценки схожа со стандартным отклонением выборки, но не использует среднее значение. Чем ближе наблюдаемые значения к предсказываемым, тем меньше стандартная ошибка оценки.

29 Иванов О.В Пример Рассчитаем стандартную ошибку оценки в нашем примере:

30 Иванов О.В Вторая формула для стандартной ошибки Стандартную ошибку можно также вычислять по формуле: Эта формула более пригодна для табличный вычислений.

31 Иванов О.В Интервал предсказания Когда конкретное значение х подставляется в уравнение регрессии, мы получаем предсказанное значение у, которое является точечной оценкой для у. Так как это точечная оценка, трудно сказать насколько точной она является. Построим для оценки интервал предсказания:

32 Иванов О.В Точность интервальной оценки При построении интервала предсказания мы выбираем значение α и получаем интервал, который с вероятностью (1 – α) содержит оцениваемое значение у:

33 Иванов О.В Пример Сколько баллов получит студент, занимавшийся 4 часа? СтудентЧасы x Оценка y A682 B263 C157 D588 E268 F375

34 Иванов О.В Решение Шаг 1. Провели необходимые вычисления в таблице Шаг 2. Нашли у = 5,6·4 + 54,5 = 76,9 Шаг 3. Нашли стандартную оценку ошибки s est =5,08 Шаг 4. Нашли t-значение =0,95 и df = 6 – 2 = 4. Получили t=2,776 Шаг 5. Нашли E:

35 Иванов О.В Решение Шаг 6. Подставили в формулу интервала: Ответ. Прогнозируемое значение баллов, которое может получить студент при 4 часах подготовки, находится с вероятностью 95% в интервале: