АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ
Слайд 1 Виды связи величин Функциональная корреляционная Функциональная зависимость означает детерминированную связь между величинами и может быть представлена математическим соотношением Y=f(x) Корреляционная зависимость означает стохастическую (случайную) связь между величинами и в общем случае выражается ковариацией или коэффициентом корреляции.
Слайд 2 Анализ отношений Для всякого значения X i, независимой случайной величины Х можно поставить в соответствие различные значения y i1, y i2… зависимой случайной величины Y. Простейшим средством анализа отношений между массивами данных является диаграмма рассеивания (разброса). Запись зависимости Y= ( X 1, X 2,..,X m) + U (1) U - случайное воздействие, для которого невозможно установить форму связи с Y, но по сравнению с величинами X 1, X 2,..,X m его влияние на величину Y незначительно. Функциональная зависимость
Слайд 3 Регрессия - УРАВНЕНИЕ РЕГРЕССИИ- выражение зависимой переменной в виде функции от независимых на основании экспериментальных данных - оценка эмпирических (полученных в результате наблюдений) значений случайной зависимой величины Y ; X 1, X 2,..,X m - факторы или эмпирические случайные входные независимые воздействия m - Количество факторов. Поиском вида и параметров уравнения регрессии с помощью метода наименьших квадратов, а также исследованием его свойств с целью дальнейшего использования для прогноза занимается регрессионный анализ.
Слайд 4 простая (парная) регрессия - это уравнение связи между одной независимой и одной зависимой переменными Виды регрессии множественная регрессия - это уравнение связи между несколькими независимыми и одной зависимой переменными
Слайд 5 Линейная x 2 = x 1 + Квадратичная Экспоненциальная Y=c 0 e cx x 2 =c 0 e cx y=c 0 +c 1 x+c 2 x 2 x 2 =c 0 +c 1 x 1 +c 2 (x 1 ) 2 Виды уравнений регрессии
В предположении линейной зависимости случайных величин уравнение регрессии (X 1 =kx 2 +b, b=a 0 ;k=a 1 ) Линейная регрессия Слайд 6 x 1 =a 0 +a 1 x 2 Каждая из величин (x 1 и x 2 ) может быть охарактеризована с помощью показателей центральной тенденции и рассеяния, каждая имеет свою функцию плотности распределения, но так как эти величины взаимосвязаны, то с вероятностной точки зрения можно найти двумерную функцию плотности распределения f(x 1,x 2 ), характеризующую их поведение. Математическое ожидание f(x 1,x 2 ), определяющее вероятность того, что величина x 2 с определенной вероятностью принимает то или иное значение при условии, что величина x 1 имеет заданное значение: m(x 2 /x 1 )- это и есть регрессия x 2 на x 1
m(x 2 /x 1 )= x 2 + простая регрессия m(x 2 /x 1, x 3, x 4.. )= i x i + множественная регрессия Слайд 7 Характеристики стохастической взаимосвязи Общая дисперсия Общая дисперсия для простой регрессии Факторная дисперсия переменной Y (x 2 ) отображает влияние факторов x 1 x 3…... x m Факторная дисперсия для простой регрессии Остаточная дисперсия для простой регрессии Остаточная дисперсия отображает отклонение регрессии У от эмпирических данных Y(Х 2 ) из-за присутствия факторов U. (x 2 =a 0 +a 1 x 1 )
Слайд 8 Подтверждение гипотезы Коэффициент детерминации - характеризует меру степени взаимосвязи между переменными Y и X1,X2,..,Xm (Соотношение между факторной и общей дисперсиями) R -Коэффициент множественной корреляции ( коэффициент Пирсона) F -критерий Фишера Определить по таблицам критическое значение F k. Таблицы приведены для разных уровней значимости степеней свободы v 1 и v 2 v 1 =m – число независимых переменных V 2 =n-(m+1), n – количество наборов эмпирических данных (размерность выборки) Если F r > F k, то полученное в результате расчетов значение коэффициента детерминации правомерно и можно предлагаемую модель использовать для прогноза
Слайд 8 Оценка степени связи Качественная оценка степени связи случайных переменных может быть выявлена на основе шкалы Чеддока для коэффициента детерминации: При значениях коэффициента детерминации более 0,7 модели признаются пригодными для практического использования в целях прогнозирования (вариации зависимой переменной, в основном, обусловлены влиянием факторов)
Получение параметров регрессии в ППП EXCEL Слайд 9 Команды: СЕРВИС - Анализ данных; затем выбирается режим Регрессия входной интервал Y- интервал зависимых данных, подлежащих анализу. (Зависимые данные должны быть в отдельном столбце) входной интервал Х - интервал независимых данных, подлежащих анализу константа ноль - если задать, то линия регрессии проходит через начало координат; уровень надежности - если задать, то в выходной таблице параметров регрессии формируются два дополнительных столбца минимальных и максимальных значений доверительных интервалов соответствующих параметров для заданного уровня надежности, отличного от установленного по умолчанию 95 ; выходной интервал - указывается верхняя левая ячейка интервала, начиная с который выводятся выходные таблицы (не менее семи столбцов для итоговой выходной таблицы).
Вывод Итогов регрессии в ППП EXCEL Слайд 10 TSS=SR+RSS Факторная Остаточная Общая СУММА КВАДРАТОВ ОТКЛОНЕНИЙ n- объем выборки m - число независимых переменных
Дисперсионный анализ в регрессии ППП EXCEL Слайд 11 df- число степеней свободы: Строка «Регрессия» - df= число независимых переменных= v 1 =m Строка «Остаток»- df= V 2 =n-(m+1) SS - сумма квадратов отклонений Строка «Регрессия» Строка «Остаток» Строка «Итого»
Слайд 12 Дисперсионный анализ в регрессии ППП EXCEL MS - дисперсия ( Сумма квадратов отклонений/число степеней свободы) Строка «Регрессия» - факторная дисперсия Строка «Остаток» - остаточная дисперсия F - статистика определяет надежность модели ( является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет.) Вычислив степени свободы (df) находят значение Fk в статистической таблице. Если Fr>Fk- модель надежна. F=MS(Регрессия)/MS(Остатки)= Значимость F вычисляется для полученного Fr, а затем вычисляется достоверность гипотезы о соответствии исходных данных и математической модели p=1-знач.F Значимость F
Слайд 13 Параметры модели в регрессии ППП EXCEL Коэффициенты ( для модели регрессии y=kx 1 +b или x 2 =a 0 +a 1 x 1 ) Y-пересечение - значения свободного члена для модели регрессии а 0 =b; значение Y(Х 2 ) при Х 1 =0 Переменная X 1 ( при включении «Метки» - это название случайной величины ) значение X 1 при Y(X 2 ) равном 0 Стандартная ошибка среднее квадратическое значение j ошибки параметров регрессии; t-статистика для каждого параметра регрессии рассчитывается как Коэффициент/Стандартная ошибка P-значение Вероятность для t-статистики ОПРЕДЕЛЕНИЕ ПРАВИЛЬНОСТИ КАЖДОГО ПАРАМЕТРА: