Основы корреляционного и регрессионного анализа
План лекции: 1.Способы изучения корреляционных зависимостей. 2.Определение коэффициента парной линейной корреляции. 3.Этапы регрессионного анализа 4.Уравнение регрессии 5.Метод наименьших квадратов 6.Оценка качества уравнения регрессии
ВИДЫ ЗАВИСИМОСТЕЙ ФункциональнаяКорреляционная При функциональных зависимостях каждому значению одной переменной величины соответствует одно вполне определенное значение другой переменной (функции). Корреляционные (статистические) связи характеризуются тем, что численному значению одной переменной соответствует много значений (распределение) другой переменной.
Изучение корреляционных зависимостей Табличный метод а) для небольшого количества измерений, не сгруппированных в классы Х (рост) у(вес)
Табличный метод б) для большого количества измерений ху ху
Графический метод Аналитический метод ( в виде математической формулы) У У Х Х r=0 r=+0,5
ЗАДАЧИ КОРРЕЛЯЦИОННОГО АНАЛИЗА Определение тесноты (степени сопряженности) между варьируемыми признаками Определение формы и направления связи КОРРЕЛЯЦИЯ бывает: положительной (прямой) и отрицательной (обратной) По форме – линейной и нелинейной.
Нахождение коэффициента корреляции ковариация для выборки из n опытов
коэффициент корреляции так как ито На практике коэффициент корреляции считают по формуле:
Коэффициент корреляции является безразмерной характеристикой, которая используется в качестве меры линейной зависимости случайных величин. Одним из подходов к интерпретации корреляции является вычисление доли объясняемой дисперсии, т.е. доли вариабельности одного признака, зависящего от вариабельности второго признака. Эта мера вычисляется по формуле: r (%). Если r < 0,3 – связь слабая; 0,3 r 0,75 – связь умеренная; 0,75 r < 1 – связь сильная; r = 0 – связь отсутствует; r = 1 – связь функциональная.
Пример: Определить наличие связи между величиной годовой прибыли (Y) и затратами на функционирование (Х) аптеки за 5 лет. Оценить достоверность полученных результатов. X Y
График зависимости годовой прибыли от затрат аптеки
NXiYiXi Yi(Xi) 2 (Yi) Σ BCADE
r > 0,9 – связь сильная r 2 =96% Полученный коэффициент корреляции является выборочным, поэтому он имеет свою ошибку – ошибку выборочности. Эта ошибка является мерой расхождения между коэффициентом корреляции выборки (r) и коэффициентом корреляции генеральной совокупности (обозначим его ). Согласно нулевой гипотезе предполагается, что в генеральной совокупности нет связи между варьирующими признаками ( =0). Тогда критерий нормированного отклонения:
Для малых выборок (n t табл нулевая гипотеза отвергается, связь достоверна, т.е. с увеличением затрат увеличивается и годовая прибыль аптеки. где n-число пар измерений
КОРРЕЛЯЦИЯ РАНГОВ r p - коэффициент Спирмена для непараметрических показателей. d=x ρ - y ρ ; n – объем выборки. Коэффициент достоверности (для числа пар рангов больше 9):
Рn=5n=6n=7n=8n9 0,9510,890,750,71 0,991 0,840,86 0,999 Вывод: с вероятностью большей 0,95 можно сказать, что между окрасом лис и их агрессивностью существует прямая положительная связь
Этапы регрессионного анализа Метод регрессии позволяет установить, как количественно меняется один признак при изменении другого на единицу. Этапы регрессионного анализа: выбор формы зависимости (типа уравнения); вычисление коэффициентов выбранного уравнения; оценка достоверности полученного уравнения.
Уравнение регрессии Уравнением регрессии у по х называется уравнение вида = f(х), устанавливающее зависимость между значениями независимой переменной х и условными средними зависимой переменной. Для линейной регрессии зависимость между х и у выражается уравнением: у = а + bx, где b характеризует скорость изменения зависимой переменной у при изменении переменной х (b=tg ); a – начальная ордината, определяет значение у при х = 0.
У=а+bх у х а φ График линейной зависимости Коэффициент b называется коэффициентом линейной регрессии
МЕТОД НАИМЕНЬШИХ КВАДРАТОВ где у i – экспериментальные точки; у(х i ) – зависимость у(х i )=а+bх i
Для определения коэффициентов а и b необходимо решить систему линейных уравнений: Решение этой системы:
ПРИМЕР: В 100 частях воды растворяется следующее число условных частей азотнокислого натрия NaNO 3 (у) при соответствующих температурах (х). NaNO 3 (y) Tº (x)
Зависимость содержания NaNO 3 от Tº Эмпирическая кривая регрессии
Расчет коэффициентов уравнения регрессии xixi yiyi y i x i ABCD
Коэффициенты регрессии: Уравнение регрессии: Y=61,1+1,29*X
Построим теоретическую линию регрессии: при х=0, y=61,1+1,29*0=61,1 при х=10, y=61,1+1,29*10=74
Уравнение регрессии позволяет вычислять теоретические ( вероятные) значения зависимой переменной по заданным значениям независимых переменных в области их изменения. Как правило, оно применяется только внутри этой области. Рассчитаем содержание NaNO 3 при Т=18º С Y=61,1+1,29*18=84,4
Так как уравнение регрессии определялось нами на основе выборочной совокупности, оно может в той или иной мере представлять уравнение истинной регрессии в генеральной совокупности. Коэффициенты а и b, как и другие статистические параметры, имеют ошибки выборочности. Поэтому необходимо доказать статистическую значимость полученных коэффициентов регрессии или уравнения регрессии.
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА: Основная литература: Павлушков И.В. Основы высшей математики и математической статистики. М., ГЭОТАР-Медиа, 2005, с Учебно–методические пособия: Шапиро Л.А., Шилина Н.Г. Руководство к практическим занятиям по медицинской и биологической статистике Красноярск: ООО «Поликом». – 2003.