Элементы теории корреляции
План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента корелляции. II. Регрессия: 1) Линейная регрессия 2) Уравнения регрессии
Понятие корреляционной зависимости Процессы, сопровождающие жизнедеятельность биологических организмов животного и растительного происхождения, формируются под влиянием большого числа факторов. Эти факторы можно разделить на: основные, определяющие главные характеристики процессы; второстепенные, обуславливающие разброс характеристик. Такие процессы называются стохастическими (вероятностными или случайными).
Корреляционная связь является частным случаем стохастической связи. При этом каждому значению признака (случайной величины) Х соответствует множество значение признаков У, то есть их распределение. Х называют факторным признаком, У – результативным.
Корреляционный анализ решает следующие задачи: установление характера зависимости результативного признака от факторного; изучение степени тесноты зависимости; выявление неизвестных причинных зависимостей. Первая задача решается путем выбора типа уравнения, которое называется корреляционным.
Зависимость может быть: 1.линейной, 2.параболической, 3.гиперболической, 4.логарифмической, 5.степенной, 6.показательной.
1.Экспериментальные данные (наблюдения) представляют в виде корреляционной таблицы 2.Наносят на координатную плоскость точки, откладывая по оси абсцисс значение факторного признака, а по оси ординат - результативного признака. Алгоритм определения линейной корреляции:
Множество точек, полученных таким образом, называется корреляционным полем или корреляционным «облачком». По форме расположения точек приближенно определяют характер зависимости. 3.Вычисляют параметр уравнения линейной регрессии
Линейная корреляционная зависимость (корреляция) между признаками Х и У выражается уравнением вида: У = bx + a. Такое уравнение называется уравнением регрессии У на Х, а соответствующая прямая – выборочной линией регрессии. В этом случае одинаковые приращения любого значения факторного признака Х вызывают одинаковые изменения результативного признака У.
Если результативный признак У имеет неодинаковые изменения, регрессия называется криволинейной (параболической, степенной и т.д.). Линейная регрессия У на Х показывает, как в среднем изменяется у при изменении Х. Если при увеличении Х увеличивается и У, то корреляция и регрессия называются положительными, если У уменьшается – отрицательными (обратными).
Формула для вычисления параметра уравнения линейной регрессии: где - выборочный коэффициент регрессии.
Из системы нормальных уравнений для линейной зависимости, полученной методом наименьших квадратов, можно вывести формулу коэффициента регрессии:
Коэффициент показывает, насколько изменится У при изменении Х на единицу. Если > 0 – связь между признаками положительна. Если < 0 – связь между признаками отрицательна. Коэффициент регрессии измеряется отношением единиц измерения У к единицам измерения Х.
4.Строят график уравнения регрессии на фоне корреляционного поля.
Вторая задача корреляционного анализа решается путем вычисления коэффициента корреляции. Коэффициент корреляции – это мера интенсивности линейной связи между признаками. Вычисляют по формуле:
или, где- выборочные средние квадратические отклонения Х и У.
Учитывая приведенную формулу, уравнение регрессии можно представить в виде: Коэффициент корреляции – безразмерная величина.
Свойства коэффициента корреляции: 1. 2.Если r = 1, то зависимость между признаками Х и У является функциональной 3.Если r = 0, то признаки Х и У не связаны линейной корреляционной зависимостью, но зависимость может иметь криволинейный характер.
С увеличениемсвязь между признаками Х и У становится теснее. При- зависимость между признаками слабая, при- средняя, при - сильная. Если r положителен, то связь между признаками прямая, если отрицателен – обратная.
Коэффициент корреляции, возведенный в квадрат, называется коэффициентом детерминации r².
Он показывает долю (или проценты если r²·100) изменений, которые вызваны факторным признаком. Коэффициент детерминации r² является прямым способом выражения зависимости одного признака от другого. Если известно, что У находится в причинной связи с Х, то r² - это доля вариаций У, обусловленная влиянием Х.
В выражении «36% колебаний удойности коров вызвано колебанием времени кормления». 36% - значение коэффициента детерминации. Регрессионный анализ проводится по выборочным данным, поэтому значимость выборочного коэффициента корреляции следует проверять.
Стандартную ошибку коэффициента корреляции находят по формуле, где n - объем выборки. С увеличением n уменьшается и возрастает точность определения r.