Корреляционный анализ. Пусть у нас имеются n серии значений двух параметров X и Y: (x 1 ;y 1 ),(x 2 ;y 2 ),...,(x n ;y n ). Подразумевается, что у одного.

Презентация:



Advertisements
Похожие презентации
Регрессионный анализ. Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет.
Advertisements

Теория статистики Корреляционно-регрессионный анализ: статистическое моделирование зависимостей Часть 1. 1.
Элементы теории корреляции. План: I. Понятие корреляционной зависимости: 1) Коэффициент корелляции 2) Проверка гипотезы о значимости выборочного коэффициента.
Линейная модель парной регрессии и корреляции. 2 Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального.
Лекция 7 Постникова Ольга Алексеевна1 Тема. Элементы теории корреляции
Основы статистических методов обработки медико-биологических данных.
Лекция 2 Часть I: Многомерное нормальное распределение, его свойства; условные распределения Часть II: Парная линейная регрессия, основные положения.
Лекция 6 множественная регрессия и корреляция. ( продолжение )
Лекция по МОП ТЕМА: Измерение связи двух признаков.
АНАЛИЗ ДАННЫХ НА КОМПЬЮТЕРЕ. Регрессионный анализ.
ЛЕКЦИЯ 8 КОРРЕЛЯЦИОННО- РЕГРЕССИОННЫЙ АНАЛИЗ. МОДЕЛИРОВАНИЕ СВЯЗЕЙ.
Основы корреляционного и регрессионного анализа. План лекции: 1.Способы изучения корреляционных зависимостей. 2.Определение коэффициента парной линейной.
Лекция 6 множественная регрессия и корреляция. ( продолжение )
Лекция 1 «Введение». Опр. эконометрика это наука, которая дает количественное выражение взаимосвязей экономических явлений и процессов. Специфической.
Определение. Случайная величина имеет нормальное распределение вероятностей с параметрами и 2, если ее плотность распределения задается формулой:
Лекция 5 множественная регрессия и корреляция. Множественная регрессия широко используется в решении проблем спроса, доходности акций, изучение функции.
МЕТОД КОЙКА Предположим,что для описаний некоторого процесса используется модель с бесконечным лагом вида: Предположим,что для описаний некоторого процесса.
ПРОВЕРКА СТАТИСТИЧЕСК ИХ ГИПОТЕЗ. Определение статистической гипотезы Статистической гипотезой называется всякое высказывание о генеральной совокупности.
Лекция 5 множественная регрессия и корреляция. Множественная регрессия широко используется в решении проблем спроса, изучении доходности акций, изучении.
С ТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ СОЦИАЛЬНО - ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ Л ЕКЦИЯ 9 Клобертанц Е.П. Красноярск, 2013 г. ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ.
Транксрипт:

Корреляционный анализ

Пусть у нас имеются n серии значений двух параметров X и Y: (x 1 ;y 1 ),(x 2 ;y 2 ),...,(x n ;y n ). Подразумевается, что у одного и того же объекта измерены два параметра. Нам надо выяснить есть ли значимая связь между этими параметрами. Как известно, случайные величины X и Y могут быть либо зависимыми, либо независимыми. Существуют следующие формы зависимости – функциональная и статистическая. В математике функциональной зависимостью переменной Y от переменной Х называют зависимость вида y=f(x), где каждому допустимому значению X ставится в соответствие по определенному правилу единственно возможное значение Y.

Например, в функции Y = 2X каждому значению X соответствует в два раза большее значение Y. В функции Y = 2X 2 каждому значению Y соответствует 2 определенных значения X.

Однако, если X и Y случайные величины, то между ними может существовать зависимость иного рода, называемая статистической. Дело в том, что на формирование значений случайных величин X и Y оказывают влияние различные факторы. Под воздействием этих факторов и формируются конкретные значения X и Y. Допустим, что на Х и У влияют одни те же факторы, например Z 1, Z 2, Z 3, тогда X и Y находятся в полном соответствии друг с другом и связаны функционально. Предположим теперь, что на X воздействуют факторы Z 1, Z 2, Z 3, а на только Y и Z 1, Z 2. Обе величины и X и Y являются случайными, но так как имеются общие факторы Z 1 и Z 2, оказывающие влияние и на X и на Y, то значения X и Y обязательно будут взаимосвязаны.

И связь это уже не будет функциональной: фактор Z 3, влияющий лишь на одну из случайных величин, разрушает прямую (функциональную) зависимость между значениями X и Y, принимаемыми в одном и том же испытании. Связь носит вероятностный случайный характер, в численном выражении меняясь, от испытания к испытанию, но эта связь определенно присутствует и называется статистической. При этом каждому значению X может соответствовать не одно значение Y, как при функциональной зависимости, а целое множество значений.

Зависимость случайных величин называют статистической, если изменения одной из них приводит к изменению закона распределения другой. Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то статистическую зависимость называют корреляционной. Сами случайные величины, связанные корреляционной зависимостью, оказываются коррелированными.

Существует два базовых инструмента, с помощью которых анализируются двухмерные данные: корреляционный анализ и регрессионный анализ, который показывает, как можно предсказать поведение одной из двух переменных или управлять ею с помощью другой. Задача корреляционного анализа сводится к установлению направления и формы связи между признаками, измерению ее тесноты и к оценке достоверности выборочных показателей корреляции. Корреляционная связь между признаками может быть линейной и криволинейной (нелинейной), положительной и отрицательной. Прямая корреляция отражает однотипность в изменении признаков: с увеличением значений первого признака увеличиваются значения и другого, или с уменьшением первого уменьшается второй. Обратная корреляция указывает на увеличение первого признака при уменьшении второго или уменьшение первого признака при увеличении второго.

Примерами корреляционной зависимости являются: зависимость массы от роста: - каждому значению роста (X) соответствует множество значений массы (Y), причем, несмотря на общую тенденцию, справедливую для средних, большему значению роста соответствует и большее значение массы – в отдельных наблюдениях субъект с большим ростом может иметь и меньшую массу. - зависимость заболеваемости от воздействия внешних факторов, например, запыленности, уровня радиации, солнечной активности и т.д. - количество (X) вводимого объекту препарата и его концентрация в крови (Y). - между показателями уровня жизни населения и процентом смертности; - между количеством пропущенных студентами лекций и оценкой на экзамене. Именно корреляционные зависимости наиболее часто встречаются в природе в силу взаимовлияния и тесного переплетения огромного множества самых различных факторов, определяющих значения изучаемых показателей.

Коэффициент корреляции Коэффициент корреляции это показатель взаимного вероятностного влияния двух случайных величин. Коэффициент корреляции R может принимать значения от -1 до +1. Если абсолютное значение находится ближе к 1, то это свидетельство сильной связи между величинами, а если ближе к 0 то, это говорит о слабой связи или ее отсутствии. Если абсолютное значение R равно единице, то можно говорить о функциональной связи между величинами, то есть одну величину можно выразить через другую посредством математической функции.

На практике, для вычисления коэффициента корреляции чаще используется формула ( 1.4 ) т.к. она требует меньше вычислений. Однако если предварительно была вычислена ковариация cov(X,Y), то выгоднее использовать формулу ( 1.1 ), т.к. кроме собственно значения ковариации можно воспользоваться и результатами промежуточных вычислений. Величина cov(X,Y) называется ковариацией случайных величин X и Y или корреляционным моментом.

Для независимых случайных величин ковариация будет равна нулю. Однако равенство cov(X, Y) = 0 не означает в общем случае полной независимости величин X и Y, т.е. оно является необходимым, но не достаточным условием для независимости признаков. Величина ковариации зависит от единиц измерения (изменяется, например, при переходе от метров к сантиметрам). Поэтому на практике чаще используют другой показатель коэффициент корреляции, который является величиной безразмерной.

Коэффициент корреляции часто используют и при связях, отличающихся от линейных. Если |г| =0,8...0,9, то, независимо от реального вида связи, можно утверждать, что она достаточно тесна для того, чтобы можно было исследовать ее форму с помощью коэффициента корреляции. Прямая Обратная Отсутствует 00 Слабая(0; 0,3)(0; -0,3) Умеренная[0,3; 0,5)[-0,3; -0,5) Значительная[0,5; 0,7)[-0,5; -0,7) Сильно выраженная [0,7; 0,9)[-0,7; -0,9) Очень сильная[0,9; 1][-0,9; -1]

Ошибка при интерпретации (даже еще при подсчете) коэффициента корреляции может быть допущена и в том случае, когда выборке присутствуют аномальные значения (очевидно большие или очевидно низкие). Они могут возникать, во-первых, из-за неоднородности исследуемых элементов выборки. Во- вторых, - из-за ошибок. Например, снятые показания какого-либо прибора: Одной такой ошибки оказывается достаточно для того, чтобы коэффициент корреляции очень существенно увеличился. 4. Ложная корреляция может также возникать при неслучайном отборе наблюдений для подсчета. Этот пункт некоторым образом противоположен предыдущему (первой части). Если там утверждалось, что аномальные значения желательно исключать из рассмотрения, то этот пункт предлагает делать это с осторожностью, чтобы своим умышленным влиянием не исказить подлинное положение вещей.

k x k y k х k 2 y k 2 х k y k

Пример. Коэффициент корреляции между показателями "Толчок штанги" и "Прыжок в высоту с места" для 13 тяжелоатлетов равен 0,855. Требуется оценить достоверность коэффициента корреляции

Задача 1. Оценить значимость полученного коэффициента корреляции Число степеней свободы ( n - 2 ) α = 0.1 α = 0.05 α = 0.02 α = 0.01 α = α = Таблица 2 t -распределение

Задача: Имеется связанная выборка из 11 пар значений (х k,y k ): Требуется вычислить - коэффициент ковариации; - коэффициент корреляции; - проверить гипотезу зависимости случайных величин X и Y, при уровне значимости α = 0.05 k x k ykyk k x k ykyk

Регрессионный анализ Основная особенность регрессионного анализа: при его помощи можно получить конкретные сведения о том, какую форму и характер имеет зависимость между исследуемыми переменными. Последовательность этапов регрессионного анализа Рассмотрим кратко этапы регрессионного анализа. Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений. Определение зависимых и независимых (объясняющих) переменных. Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель. Формулировка гипотезы о форме связи (простая или множественная, линейная или нелинейная). Определение функции регрессии (заключается в расчете численных значений параметров уравнения регрессии) Оценка точности регрессионного анализа. Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов. Предсказание неизвестных значений зависимой переменной.

При помощи регрессионного анализа возможно решение задачи прогнозирования и классификации. Прогнозные значения вычисляются путем подстановки в уравнение регрессии параметров значений объясняющих переменных. Решение задачи классификации осуществляется таким образом: линия регрессии делит все множество объектов на два класса, и та часть множества, где значение функции больше нуля, принадлежит к одному классу, а та, где оно меньше нуля, - к другому классу.

Задачи регрессионного анализа Рассмотрим основные задачи регрессионного анализа: установление формы зависимости, определение функции регрессии, оценка неизвестных значений зависимой переменной. Установление формы зависимости. Характер и форма зависимости между переменными могут образовывать следующие разновидности регрессии: положительная линейная регрессия (выражается в равномерном росте функции); положительная равноускоренно возрастающая регрессия; положительная равнозамедленно возрастающая регрессия; отрицательная линейная регрессия (выражается в равномерном падении функции); отрицательная равноускоренно убывающая регрессия; отрицательная равнозамедленно убывающая регрессия. Однако описанные разновидности обычно встречаются не в чистом виде, а в сочетании друг с другом. В таком случае говорят о комбинированных формах регрессии.

Определение функции регрессии. Вторая задача сводится к выяснению действия на зависимую переменную главных факторов или причин, при неизменных прочих равных условиях, и при условии исключения воздействия на зависимую переменную случайных элементов. Функция регрессии определяется в виде математического уравнения того или иного типа. Оценка неизвестных значений зависимой переменной. Решение этой задачи сводится к решению задачи одного из типов: Оценка значений зависимой переменной внутри рассматриваемого интервала исходных данных, т.е. пропущенных значений; при этом решается задача интерполяции. Оценка будущих значений зависимой переменной, т.е. нахождение значений вне заданного интервала исходных данных; при этом решается задача экстраполяции. Обе задачи решаются путем подстановки в уравнение регрессии найденных оценок параметров значений независимых переменных. Результат решения уравнения представляет собой оценку значения целевой (зависимой) переменной.

Рассмотрим некоторые предположения, на которые опирается регрессионный анализ. Предположение линейности, т.е. предполагается, что связь между рассматриваемыми переменными является линейной. Так, в рассматриваемом примере мы построили диаграмму рассеивания и смогли увидеть явную линейную связь. Если же на диаграмме рассеивания переменных мы видим явное отсутствие линейной связи, т.е. присутствует нелинейная связь, следует использовать нелинейные методы анализа. Предположение о нормальности остатков. Оно допускает, что распределение разницы предсказанных и наблюдаемых значений является нормальным. Для визуального определения характера распределения можно воспользоваться гистограммами остатков. При использовании регрессионного анализа следует учитывать его основное ограничение. Оно состоит в том, что регрессионный анализ позволяет обнаружить лишь зависимости, а не связи, лежащие в основе этих зависимостей. Регрессионный анализ дает возможность оценить степень связи между переменными путем вычисления предполагаемого значения переменной на основании нескольких известных значений.