Углубленный анализ данных: этапы проверки гипотез Ключевые решения при проверке гипотез Этап 1: 1. Определяется нулевая гипотеза. Нулевая гипотеза – это предположение о том, что между определенными статистическими параметрами генеральной совокупности (средними или долями) не существует связи или различия. Ее подтверждение не требует от компании каких-либо действий. 2. Формулируется альтернативная гипотезы. Альтернативная гипотеза – это утверждение о том, что между определенными статистическими параметрами (средними или долями) генеральной совокупности есть связь или различия. Ее подтверждение означает, что руководству компании следует предпринимать какие-либо действия или менять свои взгляды на положение дел. Альтернативная гипотеза противоположна нулевой. Маркетолог проверяет нулевую гипотезу, так как она имеет отношение к конкретному значению параметра совокупности, а не к выборочным статистикам.
Проверка гипотез имеет два исхода: нулевая гипотеза отклоняется и тогда принимается альтернативная гипотеза; нулевая гипотеза отклоняется и тогда принимается альтернативная гипотеза; нулевая гипотеза принимается. нулевая гипотеза принимается. 3. Гипотезы формулируются так, чтобы взаимно исключать друг друга. 4. Проверка нулевой гипотезы с использованием критериев: односторонний критерий (критерий проверки нулевой гипотезы, когда альтернативная гипотеза имеет четкую направленность); односторонний критерий (критерий проверки нулевой гипотезы, когда альтернативная гипотеза имеет четкую направленность); двусторонний критерий (критерий проверки нулевой гипотезы, когда альтернативная гипотеза не имеет четкой направленности). Чаще используется односторонний критерий. двусторонний критерий (критерий проверки нулевой гипотезы, когда альтернативная гипотеза не имеет четкой направленности). Чаще используется односторонний критерий. Этап 2: Определяют подходящий статистический метод для проверки гипотез. Нужно придерживаться процедуры вычисления выборочной статистики. Выборочная статистика критерия – это мера соответствия выборки нулевой гипотезе. Она часто подчиняется таким распределениям как, нормальное, Стьюдента (t-распределение) или хи-квадрат распределение. Определяют подходящий статистический метод для проверки гипотез. Нужно придерживаться процедуры вычисления выборочной статистики. Выборочная статистика критерия – это мера соответствия выборки нулевой гипотезе. Она часто подчиняется таким распределениям как, нормальное, Стьюдента (t-распределение) или хи-квадрат распределение. Углубленный анализ данных: этапы проверки гипотез
Этап 3: 5. Производится выбор уровня значимости. Выводы, сделанные в отношении изучаемой статистики могут оказаться ошибочными. Выделяют два типа ошибок: Ошибка первого рода или альфа-ошибка, имеет место тогда, когда по результатам выборочного распределения отклоняют нулевую гипотезу, которая на самом деле верна. Вероятность ошибки первого рода называют уровнем значимости. Вероятность ошибки первого уровня устанавливается исходя из допустимого уровня риска отклонения истинной нулевой гипотезы. Выбор уровня риска зависит от того, во сколько оценивается ошибка первого рода. Ошибка первого рода или альфа-ошибка, имеет место тогда, когда по результатам выборочного распределения отклоняют нулевую гипотезу, которая на самом деле верна. Вероятность ошибки первого рода называют уровнем значимости. Вероятность ошибки первого уровня устанавливается исходя из допустимого уровня риска отклонения истинной нулевой гипотезы. Выбор уровня риска зависит от того, во сколько оценивается ошибка первого рода. Ошибка второго рода так же известна под названием бета-ошибки, имеет место тогда, когда результата выборки ведут к принятию нулевой гипотезы, которая фактически ошибочна. Ее величина зависит от фактического значения параметра генеральной совокупности. Мощность статистического критерия – это вероятность отклонения нулевой гипотезы, когда она фактически неверна и должна быть отвергнута (1-β). Хотя величина бета неизвестна, она связана с альфа. Низкое значение α может привести к высокому значению β. Поэтому нужно сбалансировать два типа ошибок. В качестве компромисса альфа часто устанавливают равной 0,05 или 0,01, другие значения встречаются редко. Риском альфа и бета можно управлять увеличив размер выборки. Ошибка второго рода так же известна под названием бета-ошибки, имеет место тогда, когда результата выборки ведут к принятию нулевой гипотезы, которая фактически ошибочна. Ее величина зависит от фактического значения параметра генеральной совокупности. Мощность статистического критерия – это вероятность отклонения нулевой гипотезы, когда она фактически неверна и должна быть отвергнута (1-β). Хотя величина бета неизвестна, она связана с альфа. Низкое значение α может привести к высокому значению β. Поэтому нужно сбалансировать два типа ошибок. В качестве компромисса альфа часто устанавливают равной 0,05 или 0,01, другие значения встречаются редко. Риском альфа и бета можно управлять увеличив размер выборки. Углубленный анализ данных: этапы проверки гипотез
Этап 4: 6. Проводится сбор данных по установленной выборки. Размер выборки определяют приняв во внимание желаемые значения вероятностей совершения ошибок первого и второго рода. 7. После сбора данных вычисляют значение выборочной статистики. Можно вычислить z-статистику по формуле: π – выборочная доля; - доля элементов, обладающих признаком. - доля элементов, обладающих признаком. определяется по формуле: определяется по формуле: n – объем выборки.
Углубленный анализ данных: этапы проверки гипотез Этап 5: 8. Необходимо установить критическое значение Z – статистики. Используя таблицы нормального распределения можно вычислить вероятность получения значения Z, равного рассчитанной на этапе 4 величине. При определении критического значения выборочной статистики область вправо от критического значения критерия равна α для одностороннего критерия и α/2 – для двустороннего. Этап 6 и 7: 9. Необходимо сравнить выборочное значение Z – статистики с критическим значением и принять решение. Зная вероятность получения Z равного определенной величине можно сказать, что это вероятность получения значения р при заданном значении элементов, обладающих признаком. При α-ошибке равной 0,05, если вероятность получения Z – критерия меньше уровня значимости 0,05, то нулевая гипотеза отклоняется и наоборот. Если вероятность получения вычисленного значения выборочной статистики меньше, чем уровень значимости α, то нулевую гипотезу отклоняют. Если вычисленное значение выборочной статистики больше, чем ее критическое значение, то нулевую гипотезу отклоняют.
Углубленный анализ данных: этапы проверки гипотез Этап 8: 10. Делают вывод по результатам маркетингового исследования. Здесь мы должны ответить на поставленный вопрос, требующий исследования. Проверку статистической гипотезы используют для проверки наличия связей между переменными и для проверки различий между параметрами генеральной совокупности. Проверка различий может производиться с помощью распределения, средних, долей, медианы, рангов.
Углубленный анализ данных: проверка гипотезы о связи между переменными - таблицы сопряженности признаков Для проверки связей между переменными используют таблицы сопряженности признаков - это таблицы кросс-табуляции состоящие из ячеек, в которых приведены комбинации категорий двух переменных. Построение таблиц сопряженности признаков (кросс-табуляций) - это статистический метод, который одновременно характеризует две или более переменных и заключается в создании таблиц сопряженности признаков, отражающих совместное распределение двух или более переменных с ограниченным числом категорий или определенными значениями. Такие таблицы объясняют, как одна переменная связана с другой переменной.
Углубленный анализ данных: проверка гипотезы о связи между переменными - таблицы сопряженности признаков Таблицами сопряженности признаков позволяют: обеспечить простоту, понятность анализа и легкость интерпретации результатов исследований; обеспечить простоту, понятность анализа и легкость интерпретации результатов исследований; способствуют принятию верных управленческих решений в короткие сроки, так как трактовка результатов абсолютно понятна; способствуют принятию верных управленческих решений в короткие сроки, так как трактовка результатов абсолютно понятна; ряд операций кросс-табуляции позволяет лучше понять сложное явление, чем это сделал бы один многовариантный анализ; ряд операций кросс-табуляции позволяет лучше понять сложное явление, чем это сделал бы один многовариантный анализ; облегчается проблема разбросанных ячеек, которая затрудняет дискретный многовариантный анализ; облегчается проблема разбросанных ячеек, которая затрудняет дискретный многовариантный анализ; этот анализ прост и может использоваться начинающими исследователями, плохо знающими статистический анализ. этот анализ прост и может использоваться начинающими исследователями, плохо знающими статистический анализ.
Углубленный анализ данных: таблицы сопряженности признаков Процесс построения таблиц сопряженности признаков Если в кросс-табуляции используется две переменные, то таблицу называют двумерной. Изменения происходящие в ячейках кросс-табуляции позволяет понять вычисление процентов. Проценты можно вычислять по строкам или столбцам таблицы. Двумерная табуляция с итогом по столбцу Частота посещения универмага Пол МужскойЖенский ЧАСТО33,366,7 НЕЧАСТО66,733,3 ИТОГО100100
Углубленный анализ данных: таблицы сопряженности признаков Двумерная табуляция с итогом по строке ПОЛ Частота посещения универмага ИТОГО ЧастоНечасто МУЖСКОЙ33,366,7 100 ЖЕНСКИЙ66,733,3100 Выбор между таблицами зависит от того, какая переменная рассматривается как независимая, а какая как зависимая. Проценты следует вычислять для каждой категории независимой переменной. Поэтому в нашем примере лучше использовать таблицу 1, так как пол независимая переменная, а частота посещения универмага – зависимая.
Углубленный анализ данных: таблицы сопряженности признаков В таблицы сопряженности признаков вводят третью переменную, тогда кросс-табуляцию называют трехмерной. Введение третей переменной позволяет уяснить природу исходной связи между двумя переменными и обеспечивает ряд возможностей: 1. Уточнить связь между двумя исходными переменными. Рассмотрим пример связи между покупкой модной одежды и семейным положением. Таким образом, модную одежду более активно покупают не семейные люди, чем те кто имеет семью. Однако, для уточнения связи введем третью переменную – пол. Покупка модной одежды Семейное положение Женат (замужем) Не женат (не замужем) Покупают часто 3152 Покупают мало 6948 Итого Количество респондентов, чел
Углубленный анализ данных: таблицы сопряженности признаков Покупка модной одежды Пол МужскойЖенский женатнеженатзамужемнезамужнем Покупаю много Покупаю мало Итого Количество респондентов, чел Итак, незамужние женщины часто покупают модную одежду по сравнению с замужними, у мужчин эта взаимосвязь прослеживается не так явно как у женщин, хотя тоже присутствует. Поэтому наше предположение подтвердилось. Мы получили уточнение, что эта связь выше у женщин, чем у мужчин.