1 марта 2013 г.1 марта 2013 г.1 марта 2013 г.1 марта 2013 г. Лекция 3. Одномерные частотные распределения 3-1. Построение частотных распределений 3-2. Графические представления поведения переменной 3-3. Статистические характеристики переменной 3-4. Точечное и интервальное оценивание
2 Иванов О.В Анализ частотных распределений Анализ частотных распределений результатов количественного социологического исследования является первым шагом при обработке собранной информации. Методы одномерного описательного анализа решают задачу сжатия исходной информации, компактного ее представления для дальнейшего осмысления. Рассматриваем три метода: – построение частотных распределений, – графическое представление поведения переменной, – получение статистических характеристик распределения переменной.
1 марта 2013 г.1 марта 2013 г.1 марта 2013 г.1 марта 2013 г Построение частотных распределений Частотная таблица для анализа переменной Проблема пропущенных значений
4 Иванов О.В Данные проведенного исследования
5 Иванов О.В Вопрос анкеты 9. Что Вы могли бы сказать о своем настроении в последние дни? 1. Прекрасное настроение 2. Нормальное, ровное состояние 3. Испытываю напряжение, раздражение 4. Испытываю страх, тоску 5. Затрудняюсь ответить
6 Иванов О.В Строим частотное распределение
7 Иванов О.В Таблица частот FrequencyPercent Valid Percent Cumulative Percent 1. Прекрасное настроение1586,6 2. Нормальное, ровное состояние118549,2 55,8 3. Испытываю напряжение, раздражение 75231,2 87,0 4. Испытываю страх, тоску1636,8 93,8 5. Затрудняюсь ответить1496,2 100,0 Total ,0
8 Иванов О.В Пропущенные данные
9 Иванов О.В Исключение затруднившихся ответить FrequencyPercent Valid Percent Cumulative Percent Valid 1. Прекрасное настроение1586,67,0 2. Нормальное, ровное состояние118549,252,559,5 3. Испытываю напряжение, раздражение 75231,233,392,8 4. Испытываю страх, тоску1636,87,2100,0 Total225893,8100,0 Missing5. Затрудняюсь ответить1496,2 Total ,0
10 Иванов О.В Меню пропущенных данных Имеется три варианта задания кодов пропущенных данных: не определять кодов пропущенных данных для анализируемой переменной, задать от 1 до 3 точных значений кодов пропущенных данных, задать интервал значений кодов пропущенных данных и одно точное значение кода пропущенных данных.
1 марта 2013 г.1 марта 2013 г.1 марта 2013 г.1 марта 2013 г Графические представления поведения переменной Столбиковая и круговая диаграммы
12 Иванов О.В Столбиковая диаграмма
13 Иванов О.В Круговая диаграмма
14 Иванов О.В Меню Charts команды Frequencies
1 марта 2013 г.1 марта 2013 г.1 марта 2013 г.1 марта 2013 г Статистические характеристики переменной Меры центральной тенденции Процентили, квартили Меры разброса Характеристики распределения (асимметрия, куртозис)
16 Иванов О.В Меры центральной тенденции Измерение центральной тенденции (measure of central tendency) состоит в выборе одного числа, которое наилучшим образом описывает все значения признака из набора данных. Такое число называют центром, типическим значением для набора данных, мерой центральной тенденции. Три меры: мода, медиана, среднее
17 Иванов О.В Меры и шкалы Шкала, по которой измеряется переменная, накладывает ограничения на выбор меры центральной тенденции. Типическое значение Номинальные данные Порядковые данные Интервальные данные Мода Медиана Среднее
18 Иванов О.В Измерение вариации (measure of variation) Задача - выразить степень разброса (вариацию) одним числом. Меры разброса: размах, квартильный размах, дисперсия, стандартное отклонение, коэффициент вариации, стандартная ошибка среднего.
19 Иванов О.В Размах (Range) Размах – разность между наибольшим значением набора данных и наименьшим. Пример: Для набора данных 27, 8, 3, 12, 10, 26, 6, 19 размах равен R = 27 – 3 = 24.
20 Иванов О.В Квартили (Quartile) Под квартилями понимаются значения, которые делят вариационный ряд на четыре равные части. Ниже первого квартиля расположено 25% всех данных. Между первым и вторым квартилем также расположено 25% данных. Второй квартиль совпадает с медианой. 1n25%
21 Иванов О.В Размах квартилей (Inter Quartile Range) Размах квартилей есть разница между третьим и первым квартилем и вычисляется по формуле: Между Q 1 и Q 3 расположены 50% всех данных. 1n25%
22 Иванов О.В Коробковая диаграмма (Box plot) Диаграмма, основанная на пяти важных числах. Удобна для анализа данных и часто используется. МинимумМаксимум Медиана
23 Иванов О.В Дисперсия Дисперсия выборки – среднее арифметическое квадратов отклонений значений выборки от выборочного среднего. Вычисляем по формуле:
24 Иванов О.В Стандартное отклонение Стандартное отклонение вычисляется как корень из дисперсии: Стандартное отклонение имеет исключительную важность для описания распределения данных.
25 Иванов О.В Асимметрия (Skewness) Если распределение симметрично, асимметрия равна нулю. В этом случае совпадают значения моды, медианы и среднего арифметического. Если одно или несколько значений существенно превышают остальные, имеется положительная асимметрия. Средняя больше моды и медианы. Если одно или несколько значений существенно меньше остальных, имеется отрицательная асимметрия. Средняя меньше моды и медианы.
26 Иванов О.В Коэффициент асимметрии Коэффициент асимметрии находится по следующей формуле: Изменяется в пределах от -3 до 3. Положителен при положительной асимметрии, отрицателен при отрицательной. Равен нулю, если асимметрия отсутствует.
27 Иванов О.В Куртозис (Kurtosis) Под куртозисом понимается крутость кривой распределения, которая определяется сопоставлением кривой с кривой стандартного нормального распределения. Островершинное Плосковершинное Стандартное
28 Иванов О.В Меню Statistics
1 марта 2013 г.1 марта 2013 г.1 марта 2013 г.1 марта 2013 г Точечное и интервальное оценивание Доверительные интервалы Проверка гипотез
30 Иванов О.В Точечная оценка (point estimate) Точечной оценкой называется число, которое используется в качестве оценки параметра генеральной совокупности. Например, среднее значение выборки является точечной оценкой среднего значения генеральной совокупности. Доля признака, рассчитанная по выборке, может рассматриваться как оценка доли признака в генеральной совокупности. ОценкаПараметр
31 Иванов О.В Ошибка оценки (estimation error) Ошибкой оценки называют разность между оцениваемым параметром генеральной совокупности и оценкой, рассчитанной на основе выборки. Ошибка оценки обычно неизвестна, поскольку неизвестен параметр. Ошибка оценки = Параметр – Оценка
32 Иванов О.В Доверительный интервал (confidence interval) Доверительный интервал – вычисленный на основе выборки интервал значений признака, который с известной вероятностью содержит оцениваемый параметр генеральной совокупности. «Мы на 95% уверены, что доля людей которым известна наша торговая марка находится где-то между 23,2% и 38,0%». 0,232 0,380 «Параметр находится где-то здесь с 95% вероятностью»
33 Иванов О.В Данные Вводим данные о возрасте 20 студентов Переменная названа нами Age Затем в меню Analyze выбираем One-Sample T test
34 Иванов О.В Отчет T-test