{ выборка из генеральной совокупности - эмпирическая (выборочная) функция распределения – гистограмма – статистические оценки – точечные оценки параметров и их критерии – методы получения оценок параметров – метод моментов – метод наибольшего подобия }
Задачи, решаемые математической статистикой, являются, в некотором смысле, обратными задачам теории вероятностей. В вероятностных задачах распределения случайных величин считаются известными. В статистических задачах само распределение считается неизвестным, и целью исследования является получение более или менее достоверной информации об этом распределении, собранной в результате наблюдений. Основой статистического анализа являются данные, полученные экспериментатором в результате опыта, например, n повторных измерений некоторой неизвестной величины X {x 1,x 2,…,x n }, принимаемых случайной величиной. Это множество называется выборкой из генеральной совокупности всех значений случайной величины, а количество n – объемом выборки. Эти значения естественно считать реализацией набора из n независимых одинаково распределенных случайных величин с неизвестной функцией распределения F (x). Данные должны быть выбраны из генеральной совокупности случайным образом, их объем достаточно велик. В этом случае выборка называется репрезентативной (представвительной).
Вектор этих данных называют выборкой из генеральной совокупности данных. n - мерная случайная величина X (x 1, x 2, …, x n ) с независимыми одинаково распределенными компонентами x i, i = 1, 2,.., n называется независимой выборкой объема n неизвестного распределения F (x). Часто встречается ситуация, когда экспериментатор имеет основания предполагать, что неизвестное распределение принадлежит некоторому семейству распределений F (x, ), зависящему от параметра. В этом случае проблема статистического анализа сводится к получению информации об этом неизвестном параметре. Любая функция h = h ( x 1, x 2, ….., x n ) выборочных значений называется статистикой.
@ Для контроля качества в 40 пробах стали GS50 определялось содержание углерода X ( %С ) и прочность на разрыв z ( Н/мм ). Данные оформлены в виде таблицы чисел: X : 0.3, 0.33, 0.37, 0.36, 0.31, 0.29, 0.34, 0.39, 0.37, 0.38, 0.35, 0.32, 0.39, 0.3, 0.32, 0.32, 0.38, 0.37, 0.38, 0.33, 0.37, 0.33, 0.34, 0.33, 0.3, 0.34, 0.36, 0.33, 0.34, 0.36, 0.29, 0.3, 0.33, 0.32, 0.32, 0.38, 0.37, 0.34, 0.35, 0.36 X = X ( x 1, x 2, …, x 40 ) – выборка объемом n = 40 Z : 589, 614, 612, 572, 548, 537, 574, 570, 540, 575, 535, 593, 582, 538, 566, 562, 601, 587, 587, 614, 602, 544, 545, 562, 576, 596, 605, 575, 570, 550, 572, 555, 555, 518, 539, 557, 558, 587, 580, 560 Z = Z ( z 1, z 2,…, z 40 ) – выборка объемом n = 40
Пусть X ( x 1, x 2, …, x n ) - независимая выборка неизвестного распределения F ( x ). Теорема Гливенко: В пределе выборочная функция распределения равномерно сходится к теоретической. Эмпирической (выборочной) функцией распределения называется функция F* n (t) : R -> [ 0, 1 ], вычисляемая по выборке X ( x 1, x 2, …, x n ) как отношение числа элементов выборки, не превосходящих t, к объему выборки: F(t) 1 t
Определим функцию График h(t) - гистограмма h(t) xLR Помимо эмпирических функций распределения, наглядное представление о неизвестном распределении можно получить при помощи гистограмм. Пусть X ( x 1, x 2, …, x n ) - независимая выборка неизвестного распределения F ( x ). Выберем два числа L и R, такими, чтобы все числа x i попали внутрь интервала ( L, R ]. Разобъем этот интервал его на конечное число меньших интервалов Произведем группировку выборки, а именно, для каждого интервала разбиения j объединим в группу те x i, которые попали в этот интервал. Пусть n j - число таких элементов выборки:
@ Построить гистограмму x h(x) Вариационный ряд: … ….. 38 … …44… Среднее значение Разброс значений
Случайная величина X характеризуется рядом числовых параметров: математическим ожиданием, дисперсией, модой, медианой, моментами разных порядков и т.д. Это параметры генеральной совокупности. На основе выборочных данных можно получить статистические оценки этих параметров. Для оценки математического ожидания применяется выборочное среднее Для группированной выборки используется формула, в которой все m j значений выборки, попавшей в j - ый интервал, равны представителю этого интервала ( всего их k )
Для оценки дисперсии по выборке используется формула В случае группированной выборки Оценка среднеквадратичного отклонения :
Модой любой функция h (x) унимодального (одновершинного) распределения является элемент выборки, встречающийся с наибольшей частотой. Оценкой медианы называют число, которое делит вариационный ряд на две части с равным числом элементов Оценки начальных и центральных моментов k – го порядка вычисляются по формулам : Форма распределения случайной величины характеризуется выборочными коэффициентами асимметрии и эксцесса
@ Найти выборочное среднее и дисперсию для группированной выборки:
Оценка называется несмещенной для функци от неизвестного параметра, если Пусть – неизвестный параметр распределения случайной величины. Какие оценки можно считать хорошими ? Оценка называется эффективной, если при заданном объеме выборки она имеет наименьшую возможную дисперсию Статистика, используемая в приближенном равенстве называется точечной оценкой неизвестного параметра по выборке
Последовательность оценок (соответствующих увеличивающимся в объеме выборкам) называется состоятельной, если при росте объемов выборки статистика будет стремиться к истинному значению параметра то есть
@ Соответствует ли выборочное среднее отмеченным выше критериям ? 1.Оценка состоятельная, так как выполнены условия теоремы Чебышева 2. Оценка несмещенная
@ 3. Оценка эффективная
@ Соответствует ли выборочная дисперсия отмеченным выше критериям ? 1.Оценка состоятельная, так как
@ 3. Оценка эффективная 2. Оценка смещенная !
Идея метода моментов заключается в приравнивании теоретических и эмпирических моментов. Предполагается, что и - конечная величина. Решая это уравнение получим искомую оценку. Если нужно оценить k параметров q 1, q 2, …., q n, то нужно найти выражения для моментов k – го порядка, приравнять их соответствующим эмпирическим моментам, и решить полученную систему уравнений. Преимущества метода: сравнительная простота. Метод однако не дает часто эффективных оценок.
При получении оценки естественно найти такое её значение, при котором вероятность реализации выборки x 1, x 2, …., x n была бы максимальной. Тогда вероятность при n независимых наблюдениях величины получить выборку x 1, x 2, …, x n равна Пусть имеет дискретное распределение. Возможные значения параметров a 1, a 2, …., a k с соответствующими вероятностями P 1 ( ), P 2 ( ), …. P k ( ), где – фиксированное значение параметра. P (x = a i ) = P i ( ). Пусть в выборке x 1, x 2, …, x n значения a j встретились n j раз ( j = 1, 2, …, k ). E – одна из реализаций. Число способов этих реализаций :
Функцией правдоподобия называют функцию L ( X, ) Оценку параметра будем искать так, чтобы P = max или L ( X, ) = max. Удобнее брать Решая полученное уравнение или систему уравнений, если параметров больше одного, получим искомые оценки для. Преимущества метода: оценки получаются состоятельными, асимптотически эффективными. Оценки однако могут быть смещенными.
@ Пусть X i, i = 1,2, …, n – выборка СВ с нормальным распределением. Найти оценки параметров m и D методом наибольшего правдоподобия. Функция правдоподобия
@ Необходимое условие экстремума функции ln L : Решение: