ЛЕКЦИЯ 2 по дисциплине «Физика, математика» на тему: «Основы математической статистики» для курсантов и студентов I курса ФПВ, ФПиУГВ, спецфакультета
Законы теории вероятностей – это математическое выражение реальных закономерностей, которым подчиняются массовые случайные явления. При этом каждое исследование случайных явлений, выполняемое методами теории вероятностей, прямо или косвенно опирается на экспериментальные данные, на результаты испытаний и наблюдений.
Разработка методов получения, описания и анализа экспериментальных данных, определенных в результате исследования массовых случайных явлений, составляет предмет специальной науки – математической статистики.
Статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками. Предположим, что необходимо изучить множество объектов по какому-либо признаку. Это возможно сделать, либо произведя сплошное наблюдение (исследование, измерение), либо не сплошное (выборочное).
Выборочное исследование всегда предпочтительнее: а) по экономическим причинам (меньшая трудоемкость), б) часто сплошное обследование нереально (необходимо уничтожить все исследуемые объекты, невозможно обследовать все население Земли и т.п.).
Статистическая совокупность, состоящая из всех объектов, которые (по крайней мере теоретически) подлежат исследованию, называется генеральной совокупностью, а множество объектов, отобранных из нее по определенным правилам – выборочной совокупностью (выборкой).
Главная цель выборочного метода – по вычисленным числовым характеристикам выборки как можно точнее определить соответствующие характеристики генеральной совокупности.
Изучаемое свойство объектов выборки должно соответствовать свойству объектов генеральной совокупности, то есть выборка должна быть представительной (репрезентативной). Случайность отбора – обязательное условие репрезентативности выборки. Свойства выборочной совокупности тем лучше отражают свойства генеральной совокупности, чем больше объектов содержит эта выборочная совокупность (т.е. чем больше ее объем).
На практике всегда необходимо искать компромисс, чтобы исследуемые выборки были, с одной стороны, не слишком велики, а с другой – репрезентативны.
а) Статистический дискретный ряд распределения Пусть необходимо изучить распределение значений признака Х у объектов некоторой генеральной совокупности. С этой целью из данной генеральной совокупности извлекают некоторую выборочную совокупность объемом n.
Пусть в полученной выборке наименьшее значение x 1 признака встречается m 1 раз, следующее по величине значение x 1 – m 2 раз, и так далее, до х k – m k раз. Наблюдаемые значения признака (x 1, x 2, x 3 и т.д.) принято называть вариантами, а числа m 1, m 2, m 3, …m k – их частотами. Естественно, что сумма всех частот равна объему выборки (n ). m 1 + m 2 + m 3 +…+ m k = n
Если результаты наблюдений представить в виде таблицы, то получим: Xx1x1 X2X2 x3x3 …xkxk m m1m1 m2m2 m3m3 …mkmk pp 1= m 1 /np 2 = m 2 /np 3 = m 3 /n…p k = m k /n Здесь p – относительная частота.
Такую таблицу называют статистическим дискретным рядом распределения. Cтатистический дискретный ряд распределения – это совокупность вариант и соответствующих им частот (или относительных частот). В медицинской литературе статистическое распределение, состоящее из вариант и соответствующих им частот, получило название вариационного ряда.
Для графического изображения подобного ряда на координатной плоскости откладывают точки (x i ; m i ) и соединяют их отрезками прямых. Такую ломаную линию, являющуюся графическим представлением дискретного статистического ряда распределения, называют полигоном частот.
Пример. Анализируемый показатель Х – срок лечения больного при некотором заболевании. Вариационный ряд – распределение больных по срокам лечения (объем выборки n = 26 больных) – имеет вид: xixi mimi pipi 0,080,190,150,310,190,08
Очевидно, что представление результатов наблюдений в виде статистического дискретного ряда распределения на практике удобно лишь в случае ограниченного (не более 10-20) количества различающихся между собой вариант в выборочной совокупности. Если же количество таких вариант существенно больше, то результаты представляют в виде статистического интервального ряда распределения.
Для построения такого ряда всю область наблюдаемых значений изучаемого признака Х разбивают на некоторое небольшое количество равных по величине интервалов и фиксируют количество значений признака, принадлежащих каждому интервалу (суммe частот вариант, попавших в этот интервал).
Пусть, например все наблюдавшиеся значения признака Х принадлежат интервалу (a,b). Разделим этот интервал на k равных частей (частичных интервалов) длиной Δх = (b-a)|k и обозначим точки деления как x 0 =a, x 1, x 2, …, x k-1, x k =b. Если частоты интервалов равны, соответственно, m 1, m 2, …, m k, то можно составить таблицу, в первой строке которой перечислить все частичные интервалы, а во второй соответствующие им частоты (или относительные частоты):
Х(x 0, x 1 )(x 1, x 2 )(x 2, x 3 )…(x k-2, x k-1 )(x k-1, x k ) mm1m1 m2m2 m3m3 …m k-1 mkmk pp 1 =m 1 /np 2 =m 2 /np 3 =m 3 /n…p k-1 =m k-1 /np k /n
Графическим изображением статистического интервального ряда распределения является фигура, называемая полигоном частот (или относительных частот). Это совокупность смежных прямоугольников, основания которых равны Δх, а высоты – отношению m i / Δх (или p i / Δх).
Площадь каждого прямоугольника равна: или Площадь гистограммы частот равна n, а площадь гистограммы относительных частот равна 1.
Мода (Mo) равна варианте, которой соответствует наибольшая частота. Медиана (Ме) равна варианте, которая расположена в середине статистического распределения. Она делит вариационный ряд на две равные части. При четном числе вариант за медиану принимают среднее значение из двух центральных вариант.
Выборочная средняя – это среднее арифметическое вариант статистического ряда. где m i – частота встречаемости значения x i в выборке, k – количество различающихся между собой значений признака (количество вариант), n – объем выборки.
Для характеристики рассеяния вариант вокруг среднего значения вводят характеристику, называемую выборочной дисперсией – среднее арифметическое квадратов отклонения вариант от их среднего значения.
Корень квадратный из выборочной дисперсии называют выборочным средним квадратическим отклонением.
Предположим, что генеральная совокупность является нормальным распределением. Нормальное распределение полностью определено математическим ожиданием и средним квадратическим отклонением. Поэтому, если по выборке можно оценить, то есть приближенно найти, эти параметры, то будет решена одна из задач математической статистики – определение параметров большого массива по исследованию его части.
Как и для выборки, для генеральной совокупности можно определить генеральную среднюю - среднее арифметическое значение всех величин, составляющих генеральную совокупность (учитывая большой объем этой совокупности, можно считать, что генеральная средняя равна математическому ожиданию).
Рассеяние значений изучаемого признака генеральной совокупности оценивают генеральной дисперсией или генеральным средним квадратическим отклонением.
а) Точечные оценки Оценка характеристики распределения называется точечной, если она определяется одним числом, которому приближенно равна оцениваемая характеристика.
Наилучшей оценкой генеральной средней является средняя выборочная:
Наилучшей точечной оценкой генеральной дисперсии является так называемая исправленная выборочная дисперсия, определяемая по формуле:
Наилучшей точечной оценкой генерального среднего квадратического отклонения является исправленное выборочное среднее квадратическое отклонение.
Точечные оценки параметров генеральной совокупности справедливы лишь при достаточно большом объеме выборки. При небольшом объеме выборки пользуются интервальными оценками. В этом случае указывается интервал (доверительный интервал), в котором с определенной (как правило, заранее заданной) вероятностью р (доверительной вероятностью) находится генеральная средняя.
Иначе говоря, р определяет вероятность того, что осуществляются следующие неравенства: где положительное число ε характеризует точность оценки.
Чем шире доверительный интервал, тем выше доверительная вероятность, и наоборот. При решении статистических задач в фармации, медицине и биологии доверительную вероятность, как правило, принимают равной 0,95 (реже – 0,99).
Кроме доверительной вероятности, используют противоположное понятие – уровень значимости (вероятность непопадания генеральной средней в доверительный интервал).
При оценке генеральной средней по результатам выборочных наблюдений в предположении нормального распределения признака в генеральной совокупности доверительный интервал для заданной доверительной вероятности находят следующим методом:
Определяют полуширину доверительного интервала для интервальной оценки генеральной средней при заданной доверительной вероятности р по формуле:
Интервальная оценка генеральной средней может быть использована для оценки истинного значения измеряемой величины. Пусть несколько раз измеряют одну и ту же физическую величину. При этом по разным случайным причинам получают разные значения: x 1, x 2, x 3, …x i. Будем считать, что нет преобладающего влияния какого-либо фактора на эти измерения.
Если значения x 1, x 2, x 3, …x i. рассматривать как варианты выборки, а истинное значение измеряемой величины как аналог генеральной средней, то можно по описанным выше правилам определить доверительный интервал, в который с доверительной вероятностью р попадает истинное значение измеряемой величины.