Глава 13. Статистический анализ результатов исследований

Основные понятия математической статистики

Математическая статистика – это раздел математики, изучающий приближенные методы сбора и анализа данных по результатам эксперимента для выявления существующих закономерностей, т.е. отыскания законов распределения случайных величин и их числовых характеристик.

В математической статистике принято выделять два основных направления исследований:

1.Оценка параметров генеральной совокупности.

2.Проверка статистических гипотез (некоторых априорных предположений).

Основными понятиями математической статистики являются: генеральная совокупность, выборка, теоретическая функция распределения.

Генеральной совокупностью является набор всех мыслимых статистических данных при наблюдениях случайной величины.

ХГ = {х1, х2, х3, …, хN, } = { хi ; i=1,N }

Наблюдаемая случайная величина Х называется признаком или фактором выборки. Генеральная совокупность – есть статистический аналог случайной величины, ее объем N обычно велик, поэтому из нее выбирается часть данных, называемая выборочной совокупностью или просто выборкой.

ХВ = {х1, х2, х3, …, хn, } = { хi ; i=1,n }

ХВ Ì ХГ, n £ N

Выборка – это совокупность случайно отобранных наблюдений (объектов) из генеральной совокупности для непосредственного изучения. Количество объектов в выборке называется объемом выборки и обозначается n. Обычно выборка составляет 5%-10% от генеральной совокупности.

Использование выборки для построения закономерностей, которым подчинена наблюдаемая случайная величина, позволяет избежать ее сплошного (массового) наблюдения, что часто бывает ресурсоемким процессом, а то и просто невозможным.

Например, популяция представляет собой множество индивидуумов. Изучение целой популяции трудоемко и дорого, поэтому собирают данные по выборке индивидуумов, которых считают представителями этой популяции, позволяющими сделать вывод относительно этой популяции.

Однако, выборка обязательно должна удовлетворять условию репрезентативности, т.е. давать обоснованное представление о генеральной совокупности. Как сформировать репрезентативную (представительную) выборку? В идеале стремятся получить случайную (рандомизированную) выборку. Для этого составляют список всех индивидуумов в популяции и случайно их отбирают. Но иной раз затраты при составлении списка могут оказаться недопустимыми и тогда берут приемлемую выборку, например, одну клинику, больницу и исследуют всех пациентов в этой клинике с данным заболеванием.

Каждый элемент выборки Глава 13. Статистический анализ результатов исследований - student2.ru называется вариантой. Число повторений варианты Глава 13. Статистический анализ результатов исследований - student2.ru в выборке называется частотой встречаемости Глава 13. Статистический анализ результатов исследований - student2.ru . Величина Глава 13. Статистический анализ результатов исследований - student2.ru называется относительной частотой варианты, т.е. находится как отношение абсолютной частоты варианты Глава 13. Статистический анализ результатов исследований - student2.ru ко всему объему выборки. Последовательность вариант, записанных в возрастающем порядке, называется вариационным рядом.

Рассмотрим три формы вариационного ряда: ранжированный, дискретный и интервальный.

Ранжированный ряд - это перечень отдельных единиц совокупности в порядке возрастания изучаемого признака.

Дискретный вариационный ряд представляет собой таблицу, состоящую из граф, либо строк: конкретного значения признака хi и абсолютной частоты ni (или относительной частоты ωi) проявления i-го значения признака x.

Примером вариационного ряда служит таблица

Значение Глава 13. Статистический анализ результатов исследований - student2.ru 14,3 14,7 15,0 15,5
Частота Глава 13. Статистический анализ результатов исследований - student2.ru 0,08 0,16 0,29 0,34 0,13

Статистическое распределение – это совокупность вариант Глава 13. Статистический анализ результатов исследований - student2.ru и соответствующих им частот Глава 13. Статистический анализ результатов исследований - student2.ru . Для проверки правильности записи статистического распределения используют условие нормировки: Глава 13. Статистический анализ результатов исследований - student2.ru .

Задано распределение частот выборки объема n=20.

Глава 13. Статистический анализ результатов исследований - student2.ru
Глава 13. Статистический анализ результатов исследований - student2.ru

Написать распределение относительных частот.

Решение: Найдем относительные частоты. Для этого разделим частоты на объем выборки:

Глава 13. Статистический анализ результатов исследований - student2.ru

Распределение относительных частот имеет вид:

Глава 13. Статистический анализ результатов исследований - student2.ru
Глава 13. Статистический анализ результатов исследований - student2.ru 0,15 0,5 0,35

Контроль: 0,15 + 0,5 + 0,35 = 1.

Дискретный ряд можно изобразить графически. В прямоугольной декартовой системе координат отмечаются точки с координатами ( Глава 13. Статистический анализ результатов исследований - student2.ru ) или ( Глава 13. Статистический анализ результатов исследований - student2.ru ), которые соединяются прямыми линиями. Такую ломаную называют полигоном частот.

Построить дискретный вариационный ряд (ДВР) и начертить полигон распределения 45 абитуриентов по числу баллов, полученных ими на приемных экзаменах:

39 41 40 42 41 40 42 44 40 43 42 41 43 39 42 41 42 39 41 37 43 41 38 43 42 41 40 41 38 44 40 39 41 40 42 40 41 42 40 43 38 39 41 41 42.

Решение: Для построения вариационного ряда различные значения признака x (варианты) располагаем в порядке их возрастания и под каждым из этих значений записываем его частоту.

Глава 13. Статистический анализ результатов исследований - student2.ru
Глава 13. Статистический анализ результатов исследований - student2.ru

Построим полигон этого распределения:

Глава 13. Статистический анализ результатов исследований - student2.ru

Рис. 13.1. Полигон частот

Интервальный вариационный ряд используется при большом числе наблюдений. Для построения такого ряда надо выбрать число интервалов признака и установить длину интервала. При большом числе групп величина интервала будет минимальна. Число групп в вариационном ряду можно найти по формуле Стерджеса: Глава 13. Статистический анализ результатов исследований - student2.ru (k-число групп, n - объем выборки), а ширину интервала – Глава 13. Статистический анализ результатов исследований - student2.ru

где Глава 13. Статистический анализ результатов исследований - student2.ru - максимальное; Глава 13. Статистический анализ результатов исследований - student2.ru - минимальное значения вариант, а их разность R носит название размаха вариации.

Исследуется выборка из 100 человек из совокупности всех студентов медицинского ВУЗа.

Решение: Рассчитаем число групп: Глава 13. Статистический анализ результатов исследований - student2.ru . Таким образом, для составления интервального ряда данную выборку лучше разбить на 7 или 8 групп. Совокупность групп, на которые разбиваются результаты наблюдений и частот получения результатов наблюдений в каждой группе, называют статистической совокупностью.

Для наглядного представления статистического распределения пользуются гистограммой.

Гистограмма частот – это ступенчатая фигура, состоящая из смежных прямоугольников, построенных на одной прямой, основания которых одинаковы и равны ширине интервала, а высота равна или частоте попадания в интервал Глава 13. Статистический анализ результатов исследований - student2.ru или относительной частоте ωi.

Наблюдения за числом частиц, попавших в счетчик Гейгера, в течение минуты дали следующие результаты:

21 30 39 31 42 34 36 30 28 30 33 24 31 40 31 33 31 27 31 45 31 34 27 30 48 30 28 30 33 46 43 30 33 28 31 27 31 36 51 34 31 36 34 37 28 30 39 31 42 37.

Построить по этим данным интервальный вариационный ряд с равными интервалами (I интервал 20-24; II интервал 24-28 и т.д.) и начертить гистограмму.

Решение: n=50

Интервал 20-24 24-28 28-32 32-36 36-40 40-44 44-48 48-52
Частота Глава 13. Статистический анализ результатов исследований - student2.ru

Гистограмма этого распределения имеет вид:

Глава 13. Статистический анализ результатов исследований - student2.ru

Рис. 13.2. Гистограмма распределения

Варианты заданий

№13.1.Через каждый час измерялось напряжение тока в электросети. При этом были получены следующие значения (В):

227 219 215 230 232 223 220 222 218 219 222 221 227 226 226 209 211 215 218 220 216 220 220 221 225 224 212 217 219 220.

Построить статистическое распределение и начертить полигон.

№13.2.Наблюдения за сахаром крови у 50 человек дали такие результаты:

3.94 3.84 3.86 4.06 3.67 3.97 3.76 3.61 3.96 4.04

3.82 3.94 3.98 3.57 3.87 4.07 3.99 3.69 3.76 3.71

3.81 3.71 4.16 3.76 4.00 3.46 4.08 3.88 4.01 3.93

3.92 3.89 4.02 4.17 3.72 4.09 3.78 4.02 3.73 3.52

3.91 3.62 4.18 4.26 4.03 4.14 3.72 4.33 3.82 4.03

Построить по этим данным интервальный вариационный ряд с равными интервалами (I - 3.45-3.55; II - 3.55-3.65 и т. д.) и изобразить его графически, начертить гистограмму.

№13.3.Построить полигон частот распределения скорости оседания эритроцитов (СОЭ) у 100 человек:

Глава 13. Статистический анализ результатов исследований - student2.ru
Глава 13. Статистический анализ результатов исследований - student2.ru

№13.4.Построить гистограмму распределения скорости оседания эритроцитов (СОЭ) у 50 человек:

Интервал Глава 13. Статистический анализ результатов исследований - student2.ru
2-5
5-8
8-11
11-14

Наши рекомендации