Анализ медико-биологических данных на основе их графического представления

Вернемся к примеру с анализом роста в группе людей. Если группа достаточно большая, то мы получим очень большой ряд данных: 175, 172, 180, 188, 166, 168, 170, 175, 178, 182, 188, 169 175, 172, 180, 188, 166, 168, 170, 175, 178, 182, 188, 169 175, 172, 180, 188, 166, 168, 170, 175, 178, 182, 188, 169……… и затруднимся дать обобщающую характеристику этой совокупности. Для более наглядного представления данных обычно используются графики, рисунки, диаграммы, таблицы. Воспользуемся подобным методом и мы – разобьем весь диапазон роста от минимума до максимума на равные интервалы по 10 см и посчитаем сколько объектов попадет в каждый из этих интервалов (частоту встречаемости), а затем построим график, как показано на рисунке 6А – по оси абсцисс отложим интервалы, а по оси ординат – частоту встречаемости (абсолютную или относительную в %).

Полученный график называется гистограммой распределения, он показывает, насколько часто встречаются те или иные значения изучаемой случайной величины (его вероятность), в данном случае роста, или другими словами как рост распределен по различным диапазонам. Теперь по этому графику попытаемся дать обобщенную характеристику изучаемой группе.

А

Б

Рисунок 6. Виды распределения (А-нормальное, Б-не соответствует нормальному)

Минимальный рост лежит в пределах от 140 до 150 см, самые высокие имеют рост 190-200 см. Наиболее часто встречается средний рост (170-180 см) в 25% всех случаев. По мере удаления от среднего роста в меньшую и большую сторону частота встречаемости снижается. Низкорослые и высокие встречаются реже, чем лица среднего роста. Самые маленькие (140-150 см) составляют 10% совокупности, самые высокие (190-200 см) - 12%.

Представим, что количество обследованных бесконечно увеличивается, а длина интервалов бесконечно уменьшается, тогда мы получим график, который изображен на рисунке 6 в виде огибающей гистограммы. Это кривая дает нам представление о законе распределения случайной величины (иногда говорят просто распределение). Она может иметь различную форму. Распределение многих случайных величин имеет симметричный колоколообразный вид, и такое распределение называется нормальным (еще его называют Гауссовским распределением). Нормальное распределение имеет важное значение в статистике, поскольку обладает рядом замечательных свойств, о которых мы поговорим позже. Кроме нормального существуют и другие виды распределения. Так, форма гистограммы, представленной на рисунке 6Б, явно не соответствует колоколообразному виду. В статистике широко используются биноминальное, логарифмическое, хи-квадрат распределения, распределения Стъюдента, Фишера и др.

Надо отметить, что оценка закона распределения по кривой огибающей гистограммы является не совсем корректной, качественной, учитывая также и то, что гистограмма строится по ограниченным выборочным данным. Существуют специальные статистические процедуры и критерии, которые позволяют строго количественно оценить закон распределения. Им будет посвящена специальная глава.

В медицинских исследованиях при построении гистограмм длительность интервалов может быть не одинаковой, а их границы заранее оговорены. Например, в возрастной физиологии приняты следующие возрастные периоды, приведенные в таблице 1.

Таблица 1. Возрастные периоды

  возраст мужчин, лет возраст женщин, лет
период второго детства 8-13 8-12
подростковый период 14-17 13-16
юношеский период 18-21 17-20
взрослый период 22-35 21-35
зрелый период 36-55 36-60
пожилой период 56-63 61-67

При анализе частоты пульса возможны такие интервалы: меньше 60 уд/мин, 60-80 уд/мин, больше 80 уд/мин.

В других случаях мы можем воспользоваться правилом построения гистограмм. Пусть дана случайная величина Х (х1, х2, ..., хn) – значения артериального давления у 25 испытуемых 108, 115, 133, 102, 110, 118, 118, 120, 120, 127, 127, 127, 110, 100, 105, 120, 120, 130, 135, 140, 135, 146, 145, 160, 155   Необходимо выполнить следующие шаги: 1. Элементы выборки объемом n=25 расположить в ранжированный ряд (по возрастанию или убыванию)   100; 102; 105; 108; 110; 110; 115; 118; 118; 120; 120; 120; 120; 127; 127; 127; 130; 133; 135; 135; 140; 145;146; 155; 160   2. Вычислить размах R (разность между минимальным и максимальным значением случайной величины):   R=xmax-xmin=160-100=60 мм.рт.ст.   3. Разбить вариационный ряд на k непересекающихся интервалов. k вычисляют по формуле Стерднесса, предусматривающей выделение оптимального числа интервалов:   k=1+3,322lg(n) (округлить до целого)   Можно воспользоваться следующими рекомендациями   Таблица 2. Выбор количества интервалов  
Объем выборки Число интервалов
25-40 5-6
41-60 6-8
61-100 7-10
101-200 8-12
Более 200 10-15

Т.к. в нашем случае объем выборки равен 25, то выберем k=6.

4. Определить длину одного интервала

b=R/k=60/6=10 мм.рт.ст.

5. Определить границы каждого интервала

6. Определить частоты - количество ni элементов выборки, попавших в i-й интервал (элемент, совпадающий с правой границей интервала, относится к последующему интервалу)

Наряду с частотами одновременно подсчитываются также относительные частоты и процент случаев .

Полученные результаты сводятся в таблицу 3, называемую таблицей частот группированной выборки .

Таблица 3. Таблица частот

Номер интервала, i Границы интервала Частота, ni Относит. частота Процент случаев
100-110 0,16
110-120 0,20
120-130 0,28
130-140 0,16
140-150 0,12
150-160 0,08
  ИТОГО Σ=25 Σ=1 Σ=100%

7. Далее строится гистограмма (рисунок 7).

Рисунок 7 - Гистограмма распределения

Контрольное задание 2:

Опишите гистограмму с указанием:

· общего количества обследованных.

· минимального и максимального значения анализируемой величины, (с указанием % случаев)

· наиболее часто и редко встречающегося значения анализируемой величины (с указанием % случаев)

.

Наши рекомендации