Анализ медико-биологических данных на основе их графического представления
Вернемся к примеру с анализом роста в группе людей. Если группа достаточно большая, то мы получим очень большой ряд данных: 175, 172, 180, 188, 166, 168, 170, 175, 178, 182, 188, 169 175, 172, 180, 188, 166, 168, 170, 175, 178, 182, 188, 169 175, 172, 180, 188, 166, 168, 170, 175, 178, 182, 188, 169……… и затруднимся дать обобщающую характеристику этой совокупности. Для более наглядного представления данных обычно используются графики, рисунки, диаграммы, таблицы. Воспользуемся подобным методом и мы – разобьем весь диапазон роста от минимума до максимума на равные интервалы по 10 см и посчитаем сколько объектов попадет в каждый из этих интервалов (частоту встречаемости), а затем построим график, как показано на рисунке 6А – по оси абсцисс отложим интервалы, а по оси ординат – частоту встречаемости (абсолютную или относительную в %).
Полученный график называется гистограммой распределения, он показывает, насколько часто встречаются те или иные значения изучаемой случайной величины (его вероятность), в данном случае роста, или другими словами как рост распределен по различным диапазонам. Теперь по этому графику попытаемся дать обобщенную характеристику изучаемой группе.
|
| ||
Рисунок 6. Виды распределения (А-нормальное, Б-не соответствует нормальному) |
Минимальный рост лежит в пределах от 140 до 150 см, самые высокие имеют рост 190-200 см. Наиболее часто встречается средний рост (170-180 см) в 25% всех случаев. По мере удаления от среднего роста в меньшую и большую сторону частота встречаемости снижается. Низкорослые и высокие встречаются реже, чем лица среднего роста. Самые маленькие (140-150 см) составляют 10% совокупности, самые высокие (190-200 см) - 12%.
Представим, что количество обследованных бесконечно увеличивается, а длина интервалов бесконечно уменьшается, тогда мы получим график, который изображен на рисунке 6 в виде огибающей гистограммы. Это кривая дает нам представление о законе распределения случайной величины (иногда говорят просто распределение). Она может иметь различную форму. Распределение многих случайных величин имеет симметричный колоколообразный вид, и такое распределение называется нормальным (еще его называют Гауссовским распределением). Нормальное распределение имеет важное значение в статистике, поскольку обладает рядом замечательных свойств, о которых мы поговорим позже. Кроме нормального существуют и другие виды распределения. Так, форма гистограммы, представленной на рисунке 6Б, явно не соответствует колоколообразному виду. В статистике широко используются биноминальное, логарифмическое, хи-квадрат распределения, распределения Стъюдента, Фишера и др.
Надо отметить, что оценка закона распределения по кривой огибающей гистограммы является не совсем корректной, качественной, учитывая также и то, что гистограмма строится по ограниченным выборочным данным. Существуют специальные статистические процедуры и критерии, которые позволяют строго количественно оценить закон распределения. Им будет посвящена специальная глава.
В медицинских исследованиях при построении гистограмм длительность интервалов может быть не одинаковой, а их границы заранее оговорены. Например, в возрастной физиологии приняты следующие возрастные периоды, приведенные в таблице 1.
Таблица 1. Возрастные периоды
возраст мужчин, лет | возраст женщин, лет | |
период второго детства | 8-13 | 8-12 |
подростковый период | 14-17 | 13-16 |
юношеский период | 18-21 | 17-20 |
взрослый период | 22-35 | 21-35 |
зрелый период | 36-55 | 36-60 |
пожилой период | 56-63 | 61-67 |
При анализе частоты пульса возможны такие интервалы: меньше 60 уд/мин, 60-80 уд/мин, больше 80 уд/мин.
В других случаях мы можем воспользоваться правилом построения гистограмм. Пусть дана случайная величина Х (х1, х2, ..., хn) – значения артериального давления у 25 испытуемых 108, 115, 133, 102, 110, 118, 118, 120, 120, 127, 127, 127, 110, 100, 105, 120, 120, 130, 135, 140, 135, 146, 145, 160, 155 Необходимо выполнить следующие шаги: 1. Элементы выборки объемом n=25 расположить в ранжированный ряд (по возрастанию или убыванию) 100; 102; 105; 108; 110; 110; 115; 118; 118; 120; 120; 120; 120; 127; 127; 127; 130; 133; 135; 135; 140; 145;146; 155; 160 2. Вычислить размах R (разность между минимальным и максимальным значением случайной величины): R=xmax-xmin=160-100=60 мм.рт.ст. 3. Разбить вариационный ряд на k непересекающихся интервалов. k вычисляют по формуле Стерднесса, предусматривающей выделение оптимального числа интервалов: k=1+3,322lg(n) (округлить до целого) Можно воспользоваться следующими рекомендациями Таблица 2. Выбор количества интервалов
Т.к. в нашем случае объем выборки равен 25, то выберем k=6. 4. Определить длину одного интервала b=R/k=60/6=10 мм.рт.ст. 5. Определить границы каждого интервала 6. Определить частоты - количество ni элементов выборки, попавших в i-й интервал (элемент, совпадающий с правой границей интервала, относится к последующему интервалу) Наряду с частотами одновременно подсчитываются также относительные частоты и процент случаев . Полученные результаты сводятся в таблицу 3, называемую таблицей частот группированной выборки . Таблица 3. Таблица частот
7. Далее строится гистограмма (рисунок 7). Рисунок 7 - Гистограмма распределения |
Контрольное задание 2:
Опишите гистограмму с указанием:
· общего количества обследованных.
· минимального и максимального значения анализируемой величины, (с указанием % случаев)
· наиболее часто и редко встречающегося значения анализируемой величины (с указанием % случаев)
.