Представление статистических данных в научных публикациях

Обоснование объема выборки. Описание участников проведенного исследования должно сопровождаться обоснованием численности выборки, которое является обязательным этапом разработки дизайна проекта. Дело в том, что недостаточный объем выборки увеличивает ошибку выборочных характеристик и может не позволить выявить эффекты там, где они действительно есть, и соответственно, привести к неправильным выводам. С другой стороны слишком большие численности участников приводят к неоправданным финансовым и другим затратам на исследование. Мы уже указывали, что объем выборки зависит от минимального «клинического» эффекта, дисперсии изучаемой величины, мощности используемого критерия и уровня значимости α. Примерная формулировка может звучать таким образом: «Потребовалось 54 пациента в каждой группе, чтобы иметь 85% шанс обнаружить разницу в средних значениях пульса в 10 уд/мин (s=18 уд/мин) при 5% уровне значимости, применяя непараметрический критерий МанаУитни».

Если анализируется несколько признаков (пульс, давление, гемоглобин…) и для каждого из них определяется свой объем выборки, то исследователь может в качестве окончательного выбрать наибольшую из всех рассчитанных численностей, или же задать объем выборки, рассчитанный для главного признака исходя из основной гипотезы.

Оценка закона распределения. Далее желательно указать закон распределения величин, поскольку от этого зависит обоснованность критериев, применяемых для проверки гипотез. Если объем выборки более 30, то можно проверить гипотезу о нормальности распределения одним из известных вам способов, причем проверку необходимо осуществить в каждой группе. Например, «нормальность распределения проверялась по критическим значениям коэффициентов ассиметрии и эксцесса, результаты, приведенные в таблице 89, позволяют принять нулевую гипотезу о нормальном распределении».

Таблица 89. Табличное представление результатов статобработки

п =50 125,04 As=0,424 Ex=0,655 α=0,05 As крит=0,533 Exкрит=0,848 P>0,05


Или: «Нормальность распределения проверялась по критерию хиквадрат, по результатам нулевая гипотеза о нормальности была отвергнута (p=0,03)».

Проверку на нормальность должна пройти каждая из анализируемых признаков.

Если объем выборки мал и не позволяет провести такую проверку, то нужно помнить, что в дальнейшем для сравнительного анализа можно использовать только непараметрические критерии.

Описательная статистика. Как правило, для описания количественных данных используются такие статистические характеристики как средняя, мода, медиана, дисперсия и т.д. При нормальном распределении совокупности применяются среднее значение и среднеквадратичное отклонение (стандартное отклонение) s. Стандартное отклонение дает нам представление, в каких пределах лежат данные генеральной совокупности, так 95,44% всех значений лежит в интервале представление статистических данных в научных публикациях - student2.ru . Необходимо также указать доверительный интервал для среднего представление статистических данных в научных публикациях - student2.ru по нему можно оценить, насколько точно оно определено. Для этого предварительно рассчитывается стандартная ошибка среднего m. Если доверительный интервал широкий, то средняя оценена неточно и это может быть связано с недостаточным объемом выборки, или же с большим разбросом данных (дисперсией). Полезно рассчитать коэффициент вариации при V%>33% совокупность считается неоднородной, тогда необходимо проверить, насколько репрезентативна выборка и нет ли аномальных выбросов. Результаты расчетов наглядно могут быть представлены в следующей таблице 90.

Таблица 90. Табличное представление результатов статобработки

n (мкмоль/л) s (мкмоль/л) 95%ДИ (мкмоль/л) +95%ДИ (мкмоль/л)
1 группа 21,3 21,0 21,6
2 группа 28,5 26,9 30,1

Если распределение случайной величины не соответствует нормальному закону, то в качестве характеристики положения используется медиана, в качестве характеристики разброса – межквартильный размах, а также указываются минимальное и максимальное значения, чтобы определить наличие выбросов. Из приведенной ниже таблицы 91 видно, что в первой группе в середине ранжированного ряда находится величина 4,0 ммоль/л, 50% данных лежит в пределе от 3,3 до 6,0 ммоль/л, максимальное значение 10,5 ммоль/л является явно аномальной. Во второй группе в целом разброс данных больше (∆Q=5,3)и величину 10,5 уже нельзя считать выбросом.

Таблица 91. Основные статистические характеристики

n Ме (ммоль/л) Мin (ммоль/л) Max (ммоль/л) Q25 (ммоль/л) Q75 (ммоль/л) ∆Q (ммоль/л)
1 гр. 4,0 1,2 10,5 3,3 6,0 2,7
2 гр. 5,2 2,6 10,5 4,0 9,3 5,3

Описание качественных признаков. При анализе качественных номинальных признаков, как правило, подсчитывается доля (частота встречаемости) объектов с заданными свойствами. Доля представляется в виде относительных величин или процентов. Наряду с долей необходимо указывать и абсолютные значения, а для самой доли определить доверительный интервал

Таблица 92. Представление качественных признаков

всего опрошено женщин доля курящих 95% ДИ +95% ДИ  
10% (102/1020) 8,2% 11,8%  
 

Иногда, при малых выборках, меньше 10, получается нулевой или 100% эффекты, которые маловероятны. Например, из девяти опрошенных женщин никто не курит – доля равна нулю, ошибка доли также равна нулю. Отсюда можно сделать неправильный вывод, что все женщины некурящие. В этом случае необходимо воспользоваться поправкой на нулевой эффект.

Итоги проверки гипотез. Важное место в любом исследовании занимает процесс сравнения различных совокупностей. Если признаки имеют нормальное распределение, то такое сравнение можно осуществить на основе средних значений с использованием параметрических критериев. Наиболее известным из них является критерий Стъюдента. Нельзя забывать, что его применение требует также и равенства генеральных дисперсий, которое можно проверить по критерию Фишера. При соблюдении всех условий результаты расчетов можно представить в следующей таблице 93.

Таблица 93. Итоги проверки гипотез на основе параметрических критериев

  n s 95% ДИ +95% ДИ tСтъюдента руровень
1 гр. 119,1 13,9 3,4 6,7 0,1 2,67 <0,05
2 гр. 122,5 16,3

Из таблицы видно, насколько различаются средние значения, по руровню можно оценить статистическую значимость этого различия (при использовании статистических программ лучше указывать конкретное значение достигнутого уровня значимости, например р=0,002). Доверительный интервал показывает, в каких пределах лежит истинная, генеральная разница, а верхний и нижний его пределы позволяют дать «клиническую» оценку этой разнице.

Надо отметить, что в медицинских исследованиях в силу ряда ограничений обычно доступны небольшие выборки, а среди совокупности «больных» нормальное распределение встречается редко. Поэтому приоритет необходимо отдавать непараметрической статистике. При использовании непараметрических критериев результаты описываются на основе медиан и квартилей, например таблица 94.

Таблица 94. Итоги проверки гипотез на основе непараметрических критериев

n Ме (мг) ∆Ме (мг) Q25 (мг) Q75 (мг) Uкритерий МанаУитни руровень
1 гр. 4,0 1,2 3,3 6,0 0,023
2 гр. 5,2 4,0 9,3

Различия между группами хорошо воспринимаются при графическом представлении данных. Различные возможные варианты показаны на рисунке 40. Не забывайте поместить на графике «легенду» (условные обозначения), так как графики могут нести различную информацию. Если на первом графике представлены средняя, стандартное отклонение, минимальное и максимальное значения, на втором – среднее и доверительный интервал, то на третьем – медиана и квартили.


Рисунок 40. Графическое представление данных

Итоговая информация по результатам сравнения долей должна содержать данные по абсолютным и относительным показателям, а также доверительный интервал для разницы долей.

Таблица 95. Сравнение долей

регион всего больных доля инфекц. заболеваний разность долей 95% ДИ +95% ДИ tСтъюдента руровень
20% (104/520) 17% 22,8% 11,2% 3,25 0,012
37% (148/400)

Доли сравниваются как по критерию Стъюдента, так и по критерию хиквадрат. В случае таблицы 2×2 необходимо учитывать поправку Йетса и упомянуть об этом в тексте. Если таблица содержит ячейку с менее чем 5 случаями, используйте точный критерий Фишера. Силу связи между номинальными признаками оценивают коэффициенты Юла и фиквадрат. Результаты расчетов можно свести в следующую таблицу 96.

Таблица 96. Итоги проверки гипотез на основе таблицы сопряженности

  Столбец 1 Столбец 2 Всего
Частоты, строка 1
% случаев 5,7 % 6,6 % 12,3 %
Частоты, строка 2
% случаев 15,7 % 72 % 87,76 %
Всего
% всего 21,4 % 78,6 %  
Хиквадрат (f=1) 107,99 p=0,0000  
Поправка Йетса 106,32 p=0,0000  
Фиквадрат ,05113    
Точный критерий Фишера, одностор.      
Точный критерий Фишера, двустор.      
Хиквадрат Макнемара 1193,42 p=0,0000  

Множественные сравнения. Довольно часто возникает задача сравнения не двух групп, а нескольких – так называемая задача множественных сравнений. Например, различных возрастных, профессиональных, социальных слоев населения, или влияния различных доз препарата, методов диагностики и т.д. В этом случае рекомендуется на начальном этапе провести факторный дисперсионный анализ, который позволяет ответить на вопрос, есть ли хотя бы одно отличие между сравниваемыми группами. Нулевая гипотеза о равенстве всех средних (медиан) проверяется по параметрическому критерию Фишера или непараметрическому аналогу – критерию КрускалаУолиса.

Таблица 97. Итоги факторного дисперсионного анализа

  D f FФишера руровень
Межгрупповая дисперсия 4600,5 38,7 0,004
Внутригрупповая дисперсия 118,8

Пакеты прикладных программ по статанализу содержат процедуру Тьюки это процедура множественных попарных сравнений, применяемая в тех случаях, когда дисперсионный анализ указывает на статистически значимую разность между группами. Таким образом, можно выяснить конкретно какие группы отличаются друг от друга.

Как пример, результаты попарных сравнений 6 групп сведены в таблицу 98, в которой указаны средние по группам и значения руровня.

Таблица 98. Множественные попарные сравнения

группа {1} {2} {3} {4} {5} {6}
  представление статистических данных в научных публикациях - student2.ru =93,2 представление статистических данных в научных публикациях - student2.ru =80,7 представление статистических данных в научных публикациях - student2.ru =70,4 представление статистических данных в научных публикациях - student2.ru =77,3 представление статистических данных в научных публикациях - student2.ru =80,6 представление статистических данных в научных публикациях - student2.ru =82,7
{1}   0,000 0,000 0,000 0,000 0,010
{2} 0,000   0,000 0,305 1,000 0,988
{3} 0,000 0,000   0,000 0,000 0,001
{4} 0,000 0,305 0,000   0,151 0,529
{5} 0,000 1,000 0,000 0,151   0,985
{6} 0,010 0,988 0,001 0,529 0,985  

Корреляционный анализ. Подсчет коэффициента корреляции также достаточно распространенный метод анализа биомедицинских данных. При его использовании необходимо придерживаться следующих положений:

- предварительно следует построить диаграмму рассеяния, чтобы оценить характер взаимосвязи (линейный или нелинейный)

- коэффициент корреляции Пирсона показывает линейную взаимосвязь между количественными признаками, имеющими нормальное распределение

- если распределение не соответствует нормальному, или признаки ординальные, то применимы коэффициенты Спирмена и Кендалла, оценивающие линейные связи

- для таблиц сопряженности также существуют коэффициенты взаимосвязи (например, коэффициент Юла, фиквадрат)

- следует проверять статистическую значимость коэффициента корреляции и обозначать ее в тексте или таблице

- коэффициент корреляции величина формальная (математическая) и не объясняет причинноследственную связь, интерпретация его – дело специалиста в предметной области

В таблице 99 приведены попарные коэффициенты корреляции и значения руровня. Если принять уровень значимости α=0,05, то r=0,01 и 0,15 статистически незначимы.

Таблица 99. Итоги корреляционного анализа

  HF% LF% VLF% ULF%
HF%   0,46 p=0,000 0,65 p=0,000 0,56 p=0,000
LF% 0,46 p=0,000   0,01 p=0,909 0,26 p=0,001
VLF% 0,65 p=0,000 0,01 p=0,909   0,15 p=0,052
ULF% 0,56 p=0,000 0,26 p=0,001 0,15 p=0,052  

Регрессионный анализ. Прежде чем приступать к нахождению уравнения регрессии убедитесь, что связь между величинами линейна, для этого подходящим является диаграмма рассеяния. Вычислите коэффициент корреляции, если он меньше 0,7, то нет смысла строить математическую модель, ведь даже при таком значении r она объясняет лишь 50% вариаций. Если уравнение регрессии получено, представьте его графически вместе с наблюдаемыми величинами. Обязательным является оценка статистической значимости коэффициентов уравнения и самой модели, например, таблица 100 является показательной.

Таблица 100. Итоги регрессионного анализа

r= 0,93 R2=0 ,87 F(1,8)=54,028 p=0,000
  значение коэффициента станд. ошибка коэффициента tСтъюдента pуровень
b0 87,5 1,31 66,8 0,000
b1 0,05 0,007 7,3 0,000

В случае незначимости коэффициента b1 (что аналогично незначимости самой регрессии) полученное уравнение не может быть использовано в качестве модели взаимосвязи двух величин.

При прогнозировании по уравнению регрессии рекомендуется проводить прогноз в пределах наблюдаемых значений независимой величины. Если прогноз выходит за эти пределы, вы должны быть уверены, что основная тенденция сохранится в будущем, и при этом прогноз не должен превышать 13 временных интервала.

ЗАКЛЮЧЕНИЕ

В рамках данного пособия затронуты лишь некоторые статистические методы анализа медикобиологической информации. Однако, арсенал их намного более широк, и он не затронут нами, поскольку мы ориентировались на медицинскую аудиторию – студентов, магистрантов, докторантов, научных работников и не решились «грузить» ее сложными математическими выкладками и статистическими интерпретациями.

В последнее время появился целый ряд обзоров, посвященных применению статистики в медицинской науке. Авторы соглашаются с тем, что в абсолютном большинстве исследований используются классические ситуации, когда анализируются один или несколько отдельных признаков, вне их взаимосвязи и взаимовлияния с различной степенью интенсивности. Очень редко встречаются математические модели, описывающие сложные системы, особенно характеризующиеся качественными признаками. Вместе с тем состояние биобъекта не может быть описано с помощью одного или двух показателей изменения или нарушения в одних органах и системах приводят к изменениям и нарушениям в других, и эти взаимосвязи редко являются линейными. В связи с этим особое место в биостатистике занимают многомерные методы анализа. Среди них линейный и нелинейный многомерный регрессионный, логлинейный, дискриминантный, кластерный, факторный анализы и др. Большинство методов реализованы в пакетах статистических программ и пользователи освобождены от необходимости математических вычислений. Основное препятствие их использования – интерпретация результатов, и здесь необходима помощь специалиста, профессионально занимающегося статистикой. Поэтому качественный результат любого научного исследования – это совместный труд медика, владеющего основами биостатистики, и математика, способного понять язык клинициста.

СПИСОК ЛИТЕРАТУРЫ

1. Петри, Авива. Наглядная статистика в медицине: Оқулық/ А. Петри, К. Сэбин; Пер. с англ. М.: ГЭОТАРМЕД, 2009.144с.:ил.

2. Вуколов Э. А. Основы статистического анализа: Практикум по статистическим методам и исследованию операций с использованием пакетов Statistica и EXCEL. М.: ФОРУМ: ИНФРА М, 2004.464с.

3. Применение методов статистического анализа для изучения общественного здоровья и здравоохранения: Оқулық / Под ред. В.З. Кучеренко. 2 е изд.,стереотип. М.: ГЭОТАРМедиа, 2005.193 с.

4. Жижин К. С. Медицинская статистика: Оқулық. Ростов н/Д: Феникс, 2007.151с.

5. Гланц Стентон. Медикобиологическая статистика: ағыл. аударған. М.: Практика, 1999.459с.

6. Сергиенко В.И., Бондарева И.Б. Математическая статистика в клинических исследованиях. М.: ГЭОТАРМЕД, 2001.256 с.

7. Юнкеров В.И., Григорьев С.Г. Математикостатистическая обработка данных медицинских исследований. – СПб: ВМедА, 2002. – 266 с.

Приложение 1. Критические значения коэффициента асимметрии As

Объем выборки п Уровень значимости α Объем выборки п Уровень значимости α
  0,05 0,01   0,05 0,01
0,711 1,061 0,251 0,360
0,661 0,982 0,230 0,329
0,621 0,921 0,213 0,305
0,587 0,869 0,200 0,285
0,558 0,825 0,188 0,269
0,533 0,787 0,179 0,255
0,492 0,723 0,171 0,243
0,459 0,673 0,163 0,233
0,432 0,631 0,157 0,224
0,409 0,596 0,151 0,215
0,389 0,567 0,146 0,208
0,350 0,508 0,142 0,202
0,321 0,464 0,138 0,196
0,298 0,430 0,134 0,190
0,280 0,403 0,130 0,185

Критические значения коэффициента эксцесса Ех

Объем выборки п Уровень значимости α
0,10 0,05 0,01
0,890 0,907 0,936
0,873 0,888 0,914
0,863 0,877 0,900
0,857 0,869 0,890
0,851 0,863 0,883
0,847 0,858 0,877
0,844 0,854 0,872
0,841 0,851 0,868
0,839 0,848 0,865
0,835 0,843 0,859
0,832 0,840 0,855
0,830 0,838 0,852
0,828 0,835 0,848
0,826 0,834 0,846
0,818 0,823 0,832
0,814 0,818 0,826
0,812 0,816 0,822
0,810 0,814 0,820

Приложение 2. Критические точки двустороннего tкритерия Стьюдента

Число степеней свободы f α Число степеней свободы f α
0,05 0,01 0,005 0,05 0,01 0,005
12,71 63,66 64,60 2,10 2,88 3,92
4,30 9,92 31,60 2,09 2,86 3,88
3,18 5,84 12,92 2,09 2,85 3,85
2,78 4,60 8,61 2,08 2,83 3,82
2,57 4,03 6,87 2,07 2,82 3,79
2,45 3,71 5,96 2,07 2,81 3,77
2,37 3,50 5,41 2,06 2,80 3,75
2,31 3,36 5,04 2,06 2,79 3,73
2,26 3,25 4,78 2,06 2,78 3,71
2,23 3,17 4,59 2,05 2,77 3,69
2,20 3,11 4,44 2,05 2,76 3,67
2,18 3,05 4,32 2,05 2,76 3,66
2,16 3,01 4,22 2,04 2,75 3,65
2,14 2,98 4,14 2,02 2,70 3,55
2,13 2,95 4,07 2,00 2,66 3,46
2,12 2,92 4,02 1,98 2,62 3,37
2,11 2,90 3,97 оо 1,96 2,58 3,29

Приложение 3. Критические значения Uкритерия МаннаУитни

α = 0,01. Двусторонний критерий

n2/nl
                             
                           
                         
                       
                     
О                    
                 
               
             
           
         
       
     
 
 

Приложение 4. Критические значения парного Ткритерия Уилкоксона

Односторонний критерий
Число парных наблюдений п Уровни значимости α Число парных наблюдений п Уровни значимости α
  0,05 0,01   0,05 0,01
—.
Двусторонний критерий
Число парных наблюдений п Уровни значимости α Число парных наблюдений п Уровни значимости α
  0,05 0,01   0,05 0,01
 

Приложение 5. Критические значения χ2

  Уровень значимости
f 0,50 0,25 0,10 0,05 0,025 0,01 0,005 0,001
0,455 1,323 2,706 3,841 5,024 6,635 7,879 10,828
1,386 2,773 4,605 5,991 7,378 9,210 10,597 13,816
2,366 4,108 6,251 7,815 9,348 11,345 12,838 16,266
3,357 5,385 7,779 9,488 11,143 13,277 14,860 18,467
4,351 6,626 9,236 11,070 12,833 15,086 16,750 20,515
5,348 7,841 10,645 12,592 14,449 16,812 18,548 22,458
6,346 9,037 12,017 14,067 16,013 18,475 20,278 24,322
7,344 10,219 13,362 15,507 17,535 20,090 21,955 26,124
8,343 11,389 14,684 16,919 19,023 21,666 23,589 27,877
9,342 12,549 15,987 18,307 20,483 23,209 25,188 29,588
10,341 13,701 17,275 19,675 21,920 24,725 26,757 31,264
11,340 14,845 18,549 21,026 23,337 26,217 28,300 32,909
12,340 15,984 19,812 22,362 24,736 27,688 29,819 34,528
13,339 17,117 21,064 23,685 26,119 29,141 31,319 36,123
. 15 14,339 18,245 22,307 24,996 27,488 30,578 32,801 37,697
15,338 19,369 23,542 26,296 28,845 32,000 34,267 39,252
16,338 20,489 24,769 27,587 30,191 33,409 35,718 40,790
17,338 21,605 25,989 28,869 31,526 34,805 37,156 42,312
18,338 22,718 27,204 30,144 32,852 36,191 38,582 43,820
19,337 23,828 28,412 31,410 34,170 37,566 39,997 45,315
20,337 24,935 29,615 32,671 35,479 38,932 41,401 46,797
21,337 26,039 30,813 33,924 36,781 40,289 42,796 48,268
22,337 27,141 32,007 35,172 38,076 41,638 44,181 49,728
23,337 28,241 33,196 36,415 39,364 42,980 45,559 51,179
24,337 29,339 34,382 37,652 40,646 44,314 46,928 52,620
25,336 30,435 35,563 38,885 41,923 45,642 48,290 54,052
26,336 31,528 36,741 40,113 43,195 46,963 49,645 55,476
27,336 32,020 37,916 41,337 44,461 48,278 50,993 56,892
28,336 33,711 39,087 42,557 45,722 49,588 52,336 58,301
29,336 34,800 40,256 43,773 46,979 50,892 53,672 59,703
30,336 35,887 41,422 44,985 48,232 52,191 55,003 61,098
31,336 36,973 42,585 46,194 49,480 53,486 56,328 62,487
32,336 38,058 43,745 47,400 50,725 54,776 57,648 63,870
33,336 39,141 44,903 48,602 51,966 56,061 58,964 65,247
34,336 40,223 46,059 49,802 53,203 57,342 60,275 66,619
35,336 41,304 47,212 50,998 54,437 58,619 61,581 67,985
36,336 42,383 48,363 52,192 55,668 59,893 62,883 69,346
37,335 43,462 49,513 53,384 56,896 61,162 64,181 70,703
38,335 44,539 50,660 54,572 58,120 62,428 65,476 72,055
39,335 45,616 51,805 55,758 59,342 63,691 66,766 73,402
40,335 46,692 52,949 56,942 60,561 64,950 68,053 74,745
41,335 47,766 54,090 58,124 61,777 66,206 69,336 76,084
42,335 48,840 55,230 59,304 62,990 67,459 70,616 77,419
43,335 49,913 56,369 60,481 64,201 68,710 71,893 78,750
44,335 50,985 57,505 61,656 65,410 69,957 73,166 80,077
45,335 52,056 58,641 62,830 66,617 71,201 74,437 81,400
46,335 53,127 59,774 64,001 67,821 72,443 75,704 82,720
47,335 54,196 60,907 65,171 69,023 73,683 76,969 84,037
48,335 55,265 62,038 66,339 70,222 74,919 78,231 85,351
49,335 56,334 63,167 67,505 71,420 76,154 79,490 86,661

Приложение 6. Критические значения коэффициента корреляции рангов Спирмена

Число пар Уровень значим. Число пар Уровень значим.
0,05 0,01 0,05 0,01
  0,425 0,601
0,9 0,399 0,564
0,829 0,943 0,377 0,534
0,714 0,893 0,359 0,508
0,643 0,833 0,343 0,485
0,6 0,783 0,329 0,465
0,564 0,746 0,317 0,448
0,506 0,712 0,306 0,432

Приложение 7. Критические значения Fкритерия Фишера

для α = 0,05 (обычный шрифт) и α = 0,01 (жирный шрифт)

Наши рекомендации