Однофакторный дисперсионный анализ

Проблема. Результаты консервативного лечения аневризм, осложненных внутричерепной гематомой (ВЧГ), неудовлетворительные - летальность составляет 50-85%. До настоящего времени существуют различия в хирургической тактике при разрывах артериальных аневризм, осложненных ВЧГ. Сложность выбора тактики обусловлена сочетанием гематомы с выраженным ангиоспазмом, риском повторного кровотечения из аневризмы у тяжелых больных, различной оценкой симптомов компрессии и дислокации мозга, трудностью выделения доминирующей причины тяжелого состояния при сочетании гематомы с вентрикулярным кровоизлиянием, ишемией мозга. Оценка влияния различных факторов на результаты хирургического лечения позволит определить тактику ведения больных с аневризмами в сочетании с внутричерепными гематомами, выявить причины неблагоприятных исходов хирургического лечения и прогнозировать исход операции. В связи с этим одной из задач является определение зависимости срока госпитализации от тяжести состояния пациентов при поступлении, оцениваемой по шкале Hunt-Hess.

Поставленную задачу можно сформулировать следующим образом: определить влияние многоуровневого фактора на случайную величину. Рассмотрим более простой случай - влияние рациона питания на привес животных. Было проведено исследование на 4 группах животных: первая группа потребляла обычный рацион, вторая – питалась только макаронами, третья – мясом, четвертая – овощами. Изучаемым фактором является рацион питания, который имеет четыре уровня, случайная величина – это привес животных. Нужно определить есть ли разница хотя бы между двумя средними в этих группах.

Прежде чем приступить к решению данной задачи, вспомним, что дисперсия является характеристикой разброса случайной величины относительно среднего.

В идеале, внутри каждой группы вес животных должен бы быть одинаковым, так как они питаются одинаковым рационом (например, все едят овощи). В реальности внутри групп будет наблюдаться разброс в привесе, в связи с тем, что кроме рациона на вес животных влияют другие факторы: особенности обмена веществ, поведенческих реакций, стрессоустойчивость и др. Эти факторы, которые мы будем называть неучтенными факторами, приводят к появлению внутригрупповой дисперсии Dвнутргр.

Средние по группам также имеют разброс (относительно общей средней), который объясняется влиянием изучаемого фактора - разных рационов. Это приводит к появлению межгрупповой дисперсии Dмежгр.

Рассмотрим случай, приведенный на рисунке 22. Видно, что внутри групп разброс показателя веса больше, чем разброс средних значений по группам. Можно предположить, что вес животных в этих группах не сильно зависит от рациона питания, а на него больше влияют неучтенные в данном исследовании факторы.


Рисунок 22. Внутригрупповая дисперсия

Другой случай представлен на рисунке 23.


В этом случае средние значения имеют больший разброс, чем данные внутри каждой группы. Показатели веса в различных группах расположились обособленно - можно сделать предположение, что рацион питания влияет на вес животных больше, чем неучтенные факторы.

Рисунок 23. Межгрупповая дисперсия

Таким образом, чтобы оценить влияние многоуровневого фактора на какую-то величину, необходимо сопоставить межгрупповую и внутригрупповую дисперсии. Межгрупповая дисперсия вносится изучаемым фактором, внутригрупповая дисперсия вносится какими-то другими (неучтенными) факторами.

Если то фактор не влияет

Если то фактор влияет

Если то неопределенность

Мы бы воспользовались этим правилом, если бы нам была доступна генеральная совокупность, но выборочные данные, в том числе выборочные дисперсии, ошибочны и в этом случае необходимо прибегнуть к теории проверки статистических гипотез.

Выдвигаем Н(0) – фактор не влияет на изучаемый признак

Задаемся уровнем значимости α

Вычисляем выборочную внутригрупповуюдисперсию, как среднее значение дисперсий по группам

(43)

Где - дисперсия показателя в каждой из kгрупп

Ивыборочную межгрупповую дисперсиюкак отклонение средних в каждой группе от общей средней

(44)

ni –количество объектов в i –той группе

- общая средняя

Вычисляем критерий Фишера

(45)

Сравниваем с (Приложение 7) для заданного α и числа степеней свободы

(46)

где k – число групп, n-общее количество объектов обследования

Если вычисленное значение критерия Фишера меньше критического, то Н(0) принимается и делается вывод, что фактор не влияет на исследуемый показатель.

В противном случае принимается Н(1).

Вернемся к задаче влияния тяжести состояния пациентов при поступлении на срок госпитализации (по данным из таблицы 48). Выдвинем гипотезы: Н(0): срок лечения в стационаре не зависит от тяжести состояния пациента при госпитализации. Н(1): срок лечения в стационаре зависит от тяжести состояния пациента при госпитализации Таблица 48. Данные по сроку лечения  
Тяжесть состояния по Hunt-Hess II степень III степень IV степень k=3
№пациента Срок лечения, дни  
 
 
 
 
 
ni n=15
62,6 99,2 66,9
59,5 111,8 185,2 Σ=356,5

однофакторный дисперсионный анализ - student2.ru

однофакторный дисперсионный анализ - student2.ru

Таблица 49. Результаты статобработки

  D Fвыч f α Fкрит
Межгрупповая дисперсия 4600,5 38,7 0,05 3,88
Внутригрупповая дисперсия 118,8      

Т.к. Fвыч> Fкрит принимаем Н(1).

Вывод: с вероятностью не менее 95% можно утверждать, что тяжесть состояния при госпитализации влияет на срок лечения в стационаре.

Контрольное задание 11:

Используя факторный дисперсионный анализ определить, отличается ли число тромбоцитов у детей разного возраста:

Таблица 50. Данные к заданию

Число тромбоцитов Дети до года Дети от года до 3 лет
Среднее Xi
Дисперсия D i
Дисперсия D межгр

ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ

Проблема. Атеросклероз - системное заболевание, поражающее артерии эластического (аорта и ее ветви) и мышечно-эластического (артерии сердца, головного мозга и др.) типов. Атеросклероз является ведущей причиной заболеваемости и смертности во многих развитых странах. В диагностике цереброваскулярных заболеваний в настоящее время превалируют ультразвуковые методы исследования, используемые для оценки кровотока в крупных и средних сосудах головы и шеи. В частности, ультразвуковое дуплексное сканирование позволяет достоверно определять скорость движения крови по сосудам, выявлять участки сужения (стеноза просвета) артерий головного мозга, участки с нарушенным кровотоком. Этот метод - один из самых достоверных в диагностике атеросклероза сосудов головного мозга. В свою очередь, одним из наиболее информативных ранних маркеров атеросклероза является увеличение толщины комплекса интима-медиа (КИМ) в общей сонной артерии. В связи с этим стояла задача изучения взаимосвязеймежду показателями кровотока в церебральных артериях и функцией эндотелия при атеросклерозе сосудов головного мозга.

Обратимся к диаграмме на рисунке 24, на которой представлены значения роста и веса 14 испытуемых, отложенные на соответствующих осях, а на их пересечении поставлены точки. Эта диаграмма носит название диаграммы рассеяния. Из нее видно, что при увеличении роста вес также увеличивается, хотя это бывает не всегда – из практики мы знаем, что встречаются маленькие полные и высокие худые люди. Но общая тенденция все же такая, и мы можем даже провести воображаемую линию, по которой происходят изменения. То есть между ростом и весом имеется определенная связь – изменение роста приводит к изменению веса, и эта связь носит линейный характер.


Рисунок 24. Зависимость веса от роста

Степень выраженности связи между случайными величинами отражает понятие корреляция. Количественно взаимосвязь между случайными величинами определяет коэффициент корреляции – r.

• Коэффициент корреляции лежит в пределах -1 ≤ r ≤ 1.

• Если r> 0, то связь прямая - с увеличением значений одной величины другая также в среднем возрастает.

• Если r < 0, то связь обратная - с увеличением величины Х1 соответствующие им значения X2 в среднем также уменьшаются.

Значения линейного коэффициента корреляции и характер связи приведены в таблице 51

Таблица 51. Значения коэффициента корреляции

r = -1 обратно пропорциональная
-1< r < -0,7 обратная сильная
-0,7 ≤ r ≤ -0,5 обратная средняя
-0,5 < r < 0 обратная слабая
r = 0 отсутствует
0 < r < + 0,5 прямая слабая
+0,5 ≤ r ≤ +0,7 прямая средняя
+ 0,7< r < + 1 прямая сильная
r = +1 прямо пропорциональная

Оценить корреляцию между признаками можно и по диаграмме рассеяния. Чем ближе точки на графике к прямой линии, тем больше коэффициент корреляции (рисунок 25).

Рисунок 25. Диаграммы рассеяния

При прямой связи воображаемая линия направлена слева на право вверх, при обратной – слева на право вниз. В случае r = ±1 все точки диаграммы лежат на одной прямой линии – значит одна величина на сто процентов зависит от другой.Корреляция может быть и нелинейной как это видно из рисунка 26, на котором отражена зависимость ЧСС от возраста.

однофакторный дисперсионный анализ - student2.ru

Рисунок 26. Нелинейная корреляция

Надо помнить, что корреляция выражает лишь математическую связь и, опираясь только на него, нельзя делать выводы о причинно-следственных отношениях. Например, может получиться высокий коэффициент корреляции между массой тела и знанием биостатистики, однако вряд ли одно является следствием другого, возможно оба признака меняются под воздействием третьего – возраста человека.

В статистике используются параметрические и непараметрические коэффициенты корреляции. Для двух количественных случайных величин Х1 и Х2 (n -объем каждой выборки), если они нормально распределены, их линейную взаимосвязь можно вычислить используя параметрический коэффициент корреляции Пирсона

(47)

Одной из задач корреляционного анализа является проверка коэффициента корреляции на значимость. Дело в том, что выборочный коэффициент корреляции отличается от генерального, т.е. имеет определенную ошибку. При этом не исключена возможность, что взаимосвязь между величинами вовсе отсутствует. Поэтому требуется проверка нулевой гипотезы о равенстве нулю генерального коэффициента корреляции

Н(0): r=0

Проверяется гипотеза по критерию Стъюдента:

(48)

Критическое значение критерия находится по таблице для заданного уровня значимости α и числа степеней свободы f=n-2 (Приложение 2).

Если │ tвыч│≥ tкрит то принимается Н(1) и делается вывод, что между величинами существует значимая корреляция.

Если │ tвыч│< tкрит то принимается Н(0) и делается вывод о независимости исследуемых величин (коэффициент корреляции незначим).

Полезно также вычислять величину r2 (в %). Она показывает, какая доля изменчивости одной величины объясняется влиянием другой величины.

Наши рекомендации