Однофакторный дисперсионный анализ
Проблема. Результаты консервативного лечения аневризм, осложненных внутричерепной гематомой (ВЧГ), неудовлетворительные - летальность составляет 50-85%. До настоящего времени существуют различия в хирургической тактике при разрывах артериальных аневризм, осложненных ВЧГ. Сложность выбора тактики обусловлена сочетанием гематомы с выраженным ангиоспазмом, риском повторного кровотечения из аневризмы у тяжелых больных, различной оценкой симптомов компрессии и дислокации мозга, трудностью выделения доминирующей причины тяжелого состояния при сочетании гематомы с вентрикулярным кровоизлиянием, ишемией мозга. Оценка влияния различных факторов на результаты хирургического лечения позволит определить тактику ведения больных с аневризмами в сочетании с внутричерепными гематомами, выявить причины неблагоприятных исходов хирургического лечения и прогнозировать исход операции. В связи с этим одной из задач является определение зависимости срока госпитализации от тяжести состояния пациентов при поступлении, оцениваемой по шкале Hunt-Hess. |
Поставленную задачу можно сформулировать следующим образом: определить влияние многоуровневого фактора на случайную величину. Рассмотрим более простой случай - влияние рациона питания на привес животных. Было проведено исследование на 4 группах животных: первая группа потребляла обычный рацион, вторая – питалась только макаронами, третья – мясом, четвертая – овощами. Изучаемым фактором является рацион питания, который имеет четыре уровня, случайная величина – это привес животных. Нужно определить есть ли разница хотя бы между двумя средними в этих группах.
Прежде чем приступить к решению данной задачи, вспомним, что дисперсия является характеристикой разброса случайной величины относительно среднего.
В идеале, внутри каждой группы вес животных должен бы быть одинаковым, так как они питаются одинаковым рационом (например, все едят овощи). В реальности внутри групп будет наблюдаться разброс в привесе, в связи с тем, что кроме рациона на вес животных влияют другие факторы: особенности обмена веществ, поведенческих реакций, стрессоустойчивость и др. Эти факторы, которые мы будем называть неучтенными факторами, приводят к появлению внутригрупповой дисперсии Dвнутргр.
Средние по группам также имеют разброс (относительно общей средней), который объясняется влиянием изучаемого фактора - разных рационов. Это приводит к появлению межгрупповой дисперсии Dмежгр.
Рассмотрим случай, приведенный на рисунке 22. Видно, что внутри групп разброс показателя веса больше, чем разброс средних значений по группам. Можно предположить, что вес животных в этих группах не сильно зависит от рациона питания, а на него больше влияют неучтенные в данном исследовании факторы.
Рисунок 22. Внутригрупповая дисперсия
Другой случай представлен на рисунке 23.
В этом случае средние значения имеют больший разброс, чем данные внутри каждой группы. Показатели веса в различных группах расположились обособленно - можно сделать предположение, что рацион питания влияет на вес животных больше, чем неучтенные факторы.
Рисунок 23. Межгрупповая дисперсия
Таким образом, чтобы оценить влияние многоуровневого фактора на какую-то величину, необходимо сопоставить межгрупповую и внутригрупповую дисперсии. Межгрупповая дисперсия вносится изучаемым фактором, внутригрупповая дисперсия вносится какими-то другими (неучтенными) факторами.
Если то фактор не влияет
Если то фактор влияет
Если то неопределенность
Мы бы воспользовались этим правилом, если бы нам была доступна генеральная совокупность, но выборочные данные, в том числе выборочные дисперсии, ошибочны и в этом случае необходимо прибегнуть к теории проверки статистических гипотез.
Выдвигаем Н(0) – фактор не влияет на изучаемый признак
Задаемся уровнем значимости α
Вычисляем выборочную внутригрупповуюдисперсию, как среднее значение дисперсий по группам
(43)
Где - дисперсия показателя в каждой из kгрупп
Ивыборочную межгрупповую дисперсиюкак отклонение средних в каждой группе от общей средней
(44)
ni –количество объектов в i –той группе
- общая средняя
Вычисляем критерий Фишера
(45)
Сравниваем с (Приложение 7) для заданного α и числа степеней свободы
(46)
где k – число групп, n-общее количество объектов обследования
Если вычисленное значение критерия Фишера меньше критического, то Н(0) принимается и делается вывод, что фактор не влияет на исследуемый показатель.
В противном случае принимается Н(1).
Вернемся к задаче влияния тяжести состояния пациентов при поступлении на срок госпитализации (по данным из таблицы 48). Выдвинем гипотезы: Н(0): срок лечения в стационаре не зависит от тяжести состояния пациента при госпитализации. Н(1): срок лечения в стационаре зависит от тяжести состояния пациента при госпитализации Таблица 48. Данные по сроку лечения
Таблица 49. Результаты статобработки
Т.к. Fвыч> Fкрит принимаем Н(1). Вывод: с вероятностью не менее 95% можно утверждать, что тяжесть состояния при госпитализации влияет на срок лечения в стационаре. |
Контрольное задание 11:
Используя факторный дисперсионный анализ определить, отличается ли число тромбоцитов у детей разного возраста:
Таблица 50. Данные к заданию
Число тромбоцитов | Дети до года | Дети от года до 3 лет |
Среднее Xi | ||
Дисперсия D i | ||
Дисперсия D межгр |
ЛИНЕЙНАЯ КОРРЕЛЯЦИЯ
Проблема. Атеросклероз - системное заболевание, поражающее артерии эластического (аорта и ее ветви) и мышечно-эластического (артерии сердца, головного мозга и др.) типов. Атеросклероз является ведущей причиной заболеваемости и смертности во многих развитых странах. В диагностике цереброваскулярных заболеваний в настоящее время превалируют ультразвуковые методы исследования, используемые для оценки кровотока в крупных и средних сосудах головы и шеи. В частности, ультразвуковое дуплексное сканирование позволяет достоверно определять скорость движения крови по сосудам, выявлять участки сужения (стеноза просвета) артерий головного мозга, участки с нарушенным кровотоком. Этот метод - один из самых достоверных в диагностике атеросклероза сосудов головного мозга. В свою очередь, одним из наиболее информативных ранних маркеров атеросклероза является увеличение толщины комплекса интима-медиа (КИМ) в общей сонной артерии. В связи с этим стояла задача изучения взаимосвязеймежду показателями кровотока в церебральных артериях и функцией эндотелия при атеросклерозе сосудов головного мозга. |
Обратимся к диаграмме на рисунке 24, на которой представлены значения роста и веса 14 испытуемых, отложенные на соответствующих осях, а на их пересечении поставлены точки. Эта диаграмма носит название диаграммы рассеяния. Из нее видно, что при увеличении роста вес также увеличивается, хотя это бывает не всегда – из практики мы знаем, что встречаются маленькие полные и высокие худые люди. Но общая тенденция все же такая, и мы можем даже провести воображаемую линию, по которой происходят изменения. То есть между ростом и весом имеется определенная связь – изменение роста приводит к изменению веса, и эта связь носит линейный характер.
Рисунок 24. Зависимость веса от роста
Степень выраженности связи между случайными величинами отражает понятие корреляция. Количественно взаимосвязь между случайными величинами определяет коэффициент корреляции – r.
• Коэффициент корреляции лежит в пределах -1 ≤ r ≤ 1.
• Если r> 0, то связь прямая - с увеличением значений одной величины другая также в среднем возрастает.
• Если r < 0, то связь обратная - с увеличением величины Х1 соответствующие им значения X2 в среднем также уменьшаются.
Значения линейного коэффициента корреляции и характер связи приведены в таблице 51
Таблица 51. Значения коэффициента корреляции
r = -1 | обратно пропорциональная |
-1< r < -0,7 | обратная сильная |
-0,7 ≤ r ≤ -0,5 | обратная средняя |
-0,5 < r < 0 | обратная слабая |
r = 0 | отсутствует |
0 < r < + 0,5 | прямая слабая |
+0,5 ≤ r ≤ +0,7 | прямая средняя |
+ 0,7< r < + 1 | прямая сильная |
r = +1 | прямо пропорциональная |
Оценить корреляцию между признаками можно и по диаграмме рассеяния. Чем ближе точки на графике к прямой линии, тем больше коэффициент корреляции (рисунок 25).
Рисунок 25. Диаграммы рассеяния
При прямой связи воображаемая линия направлена слева на право вверх, при обратной – слева на право вниз. В случае r = ±1 все точки диаграммы лежат на одной прямой линии – значит одна величина на сто процентов зависит от другой.Корреляция может быть и нелинейной как это видно из рисунка 26, на котором отражена зависимость ЧСС от возраста.
Рисунок 26. Нелинейная корреляция
Надо помнить, что корреляция выражает лишь математическую связь и, опираясь только на него, нельзя делать выводы о причинно-следственных отношениях. Например, может получиться высокий коэффициент корреляции между массой тела и знанием биостатистики, однако вряд ли одно является следствием другого, возможно оба признака меняются под воздействием третьего – возраста человека.
В статистике используются параметрические и непараметрические коэффициенты корреляции. Для двух количественных случайных величин Х1 и Х2 (n -объем каждой выборки), если они нормально распределены, их линейную взаимосвязь можно вычислить используя параметрический коэффициент корреляции Пирсона
(47)
Одной из задач корреляционного анализа является проверка коэффициента корреляции на значимость. Дело в том, что выборочный коэффициент корреляции отличается от генерального, т.е. имеет определенную ошибку. При этом не исключена возможность, что взаимосвязь между величинами вовсе отсутствует. Поэтому требуется проверка нулевой гипотезы о равенстве нулю генерального коэффициента корреляции
Н(0): r=0
Проверяется гипотеза по критерию Стъюдента:
(48)
Критическое значение критерия находится по таблице для заданного уровня значимости α и числа степеней свободы f=n-2 (Приложение 2).
Если │ tвыч│≥ tкрит то принимается Н(1) и делается вывод, что между величинами существует значимая корреляция.
Если │ tвыч│< tкрит то принимается Н(0) и делается вывод о независимости исследуемых величин (коэффициент корреляции незначим).
Полезно также вычислять величину r2 (в %). Она показывает, какая доля изменчивости одной величины объясняется влиянием другой величины.