Коэффициент корреляции рангов К. Спирмена
Если
• закон распределения случайной величины неизвестен или он не соответствует нормальному
• имеем дело с неколичественными данными (например, ординальными величинами)
• выборка мала
то используется коэффициент корреляции ранговК. Спирмена
(49)
где di — разность между рангами сопряженных признаков, n — число парных членов ряда.
При расстановке рангов необходимо учитывать, что равным по значению величинам присваивается ранг равный среднему арифметическому их номеров в ранжированном ряду.
При полной связи ранги признаков совпадут, и разность между ними будет равна 0, соответственно коэффициент корреляции будет равен 1. Если же признаки варьируются независимо, коэффициент корреляции получится равным 0
Для проверки гипотезы о значимости коэффициента корреляции Спирменаможно воспользоваться таблицей критических значений (Приложение 6). Если вычисленный коэффициент корреляции превышает табличное значение, то связь между величинами признается статистически значимой.
Вернемся к проблеме взаимосвязипоказателей кровотока в церебральных артериях и функцией эндотелия при атеросклерозе сосудов головного мозга. У 8 пациентов с помощью ультразвукового доплеровского сканирования брахиоцефальных артерий измерялась линейная скорость кровотока (ЛСК, см/с) и с использованием фотоплетизмографического метода оценивался индекс жесткости (SI, мс), отражающий вязко-эластичные свойства проводящих артерий, аорты. Результаты приведены в таблице 52. Поскольку распределение признаков неизвестно, рассчитывался коэффициент корреляции Спирмена. Таблица 52. Расстановка рангов
Σ di2=161,5 Проверим гипотезу о значимости коэффициента корреляции: согласно таблице (Приложение 6) для п=8 критическое значение равно 0,643. Т.к. вычисленное значение больше критического с уровнем значимости 0,05, следовательно, обнаружена сильная обратная связь между скоростными показателями кровотока и показателем контурного анализа – индексом жесткости, т.е. чем выше скорость кровотока, тем меньше индекс жесткости. |
Контрольное задание 12 (тесты):
1. Какая связь наблюдается между переменными, представленными на данной диаграмме рассеяния?
a) обратная, пропорциональная
b) прямая, сильная
c) отсутствует
d) прямая, средняя
e) обратная, средняя
2. В каких случаях для определения взаимосвязи между случайными величинами используется коэффициент корреляции Пирсона
a) для нормально распределенных признаков
b) для качественных признаков
c) для ординальных признаков
d) для номинальных признаков
e) для независимых признаков
3. Какая связь существует между величинами, если коэффициент корреляции равен -0,110
a) связь между величинами слабая и прямая;
b) связь между величинами сильная и прямая;
c) связи между величинами нет;
d) связь между величинами слабая и обратная;
e) связь между величинами сильная и обратная.
4. Определите связь между переменными, представленными на данной диаграмме рассеяния:
a) прямая и сильная
b) обратная и слабая
c) нелинейная
d) прямая и средняя
e) обратная и средняя
ЛИНЕЙНАЯ РЕГРЕССИЯ
Проблема. В настоящий момент имеет место всё более широкое использование бронхологических методик в пульмонологии, в т.ч. и в группе соматически тяжёлых больных с выраженной бронхообструкцией и тяжёлой дыхательной недостаточностью. Небольшое количество работ посвящено оценке изменений сатурации кислорода SaO2 (насыщение крови кислородом, выраженное в %) под влиянием проведения фибробронхоскопии, причём это касается, прежде всего, постбронхоскопического периода. Во всех случаях отмечалось снижение резервов оксигенации после бронхологического вмешательства. Вместе с тем изучению динамики SaO2 непосредственно во время проведения бронхологического вмешательства почти не уделяется внимания. В ходе проведённых исследований выявлено, что зависимость SaО2 (y) от времени проведения ФБС (τ) определяется в виде суммы двух функций: y(τ) = y1(τ) + y2(τ). Функция y1(τ) отражает линейную составляющую и функция y2(τ) периодическую составляющую. Предметом настоящего рассмотрения стала линейная составляющая функциональной зависимости SaО2 от времени проведения ФБС. |
Вернемся к графику, который показывает зависимость между ростом и весом (рисунок 24). Мы уже оговорили, что между этими величинами существует связь и эта связь линейная. А теперь попытаемся вывести некоторую функцию (математическое правило), которая позволяла бы определять, хотя бы приблизительно, изменение веса при изменении роста.
Регрессия– это функция, связывающая зависимую величину y с независимой величиной x. Она показывает, как в среднем изменяется y при изменениях x. Из математики нам известны различные функции: линейная, квадратичная, экспоненциальная, тригонометрические и т.д. Простейшей функцией является линейная, график этой функции изображен на рисунке 28. Уравнение линейной регрессии имеет вид
(50)
где – зависимая переменная, x – независимая переменная, b0 и b1 – постоянные коэффициенты
Основная задача регрессионного анализа найти постоянные коэффициенты b0 и b1 и оценить их статистическую значимость. Дело в том, что через точки на диаграмме рассеяния можно провести сколь угодно много прямых линий (вывести множество функций), все они будут отличаться друг от друга коэффициентами b0 и b1. Необходимо выбрать из них такую, которая наилучшим образом описывает связь между y и x. Одним из способов сделать это применить метод наименьших квадратов (МНК).
Как уже отмечалось, уравнение регрессии показывает, как в среднем меняется y, т.е. конкретные его значения, полученные в опыте, и рассчитанные по уравнению могут не совпадать – есть некоторая ошибка. Из рисунка 27 видно, что для одних значений yэта ошибка меньше, для других – больше.
Суть МНК в том, чтобы вывести такое уравнение регрессии, для которого сумма квадратов всех ошибок была бы наименьшей. После некоторых математических выкладок, которые мы здесь приводить не будем, можно получить, что такое уравнение имеет следующие коэффициенты b1и b0.
(51)
(52)
Рисунок 27. Метод наименьших квадратов
Уравнение регрессии фактически является математической моделью взаимосвязи двух случайных величин. Качество этой модели, т.е. насколько хорошо она отражает эту связь, можно оценить с помощью коэффициента детерминации R2, который равен квадрату коэффициента корреляции между величинами (×100 %). Он показывает, сколько процентов исходных (выборочных) данных вписывается в полученную модель, или какой процент изменчивости yобъясняется влиянием x.
При проведении фибробронхоскопии были получены следующие данные по динамике SaO2 Таблица 53. Данные к примеру
Для получения уравнения регрессии проведены расчеты Таблица 54. Результаты расчетов
Окончательно уравнение регрессии имеет вид SaО2 = 0,05τ+87,5 Интерпретация: линейная компонента зависимости SaO2 от времени проведения ФБС (τ) отражает, по нашим представлениям, как бы результирующий вектор кислородоустойчивости организма. При отсутствии кислородной подачи во время проведения ФБС непосредственный гипоксический эффект, сопровождающий введение в трахеобронхиальное дерево фибробронхоскопа (крупного инородного тела, частично обтурирующего просвет), явно превалирует над более отдалённым положительным эффектом эвакуации бронхиального секрета. Поэтому линейная компонента здесь будет иметь чётко убывающий характер. График функции представлен на рисунке 28. Рисунок 28. Изменение SaO2 во времени Поскольку уравнение регрессии находится по выборочным данным, обязательным является процедура проверки на статистическую значимость коэффициентов b1 и b0 и самой модели, которая осуществляется с использованием критериев Стъюдента и Фишера. В таблицае 55 приведено решение этой задачи в ППП STATISTICA Таблица 55. Результаты статобработки
Из нее видно, что между анализируемыми величинами существует сильная прямая связь (r= 0,93), коэффициенты уравнения регрессии статистически значимы (по критерию Стъюдента), само уравнение регрессии также статистически значимо (по критерию Фишера), оно объясняет до 87% вариации SaO2 (R2=0,87). |
Уравнение регрессии, как правило, используются для прогноза, т.е. по нему, зная величину x,можно вычислить возможное значение y. При этом вы должны быть уверены, что общая тенденция развития явления сохранится за пределами наблюдений. В противном случае прогноз можно осуществлять только в пределах наблюдаемых значений x.
Предположим мы прогнозируем некоторое значение у при заданном х=х0. Тогда доверительный интервал для прогноза составляет
(53)
где (54)
– среднеквадратичное отклонение у вследствие ошибок модели, tкритерий Стъюдента для заданного α и f=n2
Решим задачу прогноза сатурации кислорода SaO2 через 200 сек после начала ФБС. SaО2 = 0,05τ+87,5=0,05×200+87,5=77,5 % Для расчета доверительного интервала дополним таблицу 56 Таблица 56. Результаты расчетов
Тогда Таким образом, на 200 сек. фибробронхоскопии сатурация кислорода составит от 76 до 79%. |
Если независимых переменных много x1, x2, x3, x4, т.д., то возможно построение уравнение множественной линейной регрессии
(55)
Например, САД зависит от возраста, ИМТ, рациона питания и т.д. (см. Таблицу 57).
Таблица 57. Результаты статобработки
r= 0,6 R2=0 ,36 F(4,433)=60,3 p=0,000 | ||||
Коэффициенты bi | Ст. ошибка коэффициента | t Стъюдента | pуровень | |
признак | ||||
свободн. член | 16,5 | 11,12 | 1,48 | 0,139 |
ЛПВП | 2,5 | 2,20 | 1,16 | 0,247 |
Возр | 0,3 | 0,12 | 2,47 | 0,014 |
Холест. | 3,2 | 0,69 | 4,57 | 0,000 |
ИМТ | 5,5 | 0,39 | 14,18 | 0,000 |
Уравнение регрессии имеет вид
В данном примере коэффициент множественной корреляции равен 0,6, т.е. модель объясняет до 36% вариаций систолического артериального давления. Она является статистически значимой (т.е. не случайной). Если судить по pуровню, то САД зависит от возраста, содержания холестерина в крови и от индекса массы тела. Связь с уровнем липидов не подтверждается. В таблице 58 приведены частные коэффициенты корреляции отдельных признаков с САД, а также оценка их статистической значимости. Самая сильная связь наблюдается с индексом массы тела (r= 0,563), с возрастом и уровнем холестерина связь слабая, а с ЛПВП статистически незначимая.
Таблица 58. Частные коэффициенты корреляции
признак | Частная корреляция | t Стъюдента | pуровень |
ЛПВП | 0,056 | 1,16 | 0,247 |
Возр | 0,118 | 2,47 | 0,014 |
Холест | 0,214 | 4,57 | 0,000 |
ИМТ | 0,563 | 14,18 | 0,000 |
Перед использованием множественной регрессии проверьте соблюдение некоторых условий:
- зависимая величина является количественной непрерывной, а независимые могут быть количественными или ординальными
- независимые величины не должны сильно коррелировать между собой, в этом случае нужно отобрать один наиболее значимый признак
- число наблюдений должно примерно в 10 раз превосходить число анализируемых признаков
Если взаимосвязь между величинами имеет более сложный характер, чем линейный, то возможны нелинейные модели, например такого вида
(56)
Для анализа таких моделей также существуют статистические методы, однако для их освоения требуются специальные математические знания. Описание этих методов можно найти в специальной литературе.
Контрольное задание 13:
По данным из таблицы 59 вывести уравнение регрессии. Для этого воспользоваться мастером диаграмм программы MS Excell. Определить концентрацию гормона в моче у лиц возраста 70 лет.
Таблица 59. Данные к заданию
Содержание андростеронов в моче (мг/сутки) | 0,82 | 0,90 | 0,98 | 1,06 | 1,20 | 1,29 |
Возраст (лет) |
АНАЛИЗ ВЫЖИВАЕМОСТИ
Проблема. Одной из сложных задач в лечении больных злокачественными лимфопролиферативными заболеваниями кожи является решение вопроса о целесообразности применения специфической химиотерапии. В настоящее время растут требования к доказательствам эффективности лечения заболевания. Поэтому в качестве аргументов «за» и «против» при подборе конкретного метода терапии важно использовать не только сведения о его эффективности в достижении ремиссии, но и имеющуюся информацию о влиянии лечения на отдалённый прогноз заболевания, в том числе на общую выживаемость пациентов и выживаемость от конкретного заболевания. С целью изучения влияния цитостатической терапии на выживаемость больных ГМ было проведено ретроспективное статистическое исследование отдаленных результатов лечения при помощи анализа выживаемости методом Каплана–Мейера. |
Анализ выживаемости статистический анализ, разработанный для изучения, оценки и сравнения времени, прошедшего до наступления некоторого события (появления метастазов, выздоровления, гибели, обострения заболевания).
Выживаемость S(t) (Survive) – вероятность «прожить» время большее t с момента начала наблюдения.
Термин впервые был введен страховыми агентами, которые оценивали продолжительность жизни.
(57)
Если все наблюдения начались одновременно и закончились одновременно,то
Таким образом, выживаемость– это вероятность ненаступлениясобытия до некоторого момента времени.
События могут быть различные, не только нежелательные (гибель объекта), но и желательные – выздоровление, беременность при лечении от бесплодия, вступление в брак …
Свойства функции S(t)
S(t)=1, если t=0: в самом начале исследования ожидаемое событие не произошло ни у кого из наблюдаемых. Вероятность “дожития” до этого момента равна 1.
S(t)=0, если t=∞: в конце исследования событие произошло у всех наблюдаемых. Вероятность “дожития” до этого момента = 0.
График функции S(t)– кривая выживаемости отражает вероятность пережить любой из моментов времени t (рисунок 29). Время может измеряться в любых известных единицах (дни, месяцы и др).
Рисунок 29. Кривая выживаемости
График может быть крутым, тогда говорят, что выживаемость низкая, т.е. ожидаемое событие наступило быстро у всех испытуемых. График может быть пологим, тогда выживаемость – высокая, т.е. потребовалось много времени, чтобы ожидаемое событие наступило у всех испытуемых.
Кривая выживаемости используется, в частности, для определения медианы выживаемости и других процентилей времени жизни.
Время, до которого доживет половина испытуемых, называется медианой выживаемости(Ме). Если событие не наступило у половины испытуемых вообще, то медиану определить невозможно, тогда определяют, время, до которого “дожили” (т.е. событие не наступило) три четверти всех испытуемых (75%). При сравнении двух кривых и более, по медиане можно оценить выживаемость в разных группах.
Для построения кривой выживаемости необходимо одновременно начать наблюдение за всеми привлеченными к исследованию и всех «довести» до наступления события. Как правило, не все наблюдения начинаются одновременно, и не все заканчиваются одновременно, по разным причинам. Случается, что больной покидает больницу досрочно, или само исследование заканчивается до наступления события у данного конкретного участника, и мы не знаем, что с ним произошло в дальнейшем. Т.е. мы имеем дело с неполными (цензурированными) данными. Для построения кривой выживаемости по цензурированным данным используется метод КапланаМайера.
Предварительно строится так называемая таблица времени жизни.
Таблица 60. Таблица времени жизни
Момент времени | Количество наблюдаемых объектов к моменту времени t | Количество событий произошедших в момент времени t | Доля не достигших события в момент t | Выживаемость (кумулятивная доля) |
t | ni | di | S(t) |
Выживаемость рассчитывается как произведение по всем моментам времени, когда произошло хотя бы одно событие
(58)
Пример.У 10 больных лейкемией после лечения наступила ремиссия. Мы будем изучать продолжительность времени ремиссии, а событием (конечной точкой) будет рецидив. Пациенты по фамилии А,Б,В,Ж,З,Е,К достигли ремиссии на 1,1,2,6,6,8,12 месяцы исследования соответственно и у них случился рецидив через 7,12,7,8,9,6,2 месяца соответственно. Приведенные данные представлены на графике (рис.30А). Рисунок 30. График времени жизни Пациенты Г, И достигли ремиссии на 3 и 8 месяце исследования, и по окончании исследования оставались в ремиссии и не дали рецидива. Пациент Д достиг ремиссии на 3 месяце и через 11 месяцев выписался (уехал), про него не известно, был ли рецидив. Всех их будем считать выбывшими. Начало горизонтальной линии обозначает начало ремиссии, закрашенный кружок на конце линии – время наступления рецидива. Если нет информации о времени наступления рецидива – кружок прозрачный. Представим данные таким образом, как будто ремиссия у всех началась одновременно в t =0 (рис. 30Б). Теперь на шкале времени не астрономические время, а время наблюдения. Такое представление данных облегчит нам дальнейшие расчеты. Результаты расчета выживаемости занесем в сводную таблицу. Первый рецидив наступил у пациента К через 2 месяца. Наблюдались в это время все 10 пациентов. Значит, вероятность рецидива через 2 месяца – d2/n2 =1/10=0,1. Соответственно, вероятность не наступления рецидива через 2 месяца: Следующий рецидив случился на 6 месяце у пациента Е. К этому времени в ремиссии были 9 пациентов. Вероятность рецидива через 6 месяцев составляет d6 /n6 = 1/9 = 0,111, а вероятность не наступления рецидива через 6 месяцев 1 0,111=0,889 Теперь мы можем оценить вероятность прожить без рецидивов более 6 месяцев, то есть S(6). Прожить без рецидивов более 6 месяцев — это значит не иметь рецидив через 2 месяца и через 6 месяцев. То есть, по правилу умножения вероятностей: S(6) = 0,900 * 0,889 = 0,800. Перейдем к следующему печальному событию. На 7 месяце рецидив случился сразу у 2 пациентов АиВ. К этому времени в ремиссии было 8 человек. Имеем И тогда S(7) = 0,900 * 0,889 * 0,750 = 0,600. На 8 месяце рецидив у пациента Ж. В ремиссии к этому времени 5 человек (у 4х рецидив, 1 выбыл: 10 4 1 = 5). S(8) = 0,900 * 0,889 * 0,750 * 0,800 = 0,480. В таблице 61 расчет выживаемости приведен полностью. Таблица 61. Расчет выживаемости
Теперь мы можем представить результаты исследования выживаемости в виде графика (рисунок 31). Точки на графике соответствуют моментам, когда рецидив случился хотя бы у одного из наблюдавшихся. Эти точки обычно соединяют ступенчатой линией. Рисунок 31. Кривая выживаемости по цензурированным данным В момент времени 0 выживаемость составляет 1,0, затем постепенно снижается. В данном случае рецидив был не у всех наблюдавшихся поэтому нуля линия не достигает. Медиана выживаемости (Ме) равна 8 месяцам. |
Вернемся к проблеме эффективности химиотерапии у больных с грибковым заболеванием кожи. Проведено исследование: I группа: 40 пациентов, получавших от 1 до 8 курсов специфической химиотерапии (преимущественно проспидином). II группа: 32 пациента, никогда не получавших цитостатики, у которых применялись различные комбинации витаминотерапии, гормонотерапии, иммуностимулирующей и лучевой терапии (рисунок 32).
Рисунок 32. Сравнение кривых выживаемости
Выживаемость пациентов с момента начала заболевания в группе II лучше, чем в группе I (рис. 32). Медиана выживаемости в группе I составила 24 года, в группе II медиана выживаемости не определяется, так как за время наблюдения за группой умерло менее половины наблюдаемых.
Заключение.Результаты нашего исследования позволяют сделать вывод о том, что цитостатическая терапия отрицательно повлияла на продолжительность жизни больных лимфомами кожи низкой степени злокачественности в изученной группе. Проведенный ретроспективный анализ выживаемости выявил отчетливую закономерность во влиянии проводимой терапии на отдаленные результаты лечения и выживаемость пациентов, что может послужить достаточным базисом для выработки обоснованной тактики лечения больных изученной патологией.
Контрольное задание 14:
По данным из таблицы 62 определите какова вероятность дожить до 17 часов
Таблица 62. Данные к заданию
t, час | |||||||
S(t) | 0,96 | 0,89 | 0,71 | 0,59 | 0,5 | 0,34 | 0,15 |
МЕТОДЫ ПРОГНОЗИРОВАНИЯ
Обычно под прогнозированием понимается процесс предсказания будущего основанное на некоторых данных из прошлого, т.е. изучается развитие интересующего явления во времени. Тогда прогнозируемая величина рассматривается как функция времени . Однако, в медицине рассматриваются и другие виды прогноза: прогнозируется диагноз, диагностическая ценность нового теста, изменение одного фактора под действием другого и т.д.
В этом разделе мы познакомимся с прогнозированием во времени. Как уже было отмечено, прогноз осуществляется на основании некоторой информации из прошлого (базы прогноза). Прежде чем подобрать метод прогнозирования полезно хотя бы качественно оценить динамику изучаемой величины в предыдущие моменты времени. На представленных графиках (рисунок 33) видно, что она может быть различной. В первом случае наблюдается относительная стабильность с небольшими колебаниями вокруг среднего значения. Во втором случае динамика носит линейно возрастающий характер, в третьем – зависимость от времени нелинейная, экспоненциальная. Четвертый случай – пример сложных колебаний, имеющих несколько составляющих.
Рисунок 33. Виды динамики
Экстраполяция – наиболее распространенный метод краткосрочного прогнозирования (13 временных периода) заключающийся в продлении предыдущих закономерностей на будущее. Применение экстраполяции в прогнозировании базируется на следующих предпосылках:
• развитие исследуемого явления в целом описывается плавной кривой;
• общая тенденция развития явления в прошлом и настоящем не претерпит серьезных изменений в будущем.