Понятие о регрессионном анализе
Регрессия определяет математическую зависимость между зависимой переменной (отклик)и одной или более независимыми переменными (предикторами).
Регрессионный анализ с помощью коэффициента регрессии позволяет количественно прогнозировать изменения одной переменной при изменении другой.
Для описания связи могут использоваться различные математические функции, основными из которых являются:
■ линейная
■ экспоненциальная
■ логистическая
Простая линейная регрессия или множественная регрессия могут применяться для непрерывных признаков, например, давление, вес.
Логистическая регрессия применима в тех случаях, когда зависимые признаки являются бинарными (например, умер/жив, выздоровел/не выздоровел).
Линейная регрессия
Математическое уравнение, которое оценивает линию простой линейной регрессии:
Y=a+bx
х – называется предиктором – независимой или объясняющей переменной.
Для данной величины х, Y — значение переменной у (называемой зависимой, выходной переменной, или переменной отклика), которое расположено на линии оценки. Это есть значение, которое мы ожидаем для у (в среднем), если мы знаем величину х, и называется она «предсказанное значение у» (рис. 5).
а – свободный член (пересечение)линии оценки; это значение Y, когда х=0.
b – угловой коэффициент или градиент оценённой линии; он представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем х на одну единицу (рис. 5). Коэффициент b называют коэффициентом регрессии.
Например: при увеличении температуры тела человека на 1оС, частота пульса увеличивается в среднем на 10 ударов в минуту.
Рисунок 5. Линия линейной регрессии, показывающая коэффициент а и угловой коэффициент b (величину возрастания Y при увеличении х на одну единицу)
Математически решение уравнения линейной регрессии сводится к вычислению параметров а и b таким образом, чтобы точки исходных данных корреляционного поля как можно ближе лежали к прямой регрессии.
Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого Френсису Гальтону (1889). Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).
Мы наблюдаем регрессию к среднему при скрининге и клинических исследованиях, когда подгруппа пациентов может быть выбрана для лечения потому, что их уровни определённой переменной, скажем, холестерина, крайне высоки (или низки). Если это измерение через некоторое время повторяется, средняя величина второго считывания для подгруппы обычно меньше, чем при первом считывании, имея тенденцию (т.е. регрессируя) к среднему, подобранному по возрасту и полу в популяции, независимо от лечения, которое они могут получить. Пациенты, набранные в клиническое исследование на основе высокого уровня холестерина при их первом осмотре, таким образом, вероятно, покажут в среднем падение уровня холестерина при втором осмотре, даже если в этот период они не лечились.
Часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.
Насколько хорошо линия регрессии согласуется с данными, можно судить, рассчитав коэффициент R (обычно выраженный в процентах и называемый коэффициентом детерминации), который равняется квадрату коэффициента корреляции (r2). Он представляет собой долю или процент дисперсии у, который можно объяснить связью с х, т.е. долю вариации признака-результата, сложившуюся под влиянием независимого признака. Может принимать значения в диапазоне от 0 до 1, или соответственно от 0 до 100%. Разность (100% - R)представляет собой процент дисперсии у, который нельзя объяснить этим взаимодействием.
Пример
Соотношение между ростом (измеренным в см) и систолическим артериальным давлением (САД, измеренным в мм рт. ст.) у детей. Мы провели анализ парной линейной регрессии зависимости САД от роста (рис. 6). Имеется существенное линейное соотношение между ростом и САД.
Рисунок 6. Двумерный график, показывающий соотношение между систолическим артериальным давлением и ростом. Изображена оценённая линия регрессии, систолическое артериальное давление.
Уравнение линии оценённой регрессии имеет следующий вид:
САД=46,28+0,48 х рост.
В этом примере свободный член не представляет интереса (рост, равный нулю, явно вне диапазона величин, наблюдаемых в исследовании). Однако мы можем интерпретировать угловой коэффициент; предсказано, что у этих детей САД увеличивается в среднем на 0,48 мм рт.ст. при увеличении роста на один сантиметр
Мы можем применить уравнение регрессии для предсказания САД, которое мы ожидаем у ребёнка при данном росте. Например, ребёнок ростом 115 см имеет предсказанное САД, равное 46,28+(0,48х115)=101,48 мм рт. ст., ребёнок ростом 130 имеет предсказанное САД, 46,28+(0,48х130)=108,68 мм рт. ст.
При расчете коэффициента корреляции, установлено, что он равен 0,55, что указывает на прямую корреляционную связь средней силы. В этом случае коэффициент детерминации r2 =0,552=0,3. Таким образом, можно сказать, что доля влияния роста на уровень артериального давления у детей не превышает 30%, соответственно на долю других факторов приходится 70% влияния.
Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в связи присутствует более одной независимой переменной, тогда нам необходимо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит так:
y = a + bx1+b2x2 +.... + bnхn
Можно интересоваться результатом влияния нескольких независимых переменных х1, х2, .., хn на переменную отклика у. Если мы полагаем, что эти х могут быть взаимозависимы, то не должны смотреть по отдельности на эффект изменения значения одного х на у, но должны одновременно принимать во внимание величины всех других х.
Пример
Поскольку между ростом и массой тела ребёнка существует сильная зависимость, можно поинтересоваться, изменяется ли также соотношение между ростом и систолическим артериальным давлением, если принять во внимание также и массу тела ребёнка и его пол. Множественная линейная регрессия позволяет изучить совместный эффект этих нескольких независимых переменных на у.
Уравнение множественной регрессии в этом случае может иметь такой вид:
САД=79,44 –(0,03 х рост)+ (1,18 х вес) + (4,23 х пол)*
* - (для признака пол используют значения 0 – мальчик, 1 - девочка)
Согласно этому уравнению, девочка, рост которой 115 см и масса тела 37 кг, будет иметь прогнозируемое САД:
САД = 79,44 – (0,03 х 115) + (1,18 х 37) + (4,23 х 1) = 123,88 мм.рт.ст.
Логистическая регрессия очень похожа на линейную; её применяют, когда есть интересующий нас бинарный исход (т.е. наличие/отсутствие симптома или субъекта, который имеет/не имеет заболевания) и ряд предикторов. Из уравнения логистической регрессии можно определить, какие предикторы влияют на исход, и, используя значения предикторов пациента, оценить вероятность того, что он/она будет иметь определённый исход. Например: возникнут или нет осложнения, будет лечение эффективным или не будет.
Начинают создания бинарной переменной, чтобы представить эти два исхода (например, «имеет болезнь»=1, «не имеет болезни»=0). Однако мы не можем применить эти два значения как зависимую переменную в анализе линейной регрессии, поскольку предположение нормальности нарушено, и мы не можем интерпретировать предсказанные величины, которые не равны нулю или единице. Фактически, вместо этого мы берём вероятность того, что субъект классифицируется в ближайшую категорию (т.е. «имеет болезнь») зависимой переменной, и чтобы преодолеть математические трудности, применяют логистическое, преобразование, в уравнении регрессии — натуральный логарифм отношения вероятности «болезни» (p) к вероятности «нет болезни» (1-p).
Интегративный процесс, называемый методом максимального правдоподобия, а не обычная регрессия (так как мы не можем применить процедуру линейной регрессии) создаёт из данных выборки оценку уравнения логистической регрессии
logit (p)= a + bx1+b2x2 +.... + bnхn
• .logit (р) — оценка значения истинной вероятности того, что пациент с индивидуальным набором значений для х1 ... хn имеет заболевание;
• а — оценка константы (свободный член, пересечение);
• b1, b2,... ,bn — оценки коэффициентов логистической регрессии.
1. Вопросы по теме занятия:
1. Дайте определение функциональной и корреляционной связи.
2. Приведите примеры прямой и обратной корреляционной связи.
3. Укажите размеры коэффициентов корреляции при слабой, средней и сильной связи между признаками.
4. В каких случаях применяется ранговый метод вычисления коэффициента корреляции?
5. В каких случаях применяется расчет коэффициента корреляции Пирсона?
6. Каковы основные этапы вычисления коэффициента корреляции ранговым методом?
7. Дайте определение «регрессии». В чем сущность метода регрессии?
8. Охарактеризуйте формулу уравнения простой линейной регрессии.
9. Дайте определение коэффициента регрессии.
10. Какой можно сделать вывод, если коэффициент регрессии веса по росту равен 0,26кг/см?
11. Для чего используется формула уравнения регрессии?
12. Что такое коэффициент детерминации?
13. В каких случаях используется уравнение множественной регрессии.
14. Для чего применяется метод логистической регрессии?
2. Тестовые задания по теме с эталонами ответов:
1. ТЕРМИН «КОРРЕЛЯЦИЯ» В СТАТИСТИКЕ ПОНИМАЮТ КАК
1) связь, зависимость
2) отношение, соотношение
3) функцию, уравнение
4) коэффициент
2. СВЯЗЬ МЕЖДУ ПРИЗНАКАМИ МОЖНО СЧИТАТЬ СРЕДНЕЙ ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
1) r=0,13
2) r=0,45
3) r=0,71
4) r=1,0
3. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ r = - 0,82 ГОВОРИТ О ТОМ, ЧТО КОРРЕЛЯЦИОННАЯ СВЯЗЬ
1) прямая, средней силы
2) обратная, слабая
3) прямая, сильная
4) обратная, сильная
4. ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ В ДИАПАЗОНЕ ОТ 0 ДО 0,3 СИЛА СВЯЗИ ОЦЕНИВАЕТСЯ КАК
1) слабая
2) средняя
3) сильная
4) полная
5. СВЯЗЬ МЕЖДУ ПРИЗНАКАМИ МОЖНО СЧИТАТЬ СИЛЬНОЙ ПРИ ЗНАЧЕНИИ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
1) r= - 0,25
2) r=0,62
3) r= - 0,95
4) r= 0,55
6. ЗАВИСИМОСТЬ, ПРИ КОТОРОЙ УВЕЛИЧЕНИЕ ИЛИ УМЕНЬШЕНИЕ ЗНАЧЕНИЯ ОДНОГО ПРИЗНАКА ВЕДЕТ К УВЕЛИЧЕНИЮ ИЛИ УМЕНЬШЕНИЮ – ВТОРОГО, ХАРАКТЕРИЗУЕТ СЛЕДУЮЩИЙ ВИД СВЯЗИ
1) прямая
2) обратная
3) полная
4) неполная
7. ЗАВИСИМОСТЬ, ПРИ КОТОРОЙ УВЕЛИЧЕНИЕ ОДНОГО ПРИЗНАКА ДАЕТ УМЕНЬШЕНИЕ ВТОРОГО, ХАРАКТЕРИЗУЕТ СЛЕДУЮЩИЙ ВИД КОРРЕЛЯЦИОННОЙ СВЯЗИ
1) прямая
2) обратная
3) полная
4) неполная
8. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА ОПРЕДЕЛЯЕТ
1) статистическую значимость различий между переменными
2) степень разнообразия признака в совокупности
3) силу и направление связи между зависимой и независимой переменными
4) долю дисперсии результативного признака объясняемую влиянием независимых переменных
9. УСЛОВИЕМ ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ПИРСОНА ЯВЛЯЕТСЯ
1) распределение переменных неизвестно
2) нормальное распределение по крайней мере, одной из двух переменных
3) по крайней мере, одна из двух переменных измеряется в ранговой шкале
4) отсутствует нормальное распределение переменных
10. РАНГОВЫЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ СПИРМЭНА РАССЧИТЫВАЕТСЯ, КОГДА
1) присутствует нормальное распределение переменных
2) необходимо оценить связь между качественными и количественными признаками
3) необходимо определить статистическую значимость различий между переменными
4) необходимо оценить степень разнообразия признака в совокупности
11. ЗАВИСИМОСТЬ, КОГДА КАЖДОМУ ЗНАЧЕНИЮ ОДНОГО ПРИЗНАКА СООТВЕТСТВУЕТ ТОЧНОЕ ЗНАЧЕНИЕ ДРУГОГО, НАЗЫВАЕТСЯ
1) прямой
2) обратной
3) корреляционной
4) функциональной
12. ЗАВИСИМОСТЬ, КОГДА ПРИ ИЗМЕНЕНИИ ВЕЛИЧИНЫ ОДНОГО ПРИЗНАКА ИЗМЕНЯЕТСЯ ТЕНДЕНЦИЯ (ХАРАКТЕР) РАСПРЕДЕЛЕНИЯ ЗНАЧЕНИЙ ДРУГОГО ПРИЗНАКА, НАЗЫВАЕТСЯ
1) прямой
2) обратной
3) корреляционной
4) функциональной
13. ДЛЯ ИЗОБРАЖЕНИЯ КОРРЕЛЯЦИОННОЙ ЗАВИСИМОСТИ ИСПОЛЬЗУЕТСЯ ГРАФИК
1) линейный
2) график рассеяния точек
3) радиальный
4) динамический
14. ЕСЛИ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ РАВЕН ЕДИНИЦЕ, ТО СВЯЗЬ ЯВЛЯЕТСЯ
1) сильной, прямой
2) сильной обратной
3) средней, прямой
4) полной (функциональной), прямой
15. СВЯЗЬ МЕЖДУ Y ИX МОЖНО ПРИЗНАТЬ БОЛЕЕ СУЩЕСТВЕННОЙ ПРИ СЛЕДУЮЩЕМ ЗНАЧЕНИИ ЛИНЕЙНОГО КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
1) r= 0,35
2) r= 0,15
3) r= -0,57
4) r=0,46
16. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ ИСПОЛЬЗУЕТСЯ ДЛЯ ИЗУЧЕНИЯ
1) взаимосвязи явлений
2) развития явления во времени
3) структуры явлений
4) статистической значимости различий между явлениями
17. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ
1) от 0 до 1
2) от -1 до 0
3) от -1 до 1
4) любые положительные
18. КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ МОЖЕТ ПРИНИМАТЬ ЗНАЧЕНИЯ
1) от 0 до 1
2) от -1 до 0
3) от -1 до 1
4) любые положительные
19. В РЕЗУЛЬТАТЕ ПРОВЕДЕНИЯ РЕГРЕССИОННОГО АНАЛИЗА ПОЛУЧАЮТ УРАВНЕНИЕ, ОПИСЫВАЮЩЕЕ ... ПОКАЗАТЕЛЕЙ
1) взаимосвязь
2) соотношение
3) структуру
4) темпы роста
20. ЛИНЕЙНАЯ СВЯЗЬ МЕЖДУ ФАКТОРАМИ ИССЛЕДУЕТСЯ С ПОМОЩЬЮ УРАВНЕНИЯ РЕГРЕССИИ
1)
2)
3)
4)
21. ПАРАМЕТРb (b= 0,016)ЛИНЕЙНОГО УРАВНЕНИЯ РЕГРЕССИИ ПОКАЗЫВАЕТ, ЧТО
1) с увеличением признака х на 1 признак у увеличивается на 0,678
2) с увеличением признака х на 1 признак у увеличивается на 0,016
3) с увеличением признака х на 1 признак у уменьшается на 0,678
4) с увеличением признака х на 1 признак у уменьшается на 0,016
22. НЕЗАВИСИМАЯ ПЕРЕМЕННАЯ В УРАВНЕНИИ РЕГРЕССИИ НАЗЫВАЕТСЯ
1) вариантой
2) уровнем
3) предиктором
4) переменной отклика
23. ЗАВИСИМАЯ ПЕРЕМЕННАЯ В УРАВНЕНИИ РЕГРЕССИИ НАЗЫВАЕТСЯ
1) вариантой
2) уровнем
3) предиктором
4) переменной отклика
24. ДЛЯ ПРОГНОЗИРОВАНИЯ ИЗМЕНЕНИЯ БИНАРНЫХ ПРИЗНАКОВ ПРИМЕНЯЕТСЯ СЛЕДУЮЩИЙ ВИД РЕГРЕССИИ
1) линейная
2) экспоненциальная
3) полиноминальная
4) логистическая
25. ДЛЯ ОЦЕНКИ КОРРЕЛЯЦИОННОЙ СВЯЗИ МЕЖДУ КАЧЕСТВЕННЫМИ ПРИЗНАКАМИ ПРИМЕНЯЕТСЯ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
1) Пирсона
2) Спирмэна
3) Кендела
4) Чупрова
26. ДОЛЮ ВАРИАЦИИ ПРИЗНАКА-РЕЗУЛЬТАТА, СЛОЖИВШУЮСЯ ПОД ВЛИЯНИЕМ НЕЗАВИСИМОГО ПРИЗНАКА ОБЪЯСНЯЕТ КОЭФФИЦИЕНТ
1) корреляции Пирсона
2) корреляции Спирмэна
3) детерминации
4) вариации
27. ДЛЯ ИЗУЧЕНИЯ СВЯЗИ, В КОТОРОЙ ПРИСУТСТВУЕТ БОЛЕЕ ОДНОЙ НЕЗАВИСИМОЙ ПЕРЕМЕННОЙ ИСПОЛЬЗУЕТСЯ
1) линейная регрессия
2) множественная регрессия
3) ранговая корреляция Спирмэна
4) расчет темпа прироста
28. ДЛЯ РАСЧЕТА КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ СПИРМЭНА НЕОБХОДИМО
1) расположить переменные в порядке возрастания
2) расположить переменные в порядке убывания
3) возвести переменные в квадрат
4) присвоить переменным в порядке возрастания последовательные ранги (номера 1, 2, 3, .., n)
29. ЗАВИСИМОСТЬ ВЕСА ОТ РОСТА ЧЕЛОВЕКА (РОСТО-ВЕСОВОЙ ИНДЕКС) ОПИСЫВАЕТСЯ ПРИ ПОМОЩИ
1) логистической регрессии
2) множественной регрессии
3) экспоненциальной регрессии
4) линейной регрессии
30. ЗАВИСИМОСТЬ ПОЛОЖИТЕЛЬНОГО ИЛИ ОТРИЦАТЕЛЬНОГО РЕЗУЛЬТАТА ЛЕЧЕНИЯ ОТ РЯДА ФАКТОРОВ ОПИСЫВАЕТСЯ ПРИ ПОМОЩИ
1) логистической регрессии
2) множественной регрессии
3) экспоненциальной регрессии
4) линейной регрессии
31. КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ИЗМЕРЯЕТСЯ В
1) процентах
2) тех же единицах, что и изучаемый признак
3) промилле
4) не имеет единиц измерения
32. ИЗ НИЖЕПЕРЕЧИСЛЕННЫХ ВЕЛИЧИН ДЛЯ ОПРЕДЕЛЕНИЯ РАЗМЕРА ОДНОГО ПРИЗНАКА ПРИ ИЗМЕНЕНИИ ДРУГОГО НА ЕДИНИЦУ ИЗМЕРЕНИЯ ПРИМЕНЯЕТСЯ
1) среднеквадратическое отклонение
2) коэффициент корреляции
3) коэффициент регрессии
4) коэффициент вариации
Эталоны ответов к тестовым заданиям:
вопрос | ||||||||||
ответ | ||||||||||
вопрос | ||||||||||
ответ | ||||||||||
вопрос | ||||||||||
ответ | ||||||||||
вопрос | ||||||||||
ответ |
Занятие №7