Выборочное уравнение линейной регрессии. Метод наименьших квадратов
При проведении современных клинических исследований обычно нет недостатка в информации: каждому пациенту соответствует целое множество различных клинических показателей и данных.
В них могут быть завуалированы некоторые соотношения, основные черты которых и позволяют выявлять методы регрессионного анализа.
При этом задача регрессионного анализа состоит в подборе упрощенной аппроксимации этой связи с помощью математической модели.
Регрессионный анализ имеет в своем распоряжении специальные процедуры проверки, является ли выбранная математическая модель адекватной для описания имеющихся данных.
Чаще всего регрессионный анализ используется для прогноза, то есть предсказания значений ряда зависимых переменных по известным значениям других переменных.
Выше указывалось, что результаты наблюдений, приведенные в двумерной выборке:
xi | x1 | x2 | x3 | x4 | x5 |
yi | y1 | y2 | y3 | y4 | y5 |
можно представить в виде корреляционного поля точек (рис. 14.3), где каждая точка соответствует отдельным значениям х и у.
Рис. 14.3. Метод наименьших квадратов
В результате получается диаграмма рассеяния, позволяющая судить о форме и тесноте связи между варьирующими признаками. Довольно часто эта связь может быть аппроксимирована прямой линией (рис. 14.3).
Регрессия - это функция, позволяющая по величине одного признака X находить среднее ожидаемое (должное) значение другого признака Y, корреляционно связанного с X.
В линейной математической модели уравнение линейной регрессии имеет вид:
,
где а и b - параметры линейной регрессии;
а - это коэффициент регрессии, показывающий, насколько в среднем величина одного признака Y изменяется при изменении на единицу меры другого признака X, корреляционно связанного с Y. Чем больше a - угловой коэффициент прямой а= tg α, тем круче прямая, то есть быстрее изменяется Y.
b - свободный член в уравнении, определяет ; при x = 0.
- это предсказанное (должное) значение Y для данного х при определенных значениях регрессионных параметров.
Параметры линейной регрессии определяют методом наименьших квадратов - это способ подбора параметров регрессионной модели, согласно которому сумма квадратов отклонений вариант от линии регрессии должна быть минимальна:
Это эффективный метод, позволяющий уменьшить влияние ошибок измерений.
Теперь определяют должные величины , наносят эти точки и соединяют их прямой линией.
Достоинство корреляционно-регрессионного анализа - наглядное представление о форме и тесноте связи. Регрессия выражает корреляционную зависимость в виде функционального отношения и дает более полную информацию.
Была исследована зависимость между ростом (X) и массой (Y), у 200 животных и рост, и масса подчиняются нормальному закону распределения. На рис. 3а видно, что эта зависимость линейная: чем больше рост, тем больше масса.
Из этой совокупности выберем выборку объема п = 10 (рис. 13.4б). Сохранилась ли эта зависимость массы от роста? На рис. 13.4б изображены 4 прямые, аппроксимирующие эту зависимость. Какую прямую можно считать наилучшей?
Рис 14.4. Зависимость между ростом (X) и массой (Y) у животных
Ответ: Да, сохранилась. Прямая I - не годится - все точки оказались по одну сторону от нее. Прямая II – слишком круто устремляется вверх.
Лучше прямые IIIи IV, а из них лучше та, которая ближе ко всем точкам выборки, то есть относительно которой разброс точек минимален.
Согласно методу наименьших квадратов лучше представляет зависимость от х прямая IV.
По данным примера № 2:
Xi | ||||||||||
Yi | 7,8 | 8,3 | 7,6 | 9,1 | 9,6 | 9,8 | 11,8 | 12,1 | 14,7 | 13,0 |
Рассчитать параметры уравнения регрессии по формулам:
Решение:
Именно это уравнение задает прямую IV в задаче № 6.
В примере № 2 был рассчитан коэффициент корреляции между ростом (X) и массой (Y) некоторых животных, ав примере № 7 было составлено уравнение линейной регрессии.
Как вы думаете, если поменять х и у, то изменится ли уравнение регрессии и коэффициент корреляции?
Ответ: r - останется прежним, r = 0,925 - он симметричен, а уравнение регрессии получится другим. Получается, что связь роста с массой одна, а роста с массой - другая. Регрессионный анализ асимметричен - это мешает его использовать для характеристики силы связи.
Провести корреляционно-регрессионный анализ. Построить корреляционное поле точек, проверить значимость (α ≤ 0,05) коэффициента корреляции между переменными X и Y и построить линию регрессии.
Изучали зависимость между содержанием вещества X в ткани С и приростом концентрации вещества Y в крови у пациентов, получавших препарат А.
Результаты наблюдений приведены в виде двумерной выборки объема 10:
xi | 1,15 | 1,9 | 5,34 | 5,4 | 7,7 | 7,9 | 9,03 | 9,37 | 10,18 | |
yi | 0,99 | 0,98 | 2,6 | 5,92 | 4,33 | 7,68 | 9,8 | 9,47 | 10,64 | 12,9 |
Результаты расчета на компьютере:
r = 0,94; tнабл = 6,17; = 0,579 + 1,1354 ∙ х
Решение:
Н0: rген = 0; Н1: rген ≠ 0.
Найдем из таблицы tкрит = 2,31; α ≤ 0,05;
f = 10 - 2 = 8.
Сравним: tнабл > tкрит(α, f); 6,17 > 2,31.
Отвергается H0принимается H1.
Имеется очень сильная линейная корреляционная связь между признаками r = 0,94 (α ≥ 0,05).
Построим корреляционное поле точек (рис. 13.5).
Рис.13.5. График решения задачи 9
Рассчитаем должные величины:
при x = 0, = -0,576;
при х = 1, = 0,556.
Нанесем линию регрессии на график.
Нелинейная регрессия
Если график регрессии = f(x) изображается кривой линией (рис. 6), то это нелинейная регрессия.
Выбор вида уравнения регрессии производится на основании опыта предыдущих исследований, литературных источников, профессионального мнения и визуального наблюдения расположения точек корреляционного поля. Этот очень важный этап анализа называется спецификацией.
Наиболее часто встречаются следующие виды уравнений нелинейной регрессии:
- полиномиальное уравнение;
- уравнение параболы второго порядка;
- уравнение параболы третьего порядка;
- гиперболическое уравнение.
Для определения неизвестных параметров регрессии используется метод наименьших квадратов.
По данным таблицы исследовать зависимость урожайности зерновых культур Y (кг/га) от количества осадков X (см), выпавших в вегетационный период.
n: | 15; | ||||||||||||||
xi: | 53; | ||||||||||||||
yi: | 25. |
Построить корреляционное поле точек и предположить наиболее подходящий вид уравнения регрессии.
Решение:
Увеличение количества выпавших осадков приведет к увеличению урожайности до некоторого предела, после чего урожайность будет снижаться. Учитывая расположение точек корреляционного поля, можно предположить, что наиболее подходящим уравнением регрессии будет уравнение параболы.
Рис. 14.6. Нелинейная регрессия
Варианты заданий
► Провести корреляционно-регрессионный анализ:
построить корреляционное ноле точек;
проверить значимость (α ≤ 0,05) коэффициента корреляции между переменными Х и Y;
построить линию регрессии.
№ 14.1.Изучали зависимость между содержанием коллагена Y и эластина X в магистральных артериях головы (г/100 г сухого вещества, возраст 36-50 лет).
Результаты наблюдений приведены в виде двумерной выборки объема 5:
xi: | 13,98 | 15,84 | 7,26 | 7,74 | 8,82; |
yi: | 35,50 | 42,82 | 47,79 | 43,29 | 49,47. |
Результаты расчета на компьютере:
r = - 0,85; тr = 0,3; tнабл = 2,84; = -1,04 х + 58,97.
№ 14.2.Изучали зависимость между содержанием коллагена Y и эластина Х в магистральных артериях головы (г/100 г сухого вещества, возраст 51-75 лет).
Результаты наблюдений приведены в виде двумерной выборки объема 5:
xi: | 13,50 | 13,09 | 6,45 | 7,26 | 8,80; |
yi: | 33,97 | 38,07 | 53,98 | 46,00 | 48,61. |
Результаты расчета на компьютере:
r = -0,94; mr = 0,2; tнабл = 4,8; = -2,3 х + 66,8.
№ 14.3.Изучали зависимость между систолическим давлением Y (мм рт. ст.) у мужчин в начальной стадии шока и возрастом X (годы). Результаты наблюдений приведены в виде двумерной выборки объема 11:
xi: | 54; | ||||||||||
yi: | 124. |
Результаты расчета на компьютере:
r = -0,61; mr = 0,283; tнабл = 2,3; = -0,8 х + 177,8.
№ 13.6.4.Имеется двумерная выборка объемом 9: X - масса новорожденных павианов-гамадрилов (кг) и Y - масса их матерей (кг).
xi: | 0,7 | 0,73 | 0,75 | 0,70 | 0,65 | 0,70 | 0,61 | 0,70 | 0,63; |
yi: | 10,8 | 11,3 | 11,1 | 11,3 | 10,2 | 13,5 | 12. |
Результаты расчета на компьютере:
r = 0,02; mr = 0,38; tнабл = 0,05; = 0,43 х + 10,87.
№ 14.5.Изучали зависимость между суточной выработкой продукции на медицинском предприятии Y (т) и величиной основных производственных фондов X (млн руб).
Результаты наблюдений приведены в виде двумерной выборки объема 5:
xi: | 25,5 | 29,5 | 31,9 | 35,4 | 39,2; |
yi: | 25. |
Результаты расчёта на компьютере:
r = 0,74; tнабл = 7,62; = 0,67 х – 4,79.
№ 14.6.Изучали зависимость между объемом валовой продукции Y (млн руб) и среднесуточной численностью рабочих X. Результаты наблюдений приведены в виде двумерной выборки объема 5:
xi: | 5,5 | 8; | |||
yi: | 50. |
Результаты расчета на компьютере:
r = 0,8; tнабл = 6,2; = 3,2 х + 22,4.
№ 14.7.Изучали зависимость между минутным объемом сердца Y (л/мин) и средним давлением в левом предсердии X (см рт. ст.). Результаты наблюдений приведены в виде двумерной выборки объема 5:
xi: | 4,8 | 6,4 | 9,3 | 11,2 | 17,7; |
yi: | 0,4 | 0,69 | 1,29 | 1,64 | 2,4. |
Результаты расчета на компьютере:
r = 0,989; mr = 0,084; tнабл = 11,7; = 0,15 х – 0,25.
№ 14.8.Изучали зависимость между объемом Y (мкм3) и диаметром Х (мкм) сухого эритроцита у млекопитающих. Результаты наблюдений приведены в виде двумерной выборки объема 9:
xi: | 7,6 | 8,9 | 5,5 | 9,2 | 3,5 | 4,8 | 7,3 | 7,4 | 6,8; |
yi: | 54. |
Результаты расчета на компьютере:
r = 0,96; mr = 0,12; tнабл = 7,99; = 14,28 х – 32,5.
№ 14.9.Изучали зависимость между количеством гемоглобина в крови (%) Y имассой животных X (кг). Результаты наблюдений приведены в виде двумерной выборки объема 9:
xi: | 17,7 | 30; | |||||||
yi: | 86. |
Результаты расчета на компьютере:
r = 0,64; mr = 0,29; tнабл = 2,2; = 1,04 х + 56,95.
№ 14.10.Изучали зависимость между массой тела гамадрилов-матерей X (кг) и их новорожденных детенышей Y (кг). Под наблюдением находилось 20 обезьян.
xi: | 10,8 | 11,3 | 10,1 | 11,1 | 11,3 | 10,2 | 13,5 | 12,3 | ||
14,5 | 11,8 | 13,4 | 11,4 | 15,5 | 12,1; | |||||
yi: | 0,7 | 0,73 | 0,75 | 0,7 | 0,65 | 0,65 | 0,7 | 0,61 | 0,7 | 0,63 |
0,7 | 0,65 | 0,72 | 0,69 | 0,78 | 0,7 | 0,6 | 0,85 | 0,8 | 0,75. |
Результаты расчета на компьютере:
r = 0,564; mr = 0,2; tнабл = 2,9; = 0,024 х + 0,42.
№ 14.11.Изучали зависимость между содержанием коллагена Y и эластина X в магистральных артериях головы (г/100 г сухого вещества, возраст 21-35 лет).
Результаты наблюдений приведены в виде двумерной выборки объема 5:
xi: | 14,9 | 16,72 | 7,73 | 9,9 | 8,84; |
yi: | 40,18 | 44,57 | 52,93 | 47,77 | 49,07. |
Результаты расчета на компьютере:
r = -0,85; mr = 0,3; tнабл = 2,84; = -1,04 х + 58,97.
№ 14.12.Изучали зависимость между площадью поверхности тела Y (м2) и ростом женщин Х (см). Результаты наблюдений приведены в виде двумерной выборки объема 11:
xi: | 161; | ||||||||||
yi: | 1,74 | 1,74 | 1,67 | 1,51 | 1,52 | 1,55 | 1,58 | 1,58 | 1,44 | 1,67 | 1,42. |
Результаты расчета на компьютере:
r = 0,145; mr = 0,4; tнабл = 0,44; = 0,001 х + 1,23.
№ 14.13.Изучали зависимость между поверхностью Y (мкм2) и диаметром X (мкм) сухого эритроцита у млекопитающих.
Результаты наблюдений приведены в виде двумерной выборки объема 9:
xi: | 7,6 | 8,9 | 5,5 | 9,2 | 3,5 | 4,8 | 7,3 | 7,4 | 6,8; |
yi: | 144. |
Результаты расчета на компьютере:
r = 0,95; mr = 0,11; tнабл = 8,53; = 27,9 х – 60,63.
Приложение