Линейная регрессия от одного фактора
Уравнение линии регрессии на плоскости в декартовых координатах имеет вид выражения (4.5).
Задачу метода наименьших квадратов аналитически можно выразить следующим образом:
П ~
Ф(Ьо,Ь^)= X[y i -(b() + bjxj)] —> min . (4-13)
i=l^0,bj
Для решения этой задачи, как известно из математического анализа, необходимо вычислить частные производные функции Ф по коэффициентам b0, bi и приравнять их нулю:
<90(bn,bi) <90(bn,bi)
--------- —— = 0;---------- —— = 0. (4.14)
Система нормальных уравнений (4.8) в этом случае примет вид
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
П ft ft
2_j[yf —(bQ +bxxt)\ = 0; nb0 + b} / x. = /lyi,
f-i |
F-i
n n n n
1^[yi-(bQ-\-blxi)]-xi = 0; b0 ^jcf+Z>1 ^jc? =^х{уг
f-i |
f-i |
f-i |
. '-1
(4.15)
Решение этой системы относительно bo и bi дает
bg
п п 9 п п
Zyi Z(xi) ~Z(xiyi)Zxi
i=l |
i=l |
Л2 n ] Zx i U=i J |
i=l i=l
n ^
n Yj (xi) i=l
(4.16)
n |
n |
"l
n |
n n
n Zx i y i ~ Zx i Zy i Z(x i _x)(y i ~ y)
i=l |
i=l |
i=l i=l
Л2 n | Zx i |
n
11 r>
n X (xi) i=l |
Z(xi _x) i=l
(4.16a)
т.е. для
расчета b0 и bi необходимо определить Zx i>ZybZx i ybZ(x i)2-
Коэффициент bo (свободный член уравнения регрессии) геометрически представляет собой расстояние от начала координат до точки пересечения линии регрессии с осью ординат, а коэффициент bi характеризует тангенс угла наклона линии регрессии к оси ОХ.
Если же определяют уравнение регрессии в виде у = Ьо +Ь]х + Ъцх , то система уравнений для нахождения bo, bi, Ьц будет иметь следующий вид:
/\у. =bQn + bl2^xi +bu/txf
i-\
i-\
i-\
tx.y.=botx.+bitx*+butx
l-\ П |
f-ii-\i-\
n n n n
cf+b^+b^t
f-ii-\i-\
l-\
(4.166)
Из уравнений (4.15) и (4.166) вытекает правило записи любых систем нормальных уравнений: необходимо записать столько уравнений в системе,
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
сколько неизвестных коэффициентов содержится в искомом уравнении, всякий раз суммируя произведения членов исходного уравнения на переменную при искомом коэффициенте.
Оценку силы линейной связи осуществляют по выборочному (эмпирическому) коэффициенту парной корреляции гху. Выборочный коэффициент корреляции может быть вычислен двумя способами.
1. Как частный случай корреляционного отношения для линейного урав
нения регрессии.
С учетом того, что у = Ь0+Ь1х,
о*2 1 Дп |
Z[bo + bix i -bg -bjx] =b1S x , (4-17)
величина отношения S y/S y будет равна
r xy = bjS x /S y , (4.18)
где Sx и Sy - выборочные средние квадратичные отклонения.
2. Как среднее значение произведения центрированных случайных вели
чин, отнесенное к произведению их среднеквадратичных отклонений:
П п
Z(xi ~x)(yi ~ У) Z(xi ~x)(yi ~ У)
i=l_____________i=l________________ _________________ л(\\
(n-l)S x S y |
гХу =---------------------------------- = —j =. (4. I У]
n „n
Z(xi_x) Z(yi~y) i=l i=l |
\
Покажем, что две последние формулы эквивалентны. Для этого преобразуем выражение (4.19) к виду
п
Z(xi -х)(у{ -у) = rXy(n-l)SxSy. i=l
Подставляя последнее выражение в формулу (4.16а), имеем
г (n-l)SxS hS ------------------- !? V (Х; - Х)1 У |
г (п- 1)5* S
ъ\=---------------- = rxySy/Sx, откуда г^
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
Как правило, по результатам экспериментов находят Sx, Sy, х,у и рассчитывают гху по формуле (4.19), а затем, используя эти величины, определяют коэффициенты уравнения регрессии:
bi=rXy S y /S x ; bo=y-bix. (4.20)
Коэффициент корреляции гху изменяется в пределах -1< гху <+1.
Положительная корреляция между случайными величинами характеризует такую стохастическую зависимость между величинами, когда с возрастанием одной из них другая в среднем также будет возрастать. При отрицательной корреляции с возрастанием одной случайной величины другая в среднем будет уменьшаться. Чем ближе значение гху к единице, тем теснее статистическая связь.
Отметим еще раз область применимости выборочного коэффициента корреляции для оценки тесноты связи.
1. Коэффициент парной корреляции значений у и х применительно к од-нофакторной зависимости характеризует тесноту группирования данных лишь относительно прямой (например, линия А на рис. 4.8, а). При более сложной зависимости (рис.4.8, б) коэффициент корреляции гху будет оценивать тесноту экспериментальных точек относительно некоторой прямой, обозначенной буквой А, что, естественно, несет мало сведений о тесноте их группирования относительно искомой кривой у - f(x).
2. Коэффициент парной выборочной корреляции имеет четкий физический смысл только в случае двумерного нормального распределения параметров, т.е. когда для каждого значения X, например х-i, х2, х3, существует совокупность нормального распределения у и наоборот, а дисперсия зависимой переменной при изменении значения аргумента остается постоянной (рис. 4.9).
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА… |
Рис.4.8. К понятию коэффициента парной корреляции
Даже при выполнении этих, вообще говоря достаточно жестких условий, не всякое значение выборочного коэффициента корреляции является достаточным для статистического обоснования выводов о наличии действительно надежной корреляционной связи между фактором и откликом. Надежность статистических характеристик ослабевает с уменьшением объема выборки (п). Так, при п=2 через две экспериментальные точки можно провести только одну прямую и зависимость будет функциональной, при этом выборочный коэффициент корреляции равен единице (гху=1). Однако это не означает надежность полученных статистических характеристик в силу весьма и весьма ограниченного объема выборки. Значит, вычислять коэффициент корреляции по результатам двух наблюдений бессмысленно, так как он заведомо будет равен единице, и это будет обусловлено не свойствами переменных и их взаимным отношением, а только числом наблюдений.
гху от его действительного значения гху*. При достаточно большом объеме ВЫборКИ П->оо Гху*=Гху. Таким образом, требует- |
х |
у iL А | В | г y = b0+bjX | ||
4. АНАЛИЗ РЕЗУЛЬТАТ01 | 3 ПАССИВНОГО ЭКСПЕРИМЕНТА… | |||
В СВЯЗИ С ЭТИМ | [,' _________ | Л | ||
требуется проверка того, | у' | 1 У | ||
насколько значимо отли- | Л у/^ '' | '/' | Syi=const | |
чается выборочный ко- | L'' | |||
эффициент корреляции | -------- ► |
х2 |
х3 |
xi
Рис.4.9. К понятию коэффициента парной корреляции в случае двумерного нормального распределения параметров
ся проверка значимости выборочного коэффициента парной корреляции и оценка его доверительного интервала.
Для определения значимости гх„ сформулируем нуль-гипотезу Н0: гху*=0, т.е. корреляция отсутствует. Для этого рассчитывается экспериментальное значение t-критерия Стьюдента
ху |
t = г.
-Jn-2
(4.21)
и сравнивается с теоретическим при числе степеней свободы п-2.
Если t>ta;n-2 при заданном уровне значимости а, то нулевая гипотеза отклоняется, а альтернативная гипотеза H-i: гху* ф 0, о том, что коэффициент корреляции существенен, принимается.
Определение доверительного интервала коэффициента корреляции. При малых объемах выборки (п<20) можно рекомендовать построение доверительного интервала для гху* , которое основано на преобразовании Р.Фишера. Он предложил такое нелинейное преобразование величины гху, при котором закон распределения этой оценки, вообще говоря, довольно сложный, практически приближается к нормальному. Это преобразование производится по формуле
ху |
Z
|пг |
1 1+^
Г |
(4.22)
Среднеквадратичное отклонение случайной величины z* зависит от числа опытов
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА...
1
a ,• = -==, (4.23)
а математическое ожидание очень близко к числу, получающемуся после подстановки в формулу (4.22) вместо гху истинного значения коэффициента корреляции гху*. Эти свойства величины Z* позволяют просто оценить, в каких пределах может находиться истинное значение коэффициента корреляции, если по п опытам получены некоторые значения его выборочного значения (оценки) гху. Если граничное значение гху имеет тот же знак, что и гху*, то можно считать в первом приближении, что корреляционная связь между переменными достоверна.
Пример 4.1.При обработке п=17 пар данных х и у выборочный коэффициент корреляции составил гху= - 0,94, т.е. величина у связана с х достаточно сильной причинной связью, близкой к функциональной зависимости. Требуется определить значимость и найти доверительный интервал выборочного коэффициента корреляции.
Определение значимости коэффициента гху
\ti-2 . . . V17-2
t = г , =0,94 . =10,6.
J^ — ir)2 yl — (0,94)2
Критерий Стьюдента t0,05;i5=2,13 (СТЬЮДРАСПОБР(0,05;15)=2,13145).
Поскольку t>ta;n-2, то коэффициент корреляции существенен.
Определение доверительного интервала. По формулам (4.22) и (4.23)
определим величину Z*:
. 1, 1-0,94
Z =In------------- = -1,73о
2 1 + 0,94
и ее среднеквадратичное отклонение:
S * - . - - 0,267. ■^ л/17 — 3
Зададимся вероятностью того, что истинное значение Z отличается от вычисленного на основании оценки коэффициента корреляции Z* не более чем на 8z. Учитывая нормальный закон распределения Z, имеем при вероятности:
90%: 5z=1,64Sz =1,670,267=0,438;
95%: §z=1,960,267=0,523;
99,7%: 5z=3,000,267=0,801.
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
Таким образом, истинное значение Z лежит в пределах Zi < Z < Z2, где с вероятностью, например, 90%, Zi= -1,738-0,438= -2,176 и Z2= -1,738+0,438= -1,300. Для заданных значений вероятностей значения Zi и Z2 составят:
90%: Zi= - 2,176, Z2= -1,300;
95%: Zi= - 2,261, Z2= -1,215;
99,7%: Zi= - 2,539, Z2= -0,937.
Этим значениям Zi и Z2 соответствуют коэффициенты корреляции, полученные из формулы (4.22). Чтобы определить численные значения коэффициентов корреляции из формулы (4.22), можно воспользоваться инструментом «Подбор параметра» из электронных таблиц Microsoft Excel (меню «Сервис/Подбор параметра...»). В результате получим следующее решение:
90%: r-i= -0,97, г2= -0,86, т.е. -0,97<гху<-0,86;
95%: r-i= -0,98, г2= -0,84, т.е. -0,98<гху<-0,84;
99,7%: r-i= -0,99, г2= -0,73, т.е. -0,99<гху<-0,73.
Следовательно, доверительные интервалы подтверждают достаточно сильную причинную связь между анализируемыми параметрами.
Таким образом, корреляционный анализ устанавливает связь между исследуемыми случайными переменными и оценивает тесноту этой связи.
Регрессионный анализ
Ниже излагаются основные положения регрессионного анализа, применение которого для обработки результатов наблюдений связано с меньшим числом ограничений, чем при корреляционном анализе. Как и корреляционный анализ, регрессионный анализ включает в себя построение уравнения регрессии, например, методом наименьших квадратов и статистическую оценку результатов. Если в регрессионном анализе расчет коэффициентов ведется теми же методами, например наименьших квадратов, то его теоретические предпосылки требуют других способов статистической оценки результатов.
При проведении регрессионного анализа примем следующие допущения:
1) входной параметр х измеряется с пренебрежимо малой ошибкой. Появление ошибки в определении у объясняется наличием в процессе не выяв-
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
ленных переменных и случайных воздействий, не вошедших в уравнение регрессии;
2) результаты наблюдений уь у2,..., у,..., уп над выходной величиной представляют собой независимые нормально распределенные случайные величины;
3) при проведении эксперимента с объемом выборки п при условии, что каждый опыт повторен т* раз, выборочные дисперсии Si2,..., Si2,..., Sn2 должны быть однородны. При выполнении измерений в различных условиях возникает задача сравнения точности измерений. При этом следует подчеркнуть, что экспериментальные данные можно сравнивать только тогда, когда их дисперсии однородны. Это означает, как уже отмечалось (см. п. 3.5.1 и 3.5.2), принадлежность экспериментальных данных к одной и той же генеральной совокупности. Напомним: однородность дисперсий свидетельствует о том, что среди сравниваемых дисперсий нет таких, которые с заданной надежностью превышали бы все остальные, т.е. была бы большая ошибка. При одинаковом числе параллельных опытов однородность дисперсии, как мы уже показали, можно оценить по критерию Кохрена, а для сравнения двух дисперсий целесообразно воспользоваться F-критерием Фишера (см. примеры 3.4-3.5).
После того как уравнение регрессии найдено, необходимо провести статистический анализ результатов. Этот анализ состоит в следующем: проверяется значимость всех коэффициентов и устанавливается адекватность уравнения.
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА...