Линейная множественная регрессия
При изучении множественной регрессии не существует графической интерпретации многофакторного пространства. При проведении экспериментов в такой ситуации исследователь записывает показания приборов о состоянии функции отклика у и всех факторов ^ , от которых она зависит. Результат исследований - это матрица наблюдений.
У1 х11 х12 •••xlj •••xlk
У2 х21 х22 •••x 2i •••x 2k
У1x ilx i2 •••x ii •••x ik
(4.29)
Упx nlx n2 •••xm--^nk
Здесь n - число опытов; k - число факторов; xy - значение j-го фактора в i-м опыте; у - значение выходного параметра для i-ro опыта.
Задача линейной множественной регрессии состоит в построении гиперплоскости в (к+1)-мерном пространстве, отклонения результатов наблюдений у от которой были бы минимальными при использовании метода наименьших квадратов. Или, другими словами, следует определить значения коэффициентов bo, ..., bj, ..., bk в линейном полиноме
ку = bo + Xb jXi, j=l
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
минимизирующие выражение
Ф = У](у( -Уг)2 = У][Уг -{bo +bxxx +... + bjXiJ +... + bkxnk)]2 -»mill. (4.30)
г i J
Процедура определения коэффициентов bo, ..., bj, ..., bk в принципе не отличается от одномерного случая, рассмотренного ранее, и поэтому здесь не приводится.
Для оценки тесноты связи между функцией отклика у и несколькими факторами хь х2, ..., Xj, ..., xk используют коэффициент множественной корреляции R, который всегда положителен и изменяется в пределах от 0 до 1. Чем больше R, тем качественнее предсказания данной моделью опытных данных с точки зрения близости ее к функциональной. При функциональной линейной зависимости R=1.
Расчеты обычно начинают с вычисления парных коэффициентов корреляции, при этом вычисляются два типа парных коэффициентов корреляции:
1) гух. - коэффициенты, определяющие тесноту связи между функцией отклика у и одним из факторов Xj;
2) iv Y - коэффициенты, показывающие тесноту связи между одним из
AjAu
факторов Xj и фактором xu (j, u =Uk).
Если один из коэффициентов гхх окажется равным 1, то это означает, что факторы Xj и хи функционально связаны между собой. Тогда целесообразно один из них исключить из рассмотрения, причем оставляют тот фактор, у которого коэффициент гух. больше.
После вычисления всех парных коэффициентов корреляции можно построить матрицу коэффициентов корреляции следующего вида:
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
1 Гух, V, -Г^ -Гухк
Х\У xix2 '" xixJ '" х\хк
х2у х2хх " x2xj " х2хк
(4.31)
г „ г v г v ... 1 ...г
SjJ Xjl; XjX2 |
X у X Xi X Хт X
J**
Г „ г т г т ...г т ... 1
хк.» хк-*-1 хк-*-2 xj-*-£
Однако парные коэффициенты корреляции не характеризуют тесноту связи, так как они вычисляются при случайно изменяющихся значениях других факторов. Действительно, при рассмотрении трех и более случайных величин коэффициенты корреляции любой пары из этих случайных величин могут не дать правильного представления о степени связи между всеми случайными величинами. Это объясняется тем, что на закон распределения вероятностей исследуемой пары случайных величин могут оказывать влияние и другие рассматриваемые случайные величины. Это обстоятельство делает необходимым введение показателей стохастической связи между парой случайных величин при условии, что значения других случайных величин зафиксированы. В этом случае говорят о статистическом анализе частных связей. Используя матрицу (4.31), можно вычислить частные коэффициенты корреляции, которые показывают степень влияния одного из факторов Xj на функцию отклика у при условии, что остальные факторы остаются на постоянном уровне. Формула для вычисления частных коэффициентов корреляции имеет вид
ryxi,X2,.">xjv>xk ~ ^1}/л1^И '^jj
(4.32)
где Dij - определитель матрицы, образованной из матрицы (4.31) вычеркиванием 1-й строки и j-ro столбца. Определители D-ц и Djj вычисляют аналогично. Как и парные коэффициенты, частные коэффициенты корреляции изменяются от -1 до +1.
Значимость и доверительный интервал для коэффициентов частной корреляции определяются так же, как для коэффициентов парной корреляции, только число степеней свободы вычисляют по формуле
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
m = п -к*-2, (4.33)
где к*=к-1 - порядок частного коэффициента парной корреляции.
Для вычисления коэффициента множественной корреляции R yx1,x2,...,xj,...,xk используют матрицу (4.31):
R yx1,x2,...,xj,...,xk =V1"D/Dlb (4-34)
где D - определитель матрицы (4.31).
Множественный коэффициент корреляции дает оценку тесноты связи между у и совокупностью всех переменных х^ х2, ..., Xj, ..., xk .
Если число опытов п сравнимо с числом коэффициентов l=k+1, связи оказываются преувеличенными. Поэтому следует исключить систематическую погрешность, физический смысл которой состоит в следующем. Если разность п и I будет уменьшаться, то коэффициент множественной корреляции R будет возрастать и при n-l=0 окажется равным R=+1, а уравнение регрессии превратится в функциональное уравнение гиперплоскости, которая пройдет через все п экспериментальных точек. Однако ясно, что случайный характер переменных процесса при этом не может измениться. В связи с этим требуется оценка значимости коэффициента множественной корреляции.
Значимость коэффициента множественной корреляции проверяется по критерию Стьюдента:
R .
t = =>ta.m; m = n-k-l,
Sr
где Sr - среднеквадратичная погрешность коэффициента множественной корреляции, рассчитываемая по выражению
Sr = (1 -R )Vn-к-1. (4.35)
Значимость R можно проверить также по критерию Фишера
R (п - к -1) (1-R2)k |
F =----------------- . (4.36)
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
Если расчетное значение F превышает теоретическое Fa;mi;m2, то гипотезу о равенстве коэффициента множественной корреляции нулю отвергают и связь считают статистически значимой. Теоретическое (табличное) значение критерия Фишера определяется для выбранного уровня значимости а и числа степеней свободы m1 = n-k-1 и т2=к .
Если коэффициент множественной корреляции оказался неожиданно малым, хотя априорно известно, что между выходом у и входами xi,...,xk должна существовать достаточно тесная корреляционная связь, то возможными причинами такого явления могут быть следующие:
а) ряд существенных факторов не учтен, и следует включить в рассмот
рение дополнительно эти существенные входные параметры;
б) линейное уравнение плохо аппроксимирует в действительности нели
нейную зависимость y = f(xl,...,xk), и следует определить коэффициенты уже
нелинейного уравнения регрессии методами регрессионного анализа;
в) рабочий диапазон рассматриваемых факторов находится в районе
экстремума функции отклика - в этом случае следует расширить диапазон из
менения входных переменных, а также перейти к нелинейной математической
модели объекта.
Нелинейная регрессия
Используя подходы, изложенные ранее, можно построить практически любые формы нелинейной связи. С этой целью в инженерной практике очень часто используют линеаризующие преобразования.
В табл. 4.1 приведены часто встречающиеся парные зависимости и линеаризующие преобразования переменных. Качество преобразования результатов проверяют с помощью уравнения у = bo'+bi'-x\
Таблица 4.1 Функции и линеаризующие преобразования
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
№ п/п | Функция | Линеаризующие преобразования | |||
Преобразование переменных | Выражения для величин bo и bi | ||||
У' | х' | bo' | bi' | ||
у = Ьо +Ъ\/х | у | 1/х | bo | bi | |
у = 1 /(bo + Ь\х) | 1/у | X | bo | bi | |
у = x/(bo +bjx) | х/у | X | bo | bi | |
у = b()bix | lg(y) | X | lg(bo) | ig(bi) | |
у = Ьп -е Iх | In (у) | X | ln(bo) | bi | |
у = l/(bQ + b]e_x ) | 1/у | е"х | bo | bi | |
y = bQXbl | 1д(у) | 1д(х) | lg(bo) | bi | |
у = bo + Ъ\ lg(x) | у | 1д(х) | bo | bi | |
у = bg /(Ъ\ + x) | 1/у | X | b-i/bo | 1/bo | |
у = bQX /(Ъ\ + x) | 1/у | 1/х | bi/bo | 1/bo | |
y = bQebl/x | In (у) | 1/х | ln(bo) | bi | |
у = bQ +b^xn | у | хп | bo | bi |
После вычисления коэффициентов b0' и bi', так же как в случае линейной зависимости от одного фактора, выполняют обратные преобразования, т.е. по bo' и Ь-Г определяют bo и Ь-i. Аналогичный подход обычно используют и при множественном нелинейном регрессионном анализе.
Контрольные вопросы
1. В чем заключаются сущность и основные задачи корреляционного, регрессионного и дисперсионного анализа?
2. Какие подходы используют при нахождении коэффициентов уравнения регрессии?
3. Сформулируйте исходные положения метода наименьших квадратов.
4. С помощью какого параметра оценивается теснота связи между случайными величинами? Поясните физическую суть этого параметра.
5. Как оценивается адекватность статистической модели?
6. Что называется частным коэффициентом корреляции?
4. АНАЛИЗ РЕЗУЛЬТАТОВ ПАССИВНОГО ЭКСПЕРИМЕНТА…
7. Что называется множественным коэффициентом корреляции?
8. Какими свойствами обладают коэффициенты корреляции?
9. Каким образом производится проверка значимости коэффициентов уравнения регрессии?
10. В чем заключается постановка задачи линейной множественной регрессии?