Полный факторный эксперимент и уравнение регрессии
Перечисленные два этапа построения многофакторных моделей на практике часто решаются с помощью методики ПФЭ типа 2k. Применение этой методики позволяет достаточно просто и эффективно количественно оценить все линейные эффекты факторов и их взаимодействия («перекрестные связи»). взаимодействие возникает в том случае, если эффект одного фактора зависит от уровня, на котором находится другой фактор. Вначале рассмотрим методику получения линейной РМ.
Линейная регрессионная модель. Уравнение регрессии – это формула статистической связи между зависимыми и независимыми переменными. Если это уравнение линейное, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией, зависимость от нескольких переменных – множественной регрессией. Например, Кейнсом была предложена линейная формула зависимости частного потребления С от располагаемого дохода : где – величина автономного потребления, – предельная склонность к потреблению.
Установление формы связи (9.2.1) начинают, как правило, с рассмотрения линейной регрессии вида
. (9.4.1)
Целью исследователя является определение неизвестных коэффициентов линейной модели (9.4.1) по результатам эксперимента (по матрице ПФЭ). Эксперимент, содержащий конечное число опытов N, позволяет получить только выборочные оценки для коэффициентов уравнения (9.4.1). Их точность и надежность зависит от свойств выборки и нуждается в статистической проверке. Как проводится такая проверка, рассмотрим далее, а пока займемся вычислением неизвестных коэффициентов
Используя для этого метод наименьших квадратов (МНК) для линейной РМ получим простую формулу
(9.4.2)
где индекс относится к фиктивному фактору который во всех опытах принимает значение +1, т.е. и вводится для удобства пользования формулой (9.4.2).
Пример.подсчитаем коэффициенты для линейной двухфакторной РМ
.
Для этого воспользуемся значениями из таблицы 10 для ПФЭ типа 22. По формуле (9.4.2) получим:
Коэффициент есть среднее арифметическое значение параметра оптимизации, а коэффициенты указывают на силу влияния факторов xj.
Нелинейная регрессионная модель.Если при проверке гипотезы о линейности РМ устанавливается, что статистический материал (или результат ПФЭ) не может быть описан линейным уравнением, то переходят к поиску нелинейной модели. Как уже указывалось, структура нелинейной РМ может быть совершенно различной. Пользуясь результатами ПФЭ можно достаточно просто построить нелинейную модель, включающую эффекты взаимодействия («перекрестные связи») факторов: парные ( ), тройные ( ) и т.д. К сожалению, для других видов нелинейностей простой способ построения РМ на основе матрицы ПФЭ типа 2k не проходит и следует использовать другие более сложные методы, основанные на использовании нелинейного регрессионного анализа.
Максимальное число всех возможных эффектов (всех членов уравнения регрессии, включая ), линейные эффекты и взаимодействия всех порядков, можно определить по формуле числа сочетаний
(9.4.3)
где k – число факторов, m – число элементов во взаимодействии, N – количество опытов в эксперименте (число строк в матрице планирования ПФЭ).
Пример.для ПФЭ 24 число возможных парных взаимодействий равно шести:
Для определения коэффициентов в модели при парных взаимодействиях надо, пользуясь правилом перемножения столбцов, получить столбец произведения двух факторов. Для вычисления коэффициента при соответствующем эффекте взаимодействия, с новым вектор-столбцом можно обращаться так же, как с вектор-столбцом любого фактора.
В табл.13 представлена матрица планирования ПФЭ типа 2 2 с учетом перекрестных связей между факторами.
Т а б л и ц а 13
Номер опыта | y | ||||
+1 +1 +1 +1 | +1 –1 +1 –1 | +1 +1 –1 –1 | +1 –1 –1 +1 | y1 y2 y3 y4 |
Полная нелинейная РМ в данном случае имеет следующий вид:
(9.4.4)
Коэффициент вычисляется по прежнему алгоритму (9.4.2):
(9.4.5)
Для определения коэффициентов в модели при тройных взаимодействиях и взаимодействиях более высокого порядка поступают аналогично. В табл.14 приведены условия проведения ПФЭ типа 23 и дополнительные столбцы для расчета коэффициентов в перекрестных связях. Полная нелинейная РМ с учетом всех возможных взаимодействий в этом случае имеет вид:
(9.4.6)
Коэффициент вычисляется с помощью таблицы 14:
(9.4.7)
Т а б л и ц а 14
Номер опыта | y | ||||||||
+1 +1 +1 +1 +1 +1 +1 +1 | +1 –1 +1 –1 +1 –1 +1 –1 | +1 +1 –1 –1 +1 +1 –1 –1 | +1 +1 +1 +1 –1 –1 –1 –1 | +1 –1 –1 +1 +1 –1 –1 +1 | +1 –1 +1 –1 –1 +1 –1 +1 | +1 +1 –1 –1 –1 –1 +1 +1 | +1 –1 –1 +1 –1 +1 +1 –1 | y1 y2 y3 y4 y5 y6 y7 y8 |
Метод наименьших квадратов.Метод наименьших квадратов (МНК), или Least Squares Method (LS), это наиболее распространенный метод вычисления коэффициентов регрессионной модели. Как уже отмечалось, вычисление коэффициентов РМ с использованием матрицы планирования ПФЭ накладывает существенные ограничения на структуру РМ и является частным случаем МНК.
МНК минимизирует сумму квадратов отклонений наблюдений зависимой переменной от искомого уравнения регрессии (РМ). Рассмотрим суть метода на примере определения коэффициентов однофакторной линейной регрессионной модели
.(9.4.8)
Для вычисления неизвестных коэффициентов проведем серию опытов в точках и получим экспериментальные значения . Подставив значения и в формулу (9.4.8), получим систему уравнений
(9.4.9)
где разности (ошибки, невязки) между экспериментальными и вычисленными по уравнению регрессии значениями параметра оптимизации у в i-ой экспериментальной точке (рис.42).
|
Рис.42
Требуется найти такие коэффициенты регрессии (9.4.8), при которых невязки будут минимальными.
В МНК коэффициенты находят из условия минимума функции V
(9.4.10)
Подставив (9.4.9) в (9.4.10), получим:
(9.4.11)
Минимум функции, если он существует, достигается при одновременном равенстве нулю частных производных по всем неизвестным, т.е.
(9.4.12)
Из выражений (9.4.11) и (9.4.12) получим систему уравнений для определения искомых коэффициентов РМ (9.4.8):
(9.4.13)
Решение системы (9.4.13) значительно упрощается, если использовать рассмотренные ранее свойства ПФЭ (9.2.6) – (9.2.8). В этом случае
(9.4.14)
Обобщая результат для любого количества факторов, можно записать общую формулу расчета коэффициентов множественной линейной регрессии для ПФЭ типа в виде (9.4.2)
Эту формулу мы уже использовали для определения коэффициентов РМ с помощью матрицы планирования ПФЭ.
Чтобы формально можно было решить поставленную задачу, то есть найти некоторый наилучший вектор параметров РМ, должно выполняться неравенство . Положительная разность называется числом степеней свободы. Если число степеней свободы мало, то статистическая надежность оцениваемой формулы невысока. Обычно при оценке множественной регрессии требуется, чтобы число наблюдений (опытов) по крайней мере в три раза превосходило число оцениваемых параметров модели.
Можно показать, что система нормальных уравнений (9.4.12) МНК в матричном виде записывается следующим образом:
(9.4.15)
где обозначает матрицу, транспонированную по отношению к матрице Из (9.4.15) получаем уравнение для определения коэффициентов в векторно-матричной форме:
(9.4.16)
где имеет размерность k+1, а Y – размерность N .
Проверка адекватности модели.После выбора структуры и вычисления коэффициентов регрессионной модели (РМ) встает вопрос о степени ее адекватности, т.е. о степени ее соответствия исследуемой системе. При проверке с помощью методов регрессионного анализа гипотезы об адекватности модели или о значимости входящих в РМ коэффициентов, приходится учитывать законы распределения случайных параметров.
регрессионный анализ применим при следующих предположениях.
1. Параметр оптимизации у есть случайная величина с нормальным законом распределения.
2. Дисперсия не зависит от абсолютной величины у. Выполнение этого предположения проверяется с помощью критерия однородности дисперсий в разных точках факторного пространства.
3. Значения факторов xj суть неслучайные величины.
Если в рассматриваемой задаче выполняются все предположения, то можно проверять статистические гипотезы.
Для проверки гипотезы об адекватности модели можно использовать критерий Фишера (этот критерий мы уже использовали для проверки однородности дисперсий):
(9.4.17)
Здесь – дисперсия воспроизводимости со своим числом степеней свободы, которая вычисляется по формулам (9.2.12) или (9.2.13); – дисперсия адекватности, определяемая по формуле
(9.4.18)
где – остаточная сумма квадратов невязок; – число степеней свободы, K – число коэффициентов в РМ.
Если рассчитанное значение критерия не превышает табличного ( ), то с соответствующей доверительной вероятностью модель можно считать адекватной. При превышении табличного значения эту принятую гипотезу приходится отвергать.
В случае если опыты в матрице планирования дублируются, то дисперсия адекватности рассчитывается по формуле
(9.4.19)
где ni – число параллельных опытов в i -ой строке матрицы планирования; – среднее арифметическое из ni параллельных опытов; – предсказанное по уравнению РМ значение в этом опыте.
Для определения коэффициентов нельзя записать универсальную расчетную формулу. Всякий раз их приходится рассчитывать разными методами, самым популярным из которых является МНК. Проиллюстрируем решение задачи получения РМ на простом примере.
Пример.В табл.15 приведена матрица планирования ПФЭ типа 22 с двумя параллельными опытами в каждой строке. Во втором опыте один из параллельных опытов пришлось отбросить как грубый.
При двух параллельных опытах со значениями и дисперсия в каждой строке матрицы табл.15 вычисляется с использованием формулы (9.2.10)
.
№ | ||||||||||||
+1 +1 +1 +1 | –1 +1 –1 +1 | –1 –1 +1 +1 | 4,5 3,0 2,0 0,5 | 5,5 — 2,0 1,5 | 5,0 3,0 2,0 1,0 | 4,75 3,25 2,25 0,75 | 0,25 -0,25 -0,25 0,25 | 0,0625 0,0625 0,0625 0,0625 | 0,125 0,0625 0,125 0,125 | 0,5 — 0,5 |
Т а б л и ц а 15
Зададимся начальной структурой регрессионной модели (РМ) в линейной форме
По результатам ПФЭ требуется определить коэффициенты РМ и доказать, что принятая модель адекватна.
Используя свойства и методику определения коэффициентов РМ с помощью матрицы планирования, по формуле (9.4.2) подсчитаем значения коэффициентов РМ.
Итак, мы получили линейную РМ:
Проверим адекватность этой модели. Вспомогательные расчеты представлены в последних шести столбцах табл.15.
Рассчитываем дисперсию воспроизводимости по формуле (9.2.13) с тремя степенями свободы:
Рассчитываем дисперсию адекватности по формуле (9.4.18) с одной степенью свободы:
Экспериментальное значение критерия Фишера рассчитаем по формуле (9.4.17): Табличное значение критерия Условие выполняется, следовательно, с вероятностью 0,95 принятую РМ можно считать адекватной.
Методы упрощения уравнения регрессии.При построении РМ для целевой функции у на начальном этапе обычно стараются учесть как можно большее число факторов, влияющих на изменение у. В этом случае часто получаются неоправданно сложные модели, особенно при использовании нелинейных форм. эти модели можно значительно упростить, если выявить те факторы, которые незначительно влияют на функцию отклика, и исключить эти факторы из уравнения регрессии.
При отборе влияющих факторов используются статистические методы отбора. Так, существенного сокращения числа влияющих факторов можно достичь с помощью пошаговых процедур отбора переменных. Ни одна их этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.
Для анализа РМ с целью упрощения используются несколько методов. Коротко рассмотрим некоторые из них.
1. Метод всех регрессий. В этом методе функцию отклика представляют в виде комбинаций зависимостей, в которых меняют число факторов. Так для уравнения регрессии
можно записать функцию отклика в различных комбинациях:
Для каждого уравнения вычисляются коэффициенты регрессии и определяется дисперсия адекватности , по наименьшему значению которой и выбирается лучшая РМ. Однако, применение этого метода связано с трудоемкими вычислениями.
2. Метод исключения переменных. Метод исключения предполагает построение РМ, включающей всю совокупность переменных, с последующим последовательным (пошаговым) сокращением числа переменных в модели до тех пор, пока не выполнится некоторое, наперед заданное, условие.
После построения РМ с целью сокращения членов в уравнении РМ и ее упрощения зачастую различными способами проводят оценку значимости коэффициентов модели. оценку значимости можно осуществить с помощью t-критерия Стьюдента.
При проверке значимости коэффициентов по t-критерию используется формула
(9.4.20)
где –среднеквадратическое отклонение коэффициента
Вычисленное значение сравнивается с табличным при заданном уровне значимости α и соответствующем числе степеней свободы f и делается вывод о значимости коэффициента. Если , то с доверительной вероятностью можно считать рассматриваемый коэффициент незначимым и приравнять его нулю.
3. Метод включения переменных. Суть метода включения состоит в последовательном включении переменных в модель до тех пор, пока регрессионная модель не будет отвечать заранее установленному критерию качества. Последовательность включения определяется с помощью частных коэффициентов корреляции: переменные, имеющие относительно исследуемого показателя большие значения частного коэффициента корреляции, первыми включаются в регрессионное уравнение.
4. Метод анализа невязок состоит в том, что анализируется разница между значениями функции и значением , предсказанном по уравнению регрессии (см. рис.42). Определяя невязки
проверяют их среднее значение, которое должно быть близким к нулю:
Если это условие не выполняется, то в уравнение модели вносят дополнительные члены или принимают другую структуру РМ.
В 30-е гг. ХХ века повсеместное увлечение множественной регрессией сменилось разочарованием. Строя уравнение множественной регрессии и, стремясь включить как можно больше объясняющих переменных, исследователи все чаще сталкивались с бессмысленными результатами. Причина заключалась в том, что изолированно взятое уравнение регрессии есть не что иное, как модель «черного ящика», поскольку в ней не раскрыт механизм зависимости выходной переменной Y от входных переменных Хi , а лишь констатируется факт наличия такой зависимости.
Для проведения правильного анализа нужно знать всю совокупность связей между переменными. Одним из первых подходов к решению этой задачи является конфлюэнтный анализ, разработанный в 1934 г. Р.Фришем. Он предложил изучать иерархию регрессий между всеми сочетаниями переменных.
Значительный интерес представляет аналитический метод выбора типа уравнения регрессии, который основан на изучении материальной природы связи исследуемых признаков.
[1] Интеркорреляция – корреляция между объясняющими переменными.