Полный факторный эксперимент и уравнение регрессии

Перечисленные два этапа построения многофакторных моделей на практике часто решаются с помощью методики ПФЭ типа 2k. Применение этой методики позволяет достаточно просто и эффективно количественно оценить все линейные эффекты факторов и их взаимодействия («перекрестные связи»). взаимодействие возникает в том случае, если эффект одного фактора зависит от уровня, на котором находится другой фактор. Вначале рассмотрим методику получения линейной РМ.

Линейная регрессионная модель. Уравнение регрессии – это формула статистической связи между зависимыми и независимыми переменными. Если это уравнение линейное, то речь идет о линейной регрессии. Формула статистической связи двух переменных называется парной регрессией, зависимость от нескольких переменных – множественной регрессией. Например, Кейнсом была предложена линейная формула зависимости частного потребления С от располагаемого дохода Полный факторный эксперимент и уравнение регрессии - student2.ru : где – величина автономного потребления, – предельная склонность к потреблению.

Установление формы связи (9.2.1) начинают, как правило, с рассмотрения линейной регрессии вида

Полный факторный эксперимент и уравнение регрессии - student2.ru . (9.4.1)

Целью исследователя является определение неизвестных коэффициентов Полный факторный эксперимент и уравнение регрессии - student2.ru линейной модели (9.4.1) по результатам эксперимента (по матрице ПФЭ). Эксперимент, содержащий конечное число опытов N, позволяет получить только выборочные оценки для коэффициентов уравнения (9.4.1). Их точность и надежность зависит от свойств выборки и нуждается в статистической проверке. Как проводится такая проверка, рассмотрим далее, а пока займемся вычислением неизвестных коэффициентов

Используя для этого метод наименьших квадратов (МНК) для линейной РМ получим простую формулу

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.2)

где индекс Полный факторный эксперимент и уравнение регрессии - student2.ru относится к фиктивному фактору который во всех опытах принимает значение +1, т.е. и вводится для удобства пользования формулой (9.4.2).

Пример.подсчитаем коэффициенты для линейной двухфакторной РМ

Полный факторный эксперимент и уравнение регрессии - student2.ru .

Для этого воспользуемся значениями Полный факторный эксперимент и уравнение регрессии - student2.ru из таблицы 10 для ПФЭ типа 2². По формуле (9.4.2) получим:

Полный факторный эксперимент и уравнение регрессии - student2.ru

Коэффициент Полный факторный эксперимент и уравнение регрессии - student2.ru есть среднее арифметическое значение параметра оптимизации, а коэффициенты указывают на силу влияния факторов x_j.

Нелинейная регрессионная модель.Если при проверке гипотезы о линейности РМ устанавливается, что статистический материал (или результат ПФЭ) не может быть описан линейным уравнением, то переходят к поиску нелинейной модели. Как уже указывалось, структура нелинейной РМ может быть совершенно различной. Пользуясь результатами ПФЭ можно достаточно просто построить нелинейную модель, включающую эффекты взаимодействия («перекрестные связи») факторов: парные ( Полный факторный эксперимент и уравнение регрессии - student2.ru ), тройные ( ) и т.д. К сожалению, для других видов нелинейностей простой способ построения РМ на основе матрицы ПФЭ типа 2^kне проходит и следует использовать другие более сложные методы, основанные на использовании нелинейного регрессионного анализа.

Максимальное число всех возможных эффектов (всех членов уравнения регрессии, включая Полный факторный эксперимент и уравнение регрессии - student2.ru ), линейные эффекты и взаимодействия всех порядков, можно определить по формуле числа сочетаний

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.3)

где k – число факторов, m – число элементов во взаимодействии, N – количество опытов в эксперименте (число строк в матрице планирования ПФЭ).

Пример.для ПФЭ 2⁴число возможных парных взаимодействий равно шести:

Полный факторный эксперимент и уравнение регрессии - student2.ru

Для определения коэффициентов в модели при парных взаимодействиях надо, пользуясь правилом перемножения столбцов, получить столбец произведения двух факторов. Для вычисления коэффициента при соответствующем эффекте взаимодействия, с новым вектор-столбцом можно обращаться так же, как с вектор-столбцом любого фактора.

В табл.13 представлена матрица планирования ПФЭ типа 2² с учетом перекрестных связей между факторами.

Т а б л и ц а 13

Номер опыта					y
	+1 +1 +1 +1	+1 –1 +1 –1	+1 +1 –1 –1	+1 –1 –1 +1	y₁ y₂ y₃ y₄

Полная нелинейная РМ в данном случае имеет следующий вид:

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.4)

Коэффициент Полный факторный эксперимент и уравнение регрессии - student2.ru вычисляется по прежнему алгоритму (9.4.2):

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.5)

Для определения коэффициентов в модели при тройных взаимодействиях и взаимодействиях более высокого порядка поступают аналогично. В табл.14 приведены условия проведения ПФЭ типа 2³ и дополнительные столбцы для расчета коэффициентов в перекрестных связях. Полная нелинейная РМ с учетом всех возможных взаимодействий в этом случае имеет вид:

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.6)

Коэффициент Полный факторный эксперимент и уравнение регрессии - student2.ru вычисляется с помощью таблицы 14:

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.7)

Т а б л и ц а 14

Номер опыта									y
	+1 +1 +1 +1 +1 +1 +1 +1	+1 –1 +1 –1 +1 –1 +1 –1	+1 +1 –1 –1 +1 +1 –1 –1	+1 +1 +1 +1 –1 –1 –1 –1	+1 –1 –1 +1 +1 –1 –1 +1	+1 –1 +1 –1 –1 +1 –1 +1	+1 +1 –1 –1 –1 –1 +1 +1	+1 –1 –1 +1 –1 +1 +1 –1	y₁ y₂ y₃ y₄ y₅ y₆ y₇ y₈

Метод наименьших квадратов.Метод наименьших квадратов (МНК), или Least Squares Method (LS), это наиболее распространенный метод вычисления коэффициентов регрессионной модели. Как уже отмечалось, вычисление коэффициентов РМ с использованием матрицы планирования ПФЭ накладывает существенные ограничения на структуру РМ и является частным случаем МНК.

МНК минимизирует сумму квадратов отклонений наблюдений зависимой переменной от искомого уравнения регрессии (РМ). Рассмотрим суть метода на примере определения коэффициентов однофакторной линейной регрессионной модели

.(9.4.8)

Для вычисления неизвестных коэффициентов проведем серию опытов в точках Полный факторный эксперимент и уравнение регрессии - student2.ru и получим экспериментальные значения . Подставив значения и в формулу (9.4.8), получим систему уравнений

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.9)

где Полный факторный эксперимент и уравнение регрессии - student2.ru разности (ошибки, невязки) между экспериментальными и вычисленными по уравнению регрессии значениями параметра оптимизации у в i-ой экспериментальной точке (рис.42).

Рис.42

Требуется найти такие коэффициенты регрессии (9.4.8), при которых невязки будут минимальными.

В МНК коэффициенты находят из условия минимума функции V

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.10)

Подставив (9.4.9) в (9.4.10), получим:

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.11)

Минимум функции, если он существует, достигается при одновременном равенстве нулю частных производных по всем неизвестным, т.е.

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.12)

Из выражений (9.4.11) и (9.4.12) получим систему уравнений для определения искомых коэффициентов РМ (9.4.8):

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.13)

Решение системы (9.4.13) значительно упрощается, если использовать рассмотренные ранее свойства ПФЭ (9.2.6) – (9.2.8). В этом случае

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.14)

Обобщая результат для любого количества факторов, можно записать общую формулу расчета коэффициентов множественной линейной регрессии для ПФЭ типа Полный факторный эксперимент и уравнение регрессии - student2.ru в виде (9.4.2)

Полный факторный эксперимент и уравнение регрессии - student2.ru

Эту формулу мы уже использовали для определения коэффициентов РМ с помощью матрицы планирования ПФЭ.

Чтобы формально можно было решить поставленную задачу, то есть найти некоторый наилучший вектор параметров РМ, должно выполняться неравенство Полный факторный эксперимент и уравнение регрессии - student2.ru . Положительная разность называется числом степеней свободы. Если число степеней свободы мало, то статистическая надежность оцениваемой формулы невысока. Обычно при оценке множественной регрессии требуется, чтобы число наблюдений (опытов) по крайней мере в три раза превосходило число оцениваемых параметров модели.

Можно показать, что система нормальных уравнений (9.4.12) МНК в матричном виде записывается следующим образом:

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.15)

где Полный факторный эксперимент и уравнение регрессии - student2.ru обозначает матрицу, транспонированную по отношению к матрице Из (9.4.15) получаем уравнение для определения коэффициентов в векторно-матричной форме:

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.16)

где Полный факторный эксперимент и уравнение регрессии - student2.ru имеет размерность k+1, а Y – размерность N .

Проверка адекватности модели.После выбора структуры и вычисления коэффициентов регрессионной модели (РМ) встает вопрос о степени ее адекватности, т.е. о степени ее соответствия исследуемой системе. При проверке с помощью методов регрессионного анализа гипотезы об адекватности модели или о значимости входящих в РМ коэффициентов, приходится учитывать законы распределения случайных параметров.

регрессионный анализ применим при следующих предположениях.

1. Параметр оптимизации у есть случайная величина с нормальным законом распределения.

2. Дисперсия Полный факторный эксперимент и уравнение регрессии - student2.ru не зависит от абсолютной величины у. Выполнение этого предположения проверяется с помощью критерия однородности дисперсий в разных точках факторного пространства.

3. Значения факторов x_j суть неслучайные величины.

Если в рассматриваемой задаче выполняются все предположения, то можно проверять статистические гипотезы.

Для проверки гипотезы об адекватности модели можно использовать критерий Фишера (этот критерий мы уже использовали для проверки однородности дисперсий):

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.17)

Здесь Полный факторный эксперимент и уравнение регрессии - student2.ru – дисперсия воспроизводимости со своим числом степеней свободы, которая вычисляется по формулам (9.2.12) или (9.2.13); Полный факторный эксперимент и уравнение регрессии - student2.ru – дисперсия адекватности, определяемая по формуле

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.18)

где Полный факторный эксперимент и уравнение регрессии - student2.ru – остаточная сумма квадратов невязок; – число степеней свободы, K – число коэффициентов в РМ.

Если рассчитанное значение критерия не превышает табличного ( Полный факторный эксперимент и уравнение регрессии - student2.ru ), то с соответствующей доверительной вероятностью модель можно считать адекватной. При превышении табличного значения эту принятую гипотезу приходится отвергать.

В случае если опыты в матрице планирования дублируются, то дисперсия адекватности рассчитывается по формуле

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.19)

где n_i – число параллельных опытов в i -ой строке матрицы планирования; Полный факторный эксперимент и уравнение регрессии - student2.ru – среднее арифметическое из n_i параллельных опытов; – предсказанное по уравнению РМ значение в этом опыте.

Для определения коэффициентов Полный факторный эксперимент и уравнение регрессии - student2.ru нельзя записать универсальную расчетную формулу. Всякий раз их приходится рассчитывать разными методами, самым популярным из которых является МНК. Проиллюстрируем решение задачи получения РМ на простом примере.

Пример.В табл.15 приведена матрица планирования ПФЭ типа 2²с двумя параллельными опытами в каждой строке. Во втором опыте один из параллельных опытов пришлось отбросить как грубый.

При двух параллельных опытах со значениями и дисперсия в каждой строке матрицы табл.15 вычисляется с использованием формулы (9.2.10)

Полный факторный эксперимент и уравнение регрессии - student2.ru .

№
	+1 +1 +1 +1	–1 +1 –1 +1	–1 –1 +1 +1	4,5 3,0 2,0 0,5	5,5 — 2,0 1,5	5,0 3,0 2,0 1,0	4,75 3,25 2,25 0,75	0,25 -0,25 -0,25 0,25	0,0625 0,0625 0,0625 0,0625	0,125 0,0625 0,125 0,125	0,5 — 0,5

Т а б л и ц а 15

Зададимся начальной структурой регрессионной модели (РМ) в линейной форме Полный факторный эксперимент и уравнение регрессии - student2.ru

По результатам ПФЭ требуется определить коэффициенты РМ и доказать, что принятая модель адекватна.

Используя свойства и методику определения коэффициентов РМ с помощью матрицы планирования, по формуле (9.4.2) подсчитаем значения коэффициентов РМ.

Полный факторный эксперимент и уравнение регрессии - student2.ru

Итак, мы получили линейную РМ:

Полный факторный эксперимент и уравнение регрессии - student2.ru

Проверим адекватность этой модели. Вспомогательные расчеты представлены в последних шести столбцах табл.15.

Рассчитываем дисперсию воспроизводимости по формуле (9.2.13) с тремя степенями свободы:

Полный факторный эксперимент и уравнение регрессии - student2.ru

Рассчитываем дисперсию адекватности по формуле (9.4.18) с одной степенью свободы:

Полный факторный эксперимент и уравнение регрессии - student2.ru

Экспериментальное значение критерия Фишера рассчитаем по формуле (9.4.17): Полный факторный эксперимент и уравнение регрессии - student2.ru Табличное значение критерия Условие выполняется, следовательно, с вероятностью 0,95 принятую РМ можно считать адекватной.

Методы упрощения уравнения регрессии.При построении РМ для целевой функции у на начальном этапе обычно стараются учесть как можно большее число факторов, влияющих на изменение у. В этом случае часто получаются неоправданно сложные модели, особенно при использовании нелинейных форм. эти модели можно значительно упростить, если выявить те факторы, которые незначительно влияют на функцию отклика, и исключить эти факторы из уравнения регрессии.

При отборе влияющих факторов используются статистические методы отбора. Так, существенного сокращения числа влияющих факторов можно достичь с помощью пошаговых процедур отбора переменных. Ни одна их этих процедур не гарантирует получения оптимального набора переменных. Однако при практическом применении они позволяют получить достаточно хорошие наборы существенно влияющих факторов.

Для анализа РМ с целью упрощения используются несколько методов. Коротко рассмотрим некоторые из них.

1. Метод всех регрессий. В этом методе функцию отклика представляют в виде комбинаций зависимостей, в которых меняют число факторов. Так для уравнения регрессии

Полный факторный эксперимент и уравнение регрессии - student2.ru

можно записать функцию отклика в различных комбинациях:

Полный факторный эксперимент и уравнение регрессии - student2.ru

Для каждого уравнения вычисляются коэффициенты регрессии и определяется дисперсия адекватности Полный факторный эксперимент и уравнение регрессии - student2.ru , по наименьшему значению которой и выбирается лучшая РМ. Однако, применение этого метода связано с трудоемкими вычислениями.

2. Метод исключения переменных. Метод исключения предполагает построение РМ, включающей всю совокупность переменных, с последующим последовательным (пошаговым) сокращением числа переменных в модели до тех пор, пока не выполнится некоторое, наперед заданное, условие.

После построения РМ с целью сокращения членов в уравнении РМ и ее упрощения зачастую различными способами проводят оценку значимости коэффициентов модели. оценку значимости можно осуществить с помощью t-критерия Стьюдента.

При проверке значимости коэффициентов Полный факторный эксперимент и уравнение регрессии - student2.ru по t-критерию используется формула

Полный факторный эксперимент и уравнение регрессии - student2.ru (9.4.20)

Полный факторный эксперимент и уравнение регрессии - student2.ru где –среднеквадратическое отклонение коэффициента

Полный факторный эксперимент и уравнение регрессии - student2.ru

Вычисленное значение Полный факторный эксперимент и уравнение регрессии - student2.ru сравнивается с табличным при заданном уровне значимости α и соответствующем числе степеней свободы f и делается вывод о значимости коэффициента. Если Полный факторный эксперимент и уравнение регрессии - student2.ru , то с доверительной вероятностью можно считать рассматриваемый коэффициент незначимым и приравнять его нулю.

3. Метод включения переменных. Суть метода включения состоит в последовательном включении переменных в модель до тех пор, пока регрессионная модель не будет отвечать заранее установленному критерию качества. Последовательность включения определяется с помощью частных коэффициентов корреляции: переменные, имеющие относительно исследуемого показателя большие значения частного коэффициента корреляции, первыми включаются в регрессионное уравнение.

4. Метод анализа невязок состоит в том, что анализируется разница между значениями функции Полный факторный эксперимент и уравнение регрессии - student2.ru и значением , предсказанном по уравнению регрессии (см. рис.42). Определяя невязки

Полный факторный эксперимент и уравнение регрессии - student2.ru

проверяют их среднее значение, которое должно быть близким к нулю:

Полный факторный эксперимент и уравнение регрессии - student2.ru

Если это условие не выполняется, то в уравнение модели вносят дополнительные члены или принимают другую структуру РМ.

В 30-е гг. ХХ века повсеместное увлечение множественной регрессией сменилось разочарованием. Строя уравнение множественной регрессии и, стремясь включить как можно больше объясняющих переменных, исследователи все чаще сталкивались с бессмысленными результатами. Причина заключалась в том, что изолированно взятое уравнение регрессии есть не что иное, как модель «черного ящика», поскольку в ней не раскрыт механизм зависимости выходной переменной Y от входных переменных Х_i , а лишь констатируется факт наличия такой зависимости.

Для проведения правильного анализа нужно знать всю совокупность связей между переменными. Одним из первых подходов к решению этой задачи является конфлюэнтный анализ, разработанный в 1934 г. Р.Фришем. Он предложил изучать иерархию регрессий между всеми сочетаниями переменных.

Значительный интерес представляет аналитический метод выбора типа уравнения регрессии, который основан на изучении материальной природы связи исследуемых признаков.

[1] Интеркорреляция – корреляция между объясняющими переменными.

Наши рекомендации

Полный факторный эксперимент

Полный факторный эксперимент первого порядка

Полный факторный эксперимент

ПФЭ (полный факторный эксперимент)?

Полный факторный эксперимент (ПФЭ)

Полный факторный эксперимент

Полный факторный эксперимент и математическая модель

← Предыдущая страница | Следующая страница →