Краткие теоретические сведения. Для построения статистических моделей используют экспериментально-статистические
Для построения статистических моделей используют экспериментально-статистические методы. Объект исследования представляют в виде «черного ящика», определяя связи между выходным параметром и множеством входных параметров (факторов). В общем виде связь между факторами xi, xj и выходной переменной у в статике задается в виде полинома (отрезка ряда Тейлора), в который разлагается неизвестная функция:
где βi, βij, βii – коэффициенты, характеризующие соответственно линейные эффекты, эффекты взаимодействия и квадратичные эффекты.
Коэффициенты β0, βi, βij, βii называются коэффициентами регрессии, а уравнение уравнением регрессии.
Коэффициенты βi, βij, βii выражают влияние на выходной параметр у соответственно фактора xi совместного влияния факторов хi и xj.
Учитывая статистическую природу рассматриваемых процессов, а также конечность экспериментальных данных (обычно используется выборка экспериментальных данных), исследователь получает оценкикоэффициентов β0, βi, βij, βii. Тогда уравнение регрессии записывается так:
где – оценка выходного параметра модели; хi – факторы модели; п – число факторов; bi, bij, bii – оценки коэффициентов уравнения регрессии.
Пользуясь статистическими методами, удается по данным эксперимента (пассивного или активного) вычислить коэффициенты полинома.
При составлении математических моделей объектов, входные параметры которых измеряются, но не поддаются управлению либо их изменение ограничивается технологическим режимом, используется пассивный эксперимент. Исследователь, занимая «пассивную» позицию, собирает некоторый объем экспериментальных значений факторов хi и выходного параметра уи, которые обычно записывает в таблицу исходных статистических данных.
Привлекательность пассивного эксперимента заключается в том, что он избавляет от необходимости тратить время и средства на постановку опытов.
Статистические модели в виде линейных полиномов. В исследованиях объектов химической технологии во многих случаях связь между выходным параметром и факторами можно аппроксимировать линейной зависимостью. Приступая к исследованию процесса, априорных данных о котором недостаточно, начинают с самых простых моделей процесса, предполагая в дальнейшем введение соответствующих поправок.
Простейший вид уравнения регрессии:
Самым распространенным, хотя и не единственным, способом определения коэффициентов уравнения регрессии является метод наименьших квадратов, который содержит в себе требование минимума суммы квадратов отклонений выходного параметра объекта и модели. Аналитически это требование можно записать так
или с учетом линейного полинома
Т.е. наилучшими будут те значения коэффициентов b, при которых сумма квадратов отклонений расчетных величин уuрасч от опытных уu окажется наименьшей.
Преобразуя полученные выражения, получают систему нормальных уравнений
Решение системы дает расчетные формулы для вычисления коэффициентов b0 и b1:
Между коэффициентами b0 и b1 существует корреляционная связь. Для оценки тесноты связи линейной зависимости используется выборочный коэффициент парной корреляции rxy.
Для проверки значимости коэффициентов регрессии следует найти отношение абсолютного значения коэффициента к его среднеквадратическому отклонению и сравнить их со значением t-критерия, которое находят по таблицам распределения Стьюдента для выбранного уровня значимости p (например, p =0,05) и числа свободы v, то есть
Если условие соблюдается, то коэффициент bi значим (нуль-гипотеза βi=0 отвергается).
Для определения и в простейшем случае (линейная зависимость от одного фактора y=b0+b1·x1 формула имеет следующий вид:
где – дисперсия воспроизводимости (дисперсия опыта), характеризует воспроизводимость эксперимента.
Чтобы определить дисперсию воспроизводимости проводят параллельные (дублирующие) опыты. Затем вычисляют выборочные дисперсии (N – общее число сравниваемых дисперсий) для каждой группы параллельных опытов по формуле:
(VIIU7>
где т – число параллельных опытов (k=1, 2, ..., т); уик – экспериментальные значения выходного параметра; – среднее значение выходного параметра по результатам параллельных опытов.
Если выборочные дисперсии по каждой группе параллельных опытов однородны (проверка проводится с использованием критерия Кохрена по формуле: где – максимальная дисперсия, а – сумма всех дисперсий выборок, N – число выборок, n – номер выборки. Если расчетное значение G меньше табличного Gкр (при уровне значимости p и степенях свободы v1=m–1, для числителя и v2=N для знаменателя) – принимается гипотеза о равенстве (однородности дисперсий), то дисперсия воспроизводимости для объединенной выборки вычисляется так:
Число степеней свободы, характеризующее эту дисперсию, v=N(т–1).
Проверка адекватности модели при линейной связи между переменными. Считается, что уравнение регрессии адекватно описывает исследуемый процесс, если остаточная дисперсия (дисперсия характеризующая рассеяние опытных данных относительно уравнения регрессии) выходной величины, рассчитанной по уравнению регрессии относительно экспериментальных данных уи, не превосходит дисперсии воспроизводимости.
Остаточная дисперсия вычисляется по формуле:
где v=(N–l) – число степеней свободы; N – количество опытов; l – число связей (для линейного полинома l=п+1, п – количество факторов).
Линейное уравнение регрессии адекватно описывает исследуемый объект, если выполняется неравенство:
где Fкр – критическое значение критерия Фишера для выбранного уровнязначимости (p=0,05) и степеней свободы числителя v1=N–n–1 и знаменателя v2=N(т–1).
Если указанное выше условие не соблюдается, тогда следует увеличить число учитываемых факторов или заменить линейное уравнение регрессии нелинейным.
Если параллельные опыты осуществить не удается, тогда производится оценка качества аппроксимации опытных точек принятым уравнением регрессии. Проводят сравнение остаточной дисперсии и дисперсии относительного среднего , которая вычисляется по формуле:
Условие, при выполнении которого считают, что уравнение имеет смысл, выражается неравенством:
где Fкр – критическое значение критерия Фишера для выбранного уровнязначимости (p=0,05) и степеней свободы v1=N–1 и v2=N–n–1.
Чем больше значение F превышает Fкр, тем эффективнее уравнение регрессии.
Задача. Получить статистическую модель в виде линейного полинома на основе данных, полученных в результате проведения пассивного эксперимента, в котором изучали влияние технологического фактора (X – Ц/В цементоводное отношение)* на свойство продукции (Y – прочность цемента при сжатии, МПа) и проверить ее адекватность.
*Исходные данные для 8 и 9 групп приведены в приложении.
X | 0,1 | 0,2 | 0,3 | 0,4 | 0,5 | 0,6 | 0,7 | 0,8 | 0,9 | 1,0 |
Y | 8,013 | 12,933 | 19,85 | 20,503 | 28,228 | 24,741 | 33,105 | 32,04 | 32,914 | 36,473 |
Результаты проведения параллельных опытов при X=0,5
X | 0,5 | 0,5 | 0,5 | 0,5 |
Y | 29,97 | 28,32 | 27,69 | 26,12 |
Результаты проведения параллельных опытов при X=0,6
X | 0,6 | 0,6 | 0,6 | 0,6 |
Y | 25,11 | 25,90 | 24,31 | 24,82 |
Общая последовательность анализа экспериментальных данных:
1. Рассчитать коэффициенты регрессии линейного полинома по методу наименьших квадратов.
2. Построить на графике экспериментальные точки для зависимости показателя свойства продукции от технологического фактора и линейную функцию регрессии, аппроксимирующую наблюдаемые данные.
3. Рассчитать коэффициент корреляции между показателем качества продукции и технологическим фактором.
4. Проверить статистическую значимость коэффициента корреляции.
5. Проверить статистическую значимость коэффициентов регрессии:
6. Проверить адекватность выбранной статистической модели, используя результаты проведенных параллельных опытов.
7. Провести оценку качества аппроксимации точек принятым уравнением регрессии.
8. Сделать выводы.