Влияние погрешности регистрации статистических данных на

точность регрессионной модели[4]

Независимые переменные измеряются с ошибками:

Xi = X0i + ei ,

где ei –ошибка измерения; X0i – истинное значение контролируемой переменной.

Ошибка имеет нормальный закон распределения:

ei ≈(0, ξi2).

Рассчитанная по данным наблюдениям модель оценивается остаточной дисперсией:

Влияние погрешности регистрации статистических данных на - student2.ru

где Влияние погрешности регистрации статистических данных на - student2.ru - дисперсия выходной переменной, не зависит от ошибки измерения xi.

Влияние погрешности регистрации статистических данных на - student2.ru - коэффициент детерминации подвержен влиянию ошибок измерений xi:

R2 = R2y,x1,x2,..xk .

Составим матрицу (ХтХ)-1 коэффициентов ковариации:

y x1 x2 …. xk

y dyy dy1 dy2……dyk

x1 d11 d12……d1k

D= x2 d22 …. d2k

.

.

xk dkk

где dyyy2; dyj = Cov(y, xj) ; dij = Cov(xi ,xj).

Тогда множественный коэффициент корреляции равен:

Влияние погрешности регистрации статистических данных на - student2.ru

где |D| - определитель матрицы D;

Dyy - алгебраическое дополнение элемента dyy матрицы D.

Для упрощения расчетов коэффициентов линеаризованного регрессионного уравнения выполним центрирование всех переменных. Тогда уравнение примет вид:

(y – ycp) = b1(x1 – x1cp) + …..+ bk(xk – xkcp) + e.

Матрица для записи коэффициентов нормальных уравнений принимает вид:

Влияние погрешности регистрации статистических данных на - student2.ru

Корреляционная матрица для центрированных значений переменных равна:

x10 x20 …… xk0

Влияние погрешности регистрации статистических данных на - student2.ru
x10 d11 d12…….d1k

= x20 d22 …… d2k (1)

.

.

xk0 dkk

Дополнив первую строку и столбец (1) коэффициентами ковариации центрированных значений зависимой переменной с факторными переменными, получим матрицу D0:

y0 x01 x02 x0k

y0 d0yy d0y1 … .d0yk

x10 d01y d011 ……d01k

D0 = x20 d02y d022 d02k (2)

.

.

xk0 d0ky d0kk

где d0yy= σy02; d0yj = Cov (y0, x0j); d0ij = Cov(x0i ,x0j).

Коэффициенты уравнения регрессии рассчитываются через определитель матрицы D0 (2) по формуле:

Влияние погрешности регистрации статистических данных на - student2.ru

где Влияние погрешности регистрации статистических данных на - student2.ru - алгебраическое дополнение элемента d0yj матрицы D0;

Влияние погрешности регистрации статистических данных на - student2.ru - алгебраическое дополнение элемента d0yy матрицы D0.

Рассмотрим влияние ошибок измерения факторных переменных на оценки bi :

dij = Cov{(x0i + ei ), (x0j + ej )}= Cov{(x0i ), (x0j )} = d0ij ;

dii = Cov{(x0i + ei ), (x0i + ej )}= Cov{(x0i ), (x0i )} + 2Cov{x0i, ei} +

+ Cov{ei ei} = d0ii + ξ2i ;

dyi =Cov{(y0 + ey) , (x0i + ei )} = d0yi .

Под влиянием ошибок измерений в матрице D0(2) изменяются значения диагональных элементов (возрастают). Недиагональные элементы не изменяются. Рассмотрим, как это скажется на коэффициенте детерминации R2:

Влияние погрешности регистрации статистических данных на - student2.ru

Для выявления зависимости коэффициента детерминации от погрешностей измерения x0i рассмотрим частные производные, используя теорему о дифференцировании определителей:

Влияние погрешности регистрации статистических данных на - student2.ru

где Влияние погрешности регистрации статистических данных на - student2.ru - регрессионные коэффициенты при стандартизации факторных переменных Влияние погрешности регистрации статистических данных на - student2.ru

Знак минус производной указывает, что погрешность измерений факторных переменных приводит к уменьшению коэффициента детерминации.

Заменяя дифференциал на приращения, получаем:

Влияние погрешности регистрации статистических данных на - student2.ru

Вывод:

1. Чем больше размах колебаний факторных переменных, тем меньше сказывается влияние погрешности регистрации e2i на точность регрессионной модели.

2. Погрешность измерения зависимой переменной оказывает влияние на точность модели

Влияние погрешности регистрации статистических данных на - student2.ru

Практические рекомендации: чем больше размах колебаний факторных переменных, тем меньше сказываются погрешности измерений на точность регрессионной модели.

На основе теоремы о полном приращении функции многих переменных можно записать:

Влияние погрешности регистрации статистических данных на - student2.ru

Запишем формулу остаточной дисперсии уравнения регрессии:

Влияние погрешности регистрации статистических данных на - student2.ru

Погрешности измерений факторных переменных приводят к увеличению остаточной дисперсии уравнения регрессии. Ошибки измерений снижают эффективность м.н.к. оценок:

Влияние погрешности регистрации статистических данных на - student2.ru

Оценим влияние погрешностей регистрации факторных переменных на коэффициенты регрессии [4]:

Влияние погрешности регистрации статистических данных на - student2.ru

Влияние погрешности регистрации статистических данных на - student2.ru - множественный коэффициент корреляции факторной переменной xi с остальными факторными переменными.

Ошибки измерения факторных переменных приводят к уменьшению значений коэффициентов регрессии. Чем теснее связь между переменными

Влияние погрешности регистрации статистических данных на - student2.ru , тем влияние сильнее.

Ошибки измерения зависимой переменной у не влияют на значения коэффициентов регрессии:

Влияние погрешности регистрации статистических данных на - student2.ru

Оценим чувствительность регрессионного коэффициента bi к ошибкам измерений других факторных переменных:

Влияние погрешности регистрации статистических данных на - student2.ru

Полное приращение (+/-) ∆bi за счет ошибок в остальных факторных переменных равно:

Влияние погрешности регистрации статистических данных на - student2.ru

При некоррелированности факторных переменных Влияние погрешности регистрации статистических данных на - student2.ru =0, получаем

Влияние погрешности регистрации статистических данных на - student2.ru =0. В этом случае ошибки регрессионных коэффициентов ∆bi будут вызываться только ошибками измерений самих переменных xi.:

Влияние погрешности регистрации статистических данных на - student2.ru

Вычисленные коэффициенты регрессии получаются асимптотически смещенными. С увеличением числа опытов дисперсия оценок коэффициентов регрессии уменьшается:

Влияние погрешности регистрации статистических данных на - student2.ru

Влияние погрешности регистрации статистических данных на - student2.ru

При этом оценки не сходятся к истинным значениям, т.е. оценки не состоятельные.

Степень искажения оценок коэффициентов регрессии можно судить по следу матрицы А, составленной по центрированным значениям факторных переменных (без ошибок):

Влияние погрешности регистрации статистических данных на - student2.ru

где Влияние погрешности регистрации статистических данных на - student2.ru - матрица ошибок факторных переменных.

След матрицы А равен:

Влияние погрешности регистрации статистических данных на - student2.ru ,

где Влияние погрешности регистрации статистических данных на - student2.ru - относительная точность измерения факторных переменных xi .

Смещение оценок и увеличение их дисперсии за счет ошибок измерения факторных переменных малы при выполнении условий:

Влияние погрешности регистрации статистических данных на - student2.ru

Контрольные вопросы

1. В чем особенность планирования промышленного эксперимента?

2. Как определяется продолжительность эксперимента и дискретность съема данных с объекта?

3. Как сказывается погрешность регистрации данных на коэффициенте детерминации модели регрессии?

4. Как влияют ошибки измерения независимых переменных на коэффициенты уравнения регрессии?

5. Как число опытов влияет на дисперсию коэффициентов регрессии?

6. Что необходимо предпринимать для уменьшения влияния погрешностей измерения независимых переменных на точность модели регрессии?

Лекция 8Рекуррентные алгоритмы построения математического описания дрейфующих объектов. Метод текущего регрессионного

Анализа

При построении математического описания промышленных объектов приходится встречаться с фактом неконтролируемого изменения характеристик объекта во времени. Объекты, обладающие такими свойствами, называются нестационарными (дрейфующими). Причиной являются наличие неконтролируемых воздействий, значения которых не могут учитываться при построении модели объекта. Дрейф характеристик может возникать из-за изменения активности катализатора, износа огнеупоров тепловых агрегатов, изменения условий работы, влияние времен года и др. Как правило, изменение дрейфующих параметров происходит значительно медленнее процесса изменения контролируемых переменных.

В предыдущих лекциях при построении математического описания по выборке оценивались математические ожидания коэффициентов модели в предположении отсутствия дрейфа. Будем рассматривать случай, когда действительные значения коэффициентов изменяются во времени. Для этого выбирается адаптивный путь решения задачи, в котором по выборке необходимо получить помимо математического ожидания коэффициентов оценки рядя параметров, значения которых определяются неизвестными априори свойствами дрейфа [4].

При решении задачи построения математического описания дрейфующего объекта возможны ситуации двух типов:

1) по выборке наблюдений за входом и выходом объекта на некотором интервале времени от t0 до t>t0 необходимо найти оценки вектора коэффициентов модели, близкие к действительным значениям коэффициентов в момент t+α, где α≥0;

2) осуществляется непрерывное слежение за изменением коэффициентов модели. В любой момент времени t требуется найти наилучшее приближение к действительным значениям коэффициентов в момент t+α.

Вторая ситуация аналогична первой при стремлении длины интервала наблюдений к бесконечности.

Наши рекомендации