Построение линейного уравнения регрессии рассмотрим на
следующем примере: имеются экспериментальные данные исследования
Влияния времени вулканизации на сопротивление резины разрыву. Данные
наблюдения приведены в таблице 7.3. На основе приведённых данных
Провести исследование влияния времени вулканизации на качество
Резины.
Таблица 7.3.
Данные о времени вулканизации и сопротивлению
Резины
№
Анализа
Время
Вулканизации,
Мин
Сопротивление
Разрыву,
кг/ см2
№
Анализа
Время
Вулканизации,
Мин
Сопротивление
Разрыву,
кг/ см2
2 35 162 8 33 160
2 40 174 9 36 167
3 30 155 10 31 153
4 42 172 11 36 163
5 37 179 12 43 173
6 38 166 13 39 168
7 34 162 14 44 176
Результативный признак y – сопротивление резины, факторный x –
Время вулканизации.
Прежде чем подбирать соответствующую математическую функцию
И строить уравнение регрессии, необходимо проверить качество исходной
информации, уровень её вариации, нормальность распределения.
Для проверки совокупности на однородность по факторному
признаку, используется коэффициент вариации ( ≥ 33%) x V :
= ⋅100%
x
V x
x
σ
Среднее время вулканизации по данным таблицы 7.4. составляет
37 .
x = 518 = мин
Таблица 7.4.
Вспомогательная таблица для расчета x и х σ
№ п/п x x − x (x − x)2 № п/п x x − x (x − x)2
1 35 -2 4 8 33 -4 16
2 40 +3 9 9 36 -1 1
3 30 -7 49 10 31 -6 36
4 42 +5 25 11 36 -1 1
5 37 0 0 12 43 +6 36
6 38 +1 1 13 39 +2 4
7 34 -3 9 14 44 +7 49
- - - Итого 518 - 240
( )
Мин
n
X x
X 17.14 4.1
240 2
= = ≈
−
= σ Σ ; 100 11,1%
ν = 4,1 ⋅ = X < 33%,-
Это означает, что изучаемая совокупность однородна.
Проверка первичной информации на нормальность
распределение проводится на основе «правила 3-х сигм»:
x ±1σ = 37 ± 4.1 = 39.2 ÷ 41.1 ;
x ± 2σ = 37 ± 2 ⋅ 4.1 = 3 ± 8.2 = 28.8 ÷ 45.2 ;
x ± 3σ = 37 ± 3 ⋅ 4.1 = 37 ±12.3 = 24.7 ÷ 49.3 .
Для проверки составим следующую таблицу:
Таблица 7.5.
Проверка данных наблюдения на нормальность
Распределения
Интервалы
Значений
Признака
Число единиц
Попадающих
В интервал
Удельный вес
Единиц,
Попавших в
интервал, %
Удельный вес
Единиц, входящих
В интервал при
Нормальном
распределении,%
39,2 - 41,1 9 64,3 68,3
28,8 - 45,2 14 100,0 95,4
24,7 - 49,3 14 100,0 99,73
Первичная информация по факторному признаку не полностью
Подчиняется закону нормального распределения, однако это не является
Основанием для отказа использования корреляционно-регрессионного
_______анализа для описания связи между признаками.
Исключение из первичной информации аномальных значений
факторного признака, то есть значений, не попадающих в интервал x ± 3σ
(24,7< i x <49,3). Таких аномальных значений в первичной информации нет.
4.
5. Для установления факта наличия связи проведём
Аналитическую группировку. Она выполняется как равноинтервальная
группировка. При m=4, 3.5
max min 44 30 =
−
=
−
=
m
a x x , принимаем а = 4 мин.
Результаты группировки приведены в таблице 7.6:
Таблица 7.6.
Исследование зависимости сопротивления резины от времени
Вулканизации
№
Группы
Время
Вулканизации,
Мин
Номера
Анализов,
Попавших
В группу
Число
Анализов
Сопротивление
Резины
В группе, i y
Σ i y Среднее
Сопротивление
резины, кг/ см2
1 30-34 3,8,10 3 155,160,153
156,0
2 34-38 1,5,7,9,11 5 162,173,162,167,163 827 165,4
3 38-42 2,6,13 3 174,166,168 508 169,3
4 42-44 4,12,14 3 172,173,176 521 173,7
Итого 30-46 - 14 -
-
Анализ таблицы 7.6. позволяет сделать следующий вывод: связь между
Признаками существует, так как при увеличении времени вулканизации
Возрастает сопротивление резины. Графически это выглядит следующим
образом:
32 36 40 44
Рис. 7.3. Эмпирическая линия регрессии сопротивления резины на время
Вулканизации
Эмпирическая линия регрессии приближается к прямой.
Следовательно, можно считать, что между признаками имеется
прямолинейная связь вида yˆ = a + bx .
Коэффициент регрессии b рассчитаем по формуле:
( ) ;
*
2 2 Σ Σ
Σ Σ Σ
−
−
=
X x
Xy
n
X y
b
Параметр
n
Y b x
a Σ − Σ
= .
Для расчёта параметров составим вспомогательную таблицу:
Таблица 7.7.
Расчёт параметров уравнения регрессии
№
Анализа
I x
i y x2 x ⋅ y y 2 i yˆ i y -
i yˆ
(y − yˆ )2
162 1225 5670 26244 163.0 -1.0 1.0
174 1600 6960 30276 170.5 +3.5 12.25
155 900 4650 24025 155.5 -0.5 0.25
172 1764 7224 29584 173.5 -1.5 2.25
173 1369 6401 29929 166.0 +7.0 49.0
166 1444 6308 27556 167.5 -1.5 2.25
162 1156 5508 26244 161.5 +0.5 0.25
160 1089 5280 25600 160.0 0.0 0.00
167 1296 6012 27889 164.5 +2.5 6.25
153 961 4743 23409 157.0 -4.0 16.0
163 1296 5868 26569 164.5 -1.5 2.25
73 1849 7439 29929 175.0 -2.0 4.0
168 1521 6552 28224 169.0 -1.0 1.0
176 1936 7744 30976 176.5 -0.5 0.25
Итого
2324 19406 86359 386.454
2364,0
- 97.0
1.5
518 19.406
518 2324
2 =
−
⋅ −
b = ;
110.5
2324 1.5 518 =
− ⋅
a = .
Уравнение регрессии имеет вид yˆ = 110.5 +1.5x . Параметры модели
могут быть интерпретированы следующим образом: коэффициент
регрессии b=1,5 показывает, что при увеличении времени вулканизации на
1 минуту сопротивление резины увеличивается на 1,5 кг/ см2 . Параметр a =
Интерпретировать невозможно, так как среди наблюдаемых значений
факторного признака – времени вулканизации отсутствуют значения
Равные или близкие к нулю.
Аналогичным образом на основе МНК рассчитываются параметры
Нелинейной регрессии.
Для параболы второго порядка: yˆ = a + bx + cx2 получаем систему
нормальных уравнений следующего вида:
⎪ ⎪⎩
⎪⎪⎨
⎧
⋅ = ⋅ + ⋅ +
⋅ = ⋅ + ⋅ + ⋅
= ⋅ + ⋅ + ⋅
Σ Σ Σ Σ
Σ Σ Σ Σ
Σ Σ Σ
2 2 3 4
2 3
X y a x b x c x
X y a x b x c x
Y n a b x c x
Для показательной функции yˆ = a ⋅ b x предварительно необходимо