Приклад побудови моделі лінійної регресії
Припустимо, що досліджується вплив пройденої автомобілем відстані на зношування шин. Щоб виключити вплив умов експлуатації були вибрані 5 різних типів автомобілів.
Експериментальні дані зведені до таблиці 3.2.
Таблиця 3.2
Дані експериментальних досліджень
Відстань xi (км) | Величина зношування шин уij (мм) 5 автомобілів | ||||
У якості інтервалу усереднення вибираємо Dх = 10000 км (і = 1,2,3,4,5), тобто N = 5 (число інтервалів). Середнє по кожному інтервалу визначається за формулою:
де к- кількість типів автомобілів. Після розрахунків отримано:
=3.2 мм, 2 = 5,6 мм, з =9,0 мм, 4 =11,4 мм, 5 = 15,2 мм
Зобразимо розподілення значень інтервальних середніх на кореляційному полі (див. рис 3.2).
Рис. 3.2 Розподіл інтервальних середніх на кореляційному полі.
Очевидно, що найбільш підходящою апроксимацією у даному випадку буде лінійна регресія вигляду:
Зведемо данні усереднення до розрахункової таблиці 3.3
Таблиця 3. 3
у(мм) | х(тис.км) | X2 | ху | |
3,2 5,6 9,0 11,4 15,2 | 32,0 112,0 270,0 | |||
Всього | Sуі=44,4 | Sхі =150 | Sхі2=5500 | Sхіуі=1630 |
Середнє значення | = 8,88 | = 30 |
З урахуванням (3.5) маємо:
мм/тис. км
а0 = 8,88 – 0,298*30 = - 0,06 мм.
Отже, рівняння лінійної регресії має вигляд:
= 0, 298х-0,06
Відмітимо, що початкове зношування а = 0,06 мм не має фізичного змісту,оскільки модель застосовується лише при величинах пробігу 10000 ≤ х ≤ 50000 км.
Спробуємо дещо покращити якість моделі. Для цього введемо до експериментальних даних апріорну інформацію про відсутність зношування нових шин, тобто у = 0 при х = 0 і визначимо нові параметри моделі регресії (при п = 6) (див. таблицю 3.4).
Таблиця 3. 4
у(мм) | х(тис.км) | X2 | ху | |
3,2 5,6 9,0 11,4 15,2 | 32,0 112,0 270,0 | |||
Всього | Sуі=44,4 | Sхі =150 | Sхі2=5500 | Sхіуі=1530 |
Середнє значення | = 7,40 | = 25, 0 |
За даними таблиці знаходимо:
(мм/тис. км)
а0 = 7,7 – 0,24*25 = 1,7 мм.
Рівняння регресії має вигляд: = 1,7+ 0,24 х
Як слідує з отриманого рівняння, введення додаткової точки у=0 при х=0 суттєво підвищує точність розрахункового значення у(0).
Більш того, достовірне знання того, що у = 0 при х = 0 дозволяє обрати модель вигляду: уз = а1 * х.
Тоді розрахунок коефіцієнта регресії можна провести на основі середніх значень.
а1= /х = 7,4 / 25= 0,296 (мм/тис. км)
що ще більш уточнює параметри моделі.
Визначимо похибку застосування трьох вказаних моделей:
= 2,94+ 0,198 х; = 1,7+ 0,24 х; = 0,296 х
для лінійної апроксимації експериментальних даних. Розрахункові величини зведемо до таблиці 3.5
Таблиця 3. 5
хі | уі | 1 | 2 | 3 | (у- 1)2 | (у- 2)2 | (у- 3)2 |
3,2 5,6 9,0 11,4 15,2 | 4,92 6,9 8,88 10,86 12,84 | 4,1 6,5 8,6 11,3 13,7 | 2,96 5,92 8,88 11,84 14,8 | 2,958 1,690 0,014 0,292 5,570 | 0,810 0,810 0,160 0,010 2,250 | 0,058 0,102 0,014 0,194 0,160 | |
Сума квадратів відхилень | 10,524 | 4,04 | 0,528 | ||||
Середньоквадратична похибка моделі | 2,1048 | 0,808 | 0,1056 |
Порівняння характеристик точності моделей показує, що введення додаткових достовірних даних дозволяє збільшити точність моделі.
У загальному випадку, якщо в моделі можливе врахування будь-якої достовірної інформації, то така модель завжди буде точнішою.
Для розрахунку значень загальної, факторної та залишкової дисперсії складемо наступну таблицю 3.6 (наприклад, для випадку першої моделі = 2,94+ 0,198 × хі).
Таблиця 3.6
уі | і (хі) | уі - | уі - (хі) | (уі - )2 | (уі - (хі))2 | |
3,2 | 4,92 | -5,68 | -1,72 | 32,2624 | 2,9584 | |
5,6 | 6,9 | -3,28 | -1,3 | 10,7584 | 1,69 | |
8,88 | 0,12 | 0,12 | 0,0144 | 0,0144 | ||
11,4 | 10,86 | 2,52 | 0,54 | 6,3504 | 0,2916 | |
15,2 | 12,84 | 6,32 | 2,36 | 39,9424 | 5,5696 | |
Всього | 44,4 | 89,328 | 10,524 | |||
Середнє значення | 8,88 | 17,866 | 2,105 |
Розрахуємо факторну дисперсію:
= - =17,866-2,105 = 15,761
Тоді коефіцієнт детермінації визначиться як
,
тобто, 88% зношування шин обумовлено дальністю пробігу автомобіля.
Коефіцієнт регресії
,
що свідчить про велику близькість реальної залежності у(х) до лінійної форми.