Інтервальна оцінка параметрів парної моделі
Перевірити значущість рівняння регресії - це означає встановити, чи відповідає математична модель експериментальним даним.
Перевірка значущості рівняння регресії виконується на основі дисперсійного аналізу: ,
або , де - загальна сума квадратів відхилень залежної змінної від середнього, а і - відповідно сума квадратів, обумовлена регресією, і залишкова сума квадратів, що характеризує вплив сторонніх факторів. Схема дисперсійного аналізу має вигляд, який подано в табл. 7.3.
Середні квадрати і (табл. 7.3) є незміщеними оцінками дисперсій залежної змінної, яка обумовлена регресією або пояснюючою змінною X і впливом сторонніх випадкових факторів і помилок; m - число оцінюваних параметрів рівняння регресії; n - число спостережень.
Таблиця 7.3
Компоненти дисперсії | Сума квадратів | Кількість степенів вільності | Середні квадрати |
Регресія | m-1 | ||
Залишкова | n-m | ||
Загальна | n-1 |
При відсутності лінійної залежності між залежною і пояснюючою змінними випадкові величини і мають - розподіл відповідно із m-1 і n-m степенями вільності, а їх відношення - F-розподіл з тими самими степенями вільності. Тому рівняння регресії має значущість на рівні α, якщо фактично спостережене значення статистики , де - табличне значення F - критерію Фішера-Снедекора, визначене на рівні значущості α при k1=m-1, k2=n-m степенях вільності.
У випадку парної регресії m=2 і рівняння регресії значуще на рівні α, якщо . Коефіцієнт кореляції в термінах "сум квадратів" набуває вигляду: . Значущість рівняння
парної лінійної регресії може бути перевірена іншим способом, якщо оцінити значущість коефіцієнта регресії b1. Можна показати, що при виконанні посилання 5 регресійного аналізу статистика має стандартний нормальний закон розподілу N(0;1), а якщо у виразі для замінити параметр його оцінкою , то статистика має t-розподіл з k=n-2 степенями вільності.
Тому коефіцієнт регресії b1 значущий на рівні α, якщо , а довірчий інтервал для має вигляд:
.
Для парної регресійної моделі оцінка значущості рівняння регресії по F-критерію рівносильна оцінці значущості коефіцієнта регресії b1 або коефіцієнта кореляції r по t-критерію, оскільки ці критерії зв'язані співвідношенням F=t2. А інтервальні оцінки для параметра - при нормальному законі розподілу залежної змінної і співпадають.
При побудові довірчого інтервалу для дисперсії збурення виходять з того, що статистика має - розподіл з k=n-2 степенями вільності. Тому інтервальна оцінка для на рівні значущості має вигляд: .
◄Приклад 7.2 За даними табл. 7.1 оцінити на рівні α=0.05 значущість рівняння регресії Y по Х. Знайти інтервальну оцінку для параметрів β1 і σ2.
Розв’язання. Враховуючи, що b1=1,016, , s2=1,049 (див. приклад 7.1, табл. 7.2), за формулою
.
За таблицею t-розподілу . , отже коефіцієнт регресії і рівняння парної лінійної регресії Y по X значущі.
Знайдемо 95%-ий довірчий інтервал для параметра β1:
або .
Тобто з надійністю 0,95 при зміні потужності пласта Х на 1м добовий виробіток Y буде змінюватись на величину, що знаходиться в інтервалі від 0,537 до 1,495 (т).
Знайдемо 95%-ий інтервал для параметра σ2: за таблицею для
- розподілу , .
Маємо
або і .
Таким чином, з надійністю 0,95 дисперсія збурень знаходиться в межах від 0.599 до 4.81, а їх стандартне відхилення – від 0,774 до
2,19 (т).►
Нелінійна регресія
Відношення між соціально-економічними явищами і процесами далеко не завжди можна виразити лінійними функціями. В таких випадках використовують нелінійну (за пояснюючою змінною) регресію. Вибір виду рівняння регресії проходить на основі досвіду попередніх досліджень. Найбільш часто зустрічаються наступні види рівнянь нелінійної регресії: поліноміальне , гіперболічне ,
степеневе . Для визначення невідомих параметрів використовується метод найменших квадратів.
◄Приклад 7.3За даними табл. 7.4 дослідити залежність врожайності зернових культур Y (ц/га) від кількості опадів Х (см), які випали в вегетаційний період:
Таблиця 7.4
№ | |||||||||||||||
Кількість опадів, хі(см) | |||||||||||||||
Врожайність yі (ц/га) |
Розв’язання. З деяких міркувань можна зробити висновок, що збільшення кількості опадів, що випали, призводить до збільшення врожайності до деякої границі, після чого врожайність буде знижуватися. Враховуючи окрім того, розміщення точок кореляційного поля (див. рис. 3.1), можна припустити, що найбільш доречним рівнянням регресії буде рівняння параболи . Його параметри знаходимо, застосовуючи метод найменших квадратів:
Прирівнявши частинні похідні до нуля, отримаємо після перетворень, систему нормальних рівнянь:
Для розрахунку необхідних сум складемо допоміжну таблицю (табл. 7.5):
Таблиця 7.5
і | хі | уі | хі2 | хі3 | хі4 | хіуі | хіуі2 | уі2 | ( -уі)2 | |
21,7 | 1,69 | |||||||||
24,3 | 0,11 | |||||||||
… | … | … | … | … | … | … | … | … | … | … |
24,4 | 0,46 | |||||||||
23,4 | 2,44 | |||||||||
∑ | - | 45,94 |
Тепер система набуде вигляду:
Розв’язавши цю систему, наприклад, методом Гауса, отримаємо . Отже, рівняння регресії має вигляд: . Оцінимо значущість отриманої залежності. Знайдемо суми (див. останній рядок табл. 7.5):
; ;
.
Статистика . Табличне значення . , отже, рівняння регресії значуще.
Оцінимо тісноту зв’язку: індекс кореляції .
Тобто отримана залежність доволі тісна. Коефіцієнт детермінації показує, що варіація врожайності зернових культур на 79,5% обумовлена регресією, або мінливістю кількості опадів.►