Інтервальна оцінка функції регресії
Основні положення регресійного аналізу. Парна
Регресійна модель. множинний регресійний аналіз
Завданнями регресійного аналізу є встановлення форм залежності між змінними, оцінка функцій регресії, оцінка невідомих значень залежної змінної. В регресійному аналізі розглядається одностороння залежність випадкової залежної змінної Y від однієї (або декількох) невипадкової незалежної змінної X, яка часто називається пояснюючою змінною. Вказана залежність Y від X може бути представлена також у вигляді модельного рівняння регресії (6.1). За рахунок впливу неврахованих випадкових факторів і причин окремі спостереження у будуть у більшій або меншій мірі відхилятися від функції регресії В цьому випадку рівняння взаємозв’язку двох змінних (парна регресійна модель) може бути представлене в вигляді: де - випадкова змінна, яка характеризує відхилення від функції регресії. Цю змінну будемо називати збуреною або просто збуренням. Розглянемо лінійний регресійний аналіз, для якого функція лінійна відносно оцінюваних параметрів:
(7.1) Припустимо, що для оцінки параметрів лінійної функції регресії (7.1)
взято вибірку, яка містить n пар значень змінних ( ), де i = 1,2, …, n.
В цьому випадку лінійна парна регресійна модель має вигляд:
. (7.2)
Основні положення регресійного аналізу:
1. В моделі (7.2) збурення (або залежна змінна ) є величина випадкова, а пояснювальна змінна – величина невипадкова.
2. Математичне сподівання збурення рівне нулю: ;
3. Дисперсія збурення (або залежної змінної ) постійна для довільного i: .
4. Збурення і (або змінні і ) не корельовані: , .
5. Збурення (або залежна змінна ) є нормально розподілена випадкова величина.
Оцінка моделі (7.2) по вибірці є рівнянням регресії = . Параметри цього рівняння і визначаються на основі методу найменших квадратів. Вплив неврахованих випадкових факторів і помилок спостережень в моделі (7.2) визначається за допомогою дисперсії збурення (помилок) або залишкової дисперсії . Незміщеною оцінкою цієї дисперсії є вибіркова залишкова дисперсія
= ,
де - групове середнє, знайдена з рівняння регресії; = - вибіркова оцінка збурення або залишок регресії. В знаменнику виразу оцінки стоїть число степенів вільності n-2, а не n, оскільки два степеня вільності губляться при визначенні двох параметрів прямої .
Інтервальна оцінка функції регресії
Побудуємо довірчий інтервал для функції регресії, тобто для умовного математичного сподівання , яке із заданою надійністю накриває невідоме значення . Знайдемо дисперсію групового середнього , що є вибірковою оцінкою : рівняння дисперсії запишемо у вигляді:
. (7.3)
На рис. 7.1 лінія регресії зображена графічно. Для довільного значення , що спостерігається, виділені його складові: середнє , приріст , що утворюють значення і збурення .
Рис. 7.1
Дисперсія групового середнього дорівнює сумі дисперсій двох незалежних доданків: .
Дисперсія вибіркового середнього : . Для знаходження дисперсії представимо коефіцієнт регресії у вигляді:
. Тоді
Знайдемо оцінку дисперсії групових середніх, замінюючи її груповою оцінкою : . Виходячи з того, що статистика має розподіл Стьюдента із степенями вільності, можна побудувати довірчий інтервал для умовного математичного сподівання ,
де - стандартна помилка групового середнього .
Екстраполяція кривої регресії, тобто її використання поза границями знайденого діапазону значень пояснюючої змінної може привести до значних похибок. При визначені довірчого інтервалу для деякого індивідуального значення необхідно враховувати ще і розсіювання навкруги лінії регресії: оцінка дисперсії індивідуального значення при дорівнює , а відповідний довірчий інтервал для прогнозування індивідуальних значень буде визначатися за формулою .
◄Приклад 7.1Маємо данні про видобуток вугілля на одного робітника Y (т) і потужності шару Х (м), що характеризують процес видобування вугілля в 10 шахтах (табл. 7.1).
Таблиця 7.1
і | ||||||||||
Оцінити середній видобуток вугілля на одного робітника для шахт із потужністю шару 8 м. Знайти 95%-вий довірчий інтервал для індивідуального і середнього значень видобутку вугілля на 1 робітника для таких шахт.
Розв’язання. Складемо рівняння регресії: , , , , , рівняння , тобто при збільшенні потужності шару Х на 1м видобуток вугілля на одного робітника Y збільшується в середньому на 1,016 т.
Потрібно оцінити умовне математичне сподівання . Вибірковою оцінкою є групове середнє , яке знайдемо за рівнянням регресії: .
Для побудови довірчого інтервалу для необхідно знайти дисперсію його оцінки . Складемо допоміжну таблицю 7.2, враховую-чи те, що , а значення визначаються за отриманим рівнянням регресії.
Таблиця 7.2
1,96 | 2,56 | 6,76 | 0,16 | 1,96 | 1,96 | 0,16 | 0,16 | 1,96 | 6,76 | 24,4 | |
5,38 | 8,43 | 9,44 | 6,39 | 5,38 | 5,38 | 6,39 | 6,39 | 5,38 | 9,44 | - | |
0,14 | 2,48 | 0,31 | 0,37 | 0,14 | 0,39 | 0,15 | 1,94 | 0,39 | 2,08 | 8,39 |
Отже, , , . За таблицею значень критерію Стьюдента . Шуканий довірчий інтервал
або (т).
Отже, середній видобуток вугілля на одного робітника для потужності шару 8 м з надійністю 0,95 знаходиться в межах від 4,38 до 6,38 т.
Щоб побудувати довірчий інтервал для індивідуального значення , знайдемо дисперсію його оцінки
і (т).
Шуканий довірчий інтервал і . Отже, індивідуальний видобуток вугілля на одного робітника для шахт із потужністю шару 8 м із надійністю 0,95 знаходиться в межах від 2,81 до 7,95 т.►