Вираження параметрів парної лінійної регресії через числові характеристики показника і фактора

Парна лінійна регресія

Важливою характеристикою кореляційного зв’язку є лінія регресії — емпірична в моделі аналітичного групування і теоретична в моделі регресійного аналізу. Емпірична лінія регресії представлена груповими середніми результативної ознаки , кожна з яких належить до відповідного інтервалу значень групувального фактора х_j. Теоретична лінія регресії описується певною функцією яку називають рівнянням регресії, а Y — теоретичним рівнем результативної ознаки.

На відміну від емпіричної, теоретична лінія регресії неперервна. Так, уважають, що маса дорослої людини в кілограмах має бути на 100 одиниць менша за її зріст у сантиметрах. Співвідношення між масою і зростом можна записати у вигляді рівняння: , де у — маса; х — зріст.

Безперечно, така форма зв’язку між масою та зростом людини надто спрощена. Насправді збільшення маси не жорстко пропорційне до збільшення зросту. Люди одного зросту мають різну масу, проте в середньому зі збільшенням зросту маса зростає. Для точнішого відображення зв’язку між цими ознаками в рівняння слід увести другий параметр, який був би коефіцієнтом пропорційності при х, тобто Y = – 100 + bx.

Рівняння регресії в такому вигляді описує числове співвідношення варіації ознак х і у в середньому. Коефіцієнт пропорційності при цьому відіграє визначальну роль. Він показує, на скільки одиниць у середньому змінюється у зі зміною х на одиницю. У разі прямого зв’язку b — величина додатна, у разі оберненого — від’ємна.

Подаючи у як функцію х, тим самим абстрагуються від множинності причин, штучно спрощуючи механізм формування варіації у. Аналіз причинних комплексів здійснюється за допомогою множинної регресії.

Різні явища по-різному реагують на зміну факторів. Для того щоб відобразити характерні особливості зв’язку конкретних явищ, статистика використовує різні за функціональним видом регресійні рівняння. Якщо зі зміною фактора х результат у змінюється більш-менш рівномірно, такий зв’язок описується лінійною функцією:

Y = ax + b.

Параметр a (коефіцієнт регресії) — величина іменована, має розмірність результативної ознаки і розглядається як ефект впливу x на y. Параметр b — вільний член рівняння регресії, це значення y при x = 0. Якщо межі варіації x не містять нуля, то цей параметр має лише розрахункове значення.

Параметри рівняння регресії визначаються методом найменших квадратів, основна умова якого — мінімізація суми квадратів відхилень емпіричних значень y від теоретичних Y.

Метод найменших квадратів

Розглянемо суть методу найменших квадратів.

Нехай емпірична формула має вигляд

, (1)

де , , …, ─ невідомі коефіцієнти. Треба знайти такі значення коефіцієнтів , за яких крива (1) якомога ближче проходитиме до всіх точок , , …, , знайдених експериментально. Зрозуміло, що жодна з експериментальних точок не задовольняє точно рівняння (1). Відхилення від підстановки координат у рівняння (1) дорівнюватимуть величинам .

За методом найменших квадратів найкращі значення коефіцієнтів ті, для яких сума квадратів відхилень

(2)

дослідних даних від обчислених за емпіричною формулою (1) найменша. Звідси випливає, що величина (2), яка є функцією від коефіцієнтів , повинна мати мінімум. Необхідна умов мінімуму функції багатьох змінних ─ її частинні похідні мають дорівнювати нулю, тобто

, , …, .

Диференціюючи вираз (2) по невідомих параметрах , матимемо відносно них систему рівнянь:

(3)

Система (3) називається нормальною. Якщо вона має розв’язок, та він єдиний, і буде шуканим.

Якщо емпірична функція (1) лінійна відносно параметрів , то нормальна система (3) буде системою з лінійних рівнянь відносно шуканих параметрів.

Будуючи емпіричні формули, припускатимемо, що експериментальні дані додатні.

Якщо серед значень і є від’ємні, то завжди можна знайти такі додатні числа і , що і .

Тому розв’язування поставленої задачі завжди можна звести до побудови емпіричної формули для додатних значень .

Вираження параметрів парної лінійної регресії через числові характеристики показника і фактора

Нехай між даними існує лінійна залежність. Шукатимемо емпіричну формулу у вигляді

, (4)

де коефіцієнти і невідомі.

Знайдемо значення і , за яких функція матиме мінімальне значення. Щоб знайти ці значення, прирівняємо до нуля частинні похідні функції

Звідси, врахувавши, що , маємо

(5)

Розв’язавши відносно і останню систему, знайдемо

, (6)

. (7)

Або в більш зручному вигляді:

, (8)

Рівняння регресії відбиває закон зв’язку між х і у не для окремих елементів сукупності, а для сукупності в цілому; закон, який абстрагує вплив інших факторів, виходить з принципу «за інших однакових умов».

Важливою характеристикою регресійної моделі є відносний ефект впливу фактора х на результат у — коефіцієнт еластичності:

. (9)

Він показує, на скільки процентів у середньому змінюється результат у зі зміною фактора х на 1%.

Коефіцієнт кореляції

Поряд із визначенням характеру зв’язку та ефектів впливу факторів х на результат у важливе значення має оцінка щільності зв’язку, тобто оцінка узгодженості варіації взаємозв’язаних ознак. Якщо вплив факторної ознаки х на результативну у значний, це виявиться в закономірній зміні значень у зі зміною значень х, тобто фактор х своїм впливом формує варіацію у . За відсутності зв’язку варіація у не залежить від варіації х.

Серед мір щільності зв’язку найпоширенішим є коефіцієнт кореляції Пірсона. Позначається цей коефіцієнт символом r. Оскільки сфера його використання обмежується лінійною залежністю, то і в назві фігурує слово «лінійний». Обчислення лінійного коефіцієнта кореляції r ґрунтується
на відхиленнях значень взаємозв’язаних ознак x і у від середніх.

За наявності прямого кореляційного зв’язку будь-якому значенню х_і> відповідає значення , а відповідає . Узгодженість варіації х і у схематично показано на рис. 1 у вигляді кореляційного поля зі зміщеною системою координат.

Рис. 1. Узгодженість варіації взаємозв’язаних ознак

Точка, координатами якої є середні і , поділяє кореляційне поле на чотири квадранти, в яких по-різному поєднуються знаки відхилень від середніх:

Квадрант	(х – )	(у – )
I	+	+
II	–	+
III	–	–
IV	+	–

Для точок, розміщених у І та ІІІ квадрантах, добуток додатний, а для точок з квадрантів ІІ і ІV — від’ємний. Чим щільніший зв’язок між ознаками х і у, тим більша алгебраїчна сума добутків відхилень . Гранична сума цих добутків дорівнює .

Коефіцієнт кореляції визначається відношенням зазначених сум:

. (10)

Очевидно, що в разі функціонального зв’язку фактична сума відхилень дорівнює граничній, а коефіцієнт кореляції r = ±1; при кореляційному зв’язку абсолютне його значення буде тим більшим, чим щільніший зв’язок.

Коефіцієнт кореляції, оцінюючи щільність зв’язку, указує також на його напрям: коли зв’язок прямий, r — величина додатна, а коли він зворотний — від’ємна.

Наши рекомендации

Вектор залишків простої лінійної регресії та деякі його властивості.

Числові характеристики вибірки

Числові характеристики випадкових величин

Числові характеристики статистичного розподілення

Відшукання параметрів виборчого рівняння прямої лінії середньоквадратичної регресії по несгрупованим даним

Знайти числові характеристики .

Приклад побудови моделі лінійної регресії

Перевірка значимості коефіцієнта детермінації, коефіцієнта кореляції та оцінок параметрів моделі множинної регресії.

Інтервальна оцінка параметрів парної моделі

Перевірити параметр b1 лінійної регресії на значимість.

← Предыдущая страница | Следующая страница →