Метод аналітичного групування (п. 2.2)
Розділимо задану сукупність пар (хі; уі) на групи за факторною ознакою Х, використавши поділ, вже зроблений у таблиці 3.4. В результаті одержимо групи (тобто, інтервали) пар (хі; уі), наведені в таблиці 3.5.
Для кожної з 3-х груп обчислимо групові середні та (k= ) і приймаємо за значення хk факторної ознаки Х:
х1 = (50,3+40,8+55,0+44,0+67,7+65,9)≈53,95;
(203,1+200,3+242,7+228,0+308,5+257,0)≈239,93.
Аналогічно обчислюємо х2=102,27; =342,84; х3=169,40; =434,10.
Таблиця 3.5.
Робоча таблиця
№ гру-пи (k) | Інтервал значень Х | Пари (хі; уі) | ||||||||||
і | ||||||||||||
до 70 | хі | 50,3 | 40,8 | 55,0 | 44,0 | 67,7 | 65,9 | – | – | – | – | |
уі | 203,1 | 200,3 | 242,7 | 228,0 | 308,5 | 257,0 | – | – | – | – | ||
70 ; 140 | хі | 79,6 | 89,4 | 72,3 | 110,5 | 120,0 | 131,7 | 92,8 | 136,0 | 97,0 | 93,4 | |
уі | 308,6 | 316,2 | 280,1 | 358,9 | 360,6 | 365,4 | 340,8 | 422,0 | 362,0 | 310,8 | ||
140 і більше | хі | 178,3 | 143,7 | 165,4 | 190,2 | – | – | – | – | – | – | |
уі | 420,0 | 380,7 | 425,4 | 510,3 | – | – | – | – | – | – |
Знайдені значення хk факторної ознаки Х та відповідні середні значення результативної ознаки Y заносимо в таблицю 3.6, яка й буде являти собою лінію регресії, задану таблично:
Таблиця 3.6
Таблично задана лінія регресії
k | xk | |
53,95 102,27 169,40 | 239,93 342,84 434,10 |
Для наочності побудуємо графік лінії регресії. Для цього в прямокутній системі координат зобразимо точки з координатами (xk; ) (тобто кореляційне поле) і послідовно сполучимо їх відрізками прямих (див. рис.3.7).
Із аналізу таблиці 3.6 і графіка (рис. 3.7) можна зробити такий висновок: більшим витратам на утримання відповідають більші перерахування до бюджету, що підтверджує попередній висновок про можливість існування прямого зв’язку між Х та Y, зроблений за результатами комбінаційного групування. При цьому із вигляду графіка можна припустити, що зростання Y має, можливо, сповільнений характер.
|
Рис. 3.7. Графік таблично заданої лінії регресії
3. Метод дисперсійного аналізу (п. 2.3)
Усю сукупність 20-ти пар (хі; уі), що вивчається, розділимо за факторною ознакою на 3 групи, використавши поділ, зроблений у таблиці 3.5. За формулою (3.1) обчислимо загальну середню для всієї сукупності значень уі (і= ):
.
За формулою (3.3) обчислимо загальну дисперсію ознаки Y:
.
За формулою (3.6) обчислимо міжгрупову дисперсію, використавши раніше знайдені значення групових середніх (табл. 3.6) і частот fk (табл. 3.4):
.
За формулою (3.8) обчислюємо спостережене значення кореляційного відношення:
звідки витікає, що 74,7 % загальної варіації ознаки Y пов’язано з варіацією ознаки Х, а це свідчить про можливість існування залежності Y від Х.
Для формального підтвердження або спростування даного припущення знайдемо критичне значення величини η2 для рівня значущості . За таблицею критичних значень (додаток 2) для степенів вільності k1=m–1=3–1=2, k2=n–m=20–3=17 знаходимо = =0,297. Оскільки , то з імовірністю =0,95 можна вважати, що Y істотно залежить від Х. Для оцінки щільності зв’язку застосовуємо правило трисекції: 0,7 + 0,3=0,508; 0,3 + 0,7=0,789. Оскільки [0,7 + 0,3; 0,3 + 0,7], то щільність зв’язку будемо вважати помірною.
Метод КРА (п. 2.4)
Вважатимемо, що для вибору виду рівняння регресії (тобто, виду функції f(x)) у нас немає ніякої іншої інформації, крім заданої сукупності пар (хі; уі). Це означає, що вид функції f(x) визначатиметься тільки видом кореляційного поля (рис. 3.6), із візуального аналізу якого можна припустити, що залежність Y від Х має бути лінійною або нелінійною (зокрема, квадратичною) з незначною нелінійністю. Певним аргументом на користь останнього припущення може бути вже побудований графік лінії регресії, заданої таблично (рис. 3.7). Оскільки однозначний і беззаперечний вибір виду функції f(x) в даному випадку зробити досить складно, то проведемо повне дослідження для обох видів рівняння регресії, після чого остаточно виберемо кращий варіант за критерієм мінімума регресійної дисперсії.
Для обчислення параметрів а, b, р, q, r лінійної а+bх та квадратичної р+qx+rx2 залежностей застосовуємо загальноприйнятий метод найменших квадратів, за яким вищенаведені параметри знаходяться із систем лінійних алгебраїчних рівнянь відповідно (3.9) та (3.10).
Оскільки в нашому прикладі значення хі та уі є досить великими, то перейдемо до умовних варіант та , вибравши А=120, С=350, С=D=1 та округлюючи значення та до десятих:
; . (3.22)
Обчислення коефіцієнтів систем (3.9) та (3.10) зручно організувати в таблиці (табл. 3.7).
В результаті одержуємо системи (3.9) та (3.10) у вигляді:
Розв’язавши системи будь-яким з відомих методів, одержуємо умовні рівняння регресії: ; .
Таблиця 3.7
Розрахункова таблиця
і | · | · | |||||
-7,0 -7,9 -6,5 -7,6 -5,2 -5,4 -4,0 -3,1 -4,8 -1,0 0,0 1,8 -2,7 1,6 -2,3 -2,7 5,8 2,4 4,5 7,0 | 49,00 62,41 42,25 57,76 27,04 29,16 16,00 9,61 23,04 1,00 0,00 3,24 7,29 2,56 5,29 7,29 33,64 5,76 20,25 49,00 | -343,00 -493,04 -274,63 -438,98 -140,61 -157,46 -64,00 -29,79 -110,59 -1,00 0,00 5,83 -19,68 4,10 -12,17 -19,68 195,11 13,82 91,13 343,00 | 2401,00 3895,01 1785,06 3336,22 731,16 850,31 256,00 92,35 530,84 1,00 0,00 10,50 53,14 6,55 27,98 53,14 1131,65 33,18 410,06 2401,00 | -14,7 -15,0 -10,7 -12,2 -4,2 -9,3 -4,1 -3,4 -7,0 0,9 1,1 1,5 -0,9 7,2 1,2 -3,9 7,0 3,1 7,5 16,0 | 102,90 118,50 69,55 92,72 21,84 50,22 16,40 10,54 33,60 -0,90 0,00 2,70 2,43 11,52 -2,76 10,53 40,60 7,44 33,75 112,00 | -720,30 -936,15 -452,08 -704,67 -113,57 -271,19 -65,60 -32,67 -161,28 0,90 0,00 4,86 -6,56 18,43 6,35 -28,43 235,48 17,86 151,88 784,00 | |
∑ | -37,1 | 451,59 | -1451,64 | 18006,16 | -39,9 | 733,58 | -2272,75 |
Перейдемо до фактичних рівнянь регресії, підставивши в останні два рівняння вирази та відповідно через х та у за формулами (3.22):
0,1· –35=1,202+1,723(0,1·х–12), звідки =155,26+1,723·х;
0,1· –35=2,103+1,649(0,1· х–12) – 0,046(0,1· х–12)2,
звідки =106,91+2,753· х–0,0046 · х2.
Для часткової перевірки одержаних рівнянь побудуємо їх графіки на кореляційному полі (рис. 3.6). Візуально переконуємось у тому, що точки останнього розташовані приблизно порівну і рівномірно по обидва боки уздовж кожного з графіків, що не дає підстав для сумніву у правильності знайдених рівнянь регресії. Крім того, із візуального аналізу рис. 3.6 можна припустити, що парабола більш адекватно апроксимує залежність Y від Х, оскільки точки кореляційного поля розташовані навколо неї більш рівномірно, ніж навколо прямої. Для формальної перевірки останнього припущення обчислимо регресійну дисперсію для обох ліній регресії за формулою (3.11). Обчислення зручно організувати в таблиці (табл. 3.8, графи 1-6). За даними таблиці 3.8 знаходимо:
;
.
Як бачимо, , що підтверджує попередній висновок, зроблений на основі візуального аналізу рис. 3.6 про більшу адекватність квадратичної моделі лінії регресії, яку й обираємо для подальшого дослідження.
Із графічного зображення квадратичної лінії регресії (рис. 3.6) витікає висновок: перерахування до бюджету уповільнено зростають зі збільшенням витрат на утримання, що підтверджує попередній висновок, зроблений на основі візуального аналізу рис. 3.7.
Для оцінки істотності та щільності зв’язку обчислимо коефіцієнт детермінації R2 за формулою (3.15), для чого необхідно попередньо обчислити загальну та факторну дисперсії ознаки Y за формулами відповідно (3.3) та (3.16). Обчислення зручно організувати в таблиці (див. табл. 3.8, графа 7), яку будуємо з урахуванням вже попередньо обчислених у п. 3 значень =330,22 та =6267,91 і значень , наведених у таблиці 3.8 (графа 4). За результатами обчислень знаходимо:
;
.
За таблицею критичних значень (додаток 2) для рівня значущості і числа степенів вільності k1=m–1=3–1=2, k2=n–m=20–3=17 знаходимо критичне значення коефіцієнту детермінації: =0,297. Оскільки > , то вибрану квадратичну залежність з надійністю 95 % можна вважати істотною.
Для оцінки щільності зв’язку застосуємо правило трисекції: 0,7 + 0,3=0,508; 0,3 + 0,7=0,789. Оскільки (0,3 + 0,7; 1], то щільність зв’язку слід вважати високою.
Таблиця 3.8
Розрахункова таблиця
і | хі | (уі– )2 | (уі– )2 | ( – )2 | |||||||
50,3 40,8 55,0 44,0 67,7 65,9 79,6 89,4 72,3 110,5 120,0 131,7 92,8 136,0 97,0 93,4 178,3 143,7 165,4 190,2 | 241,8 225,4 250,0 230,9 272,0 268,9 292,6 309,6 280,0 346,2 362,7 382,9 315,5 390,4 322,8 316,5 463,7 403,7 441,4 484,4 | 233,75 211,58 244,41 219,14 272,20 268,36 296,90 316,26 281,91 354,95 371,03 389,69 322,77 396,24 330,67 323,91 451,53 407,53 436,41 464,12 | 1497,69 630,01 53,29 8,41 1332,25 141,61 256,00 43,56 0,01 161,29 4,41 306,25 640,09 998,56 1536,64 32,49 1909,69 529,00 256,00 670,81 | 939,42 127,24 2,92 78,50 1317,69 129,05 136,89 0,00 3,28 15,60 108,78 590,00 325,08 663,58 981,57 171,87 994,14 719,85 121,22 2132,59 | 9306,46 14075,45 7363,36 12338,77 3366,32 3826,66 1110,22 194,88 2333,86 611,57 1665,46 3536,68 55,50 4358,64 0,20 39,82 14716,12 5976,84 11276,32 17929,21 | ||||||
Σ | 10990,06 | 9559,27 | 114082,34 | ||||||||
5. Метод кореляції знаків Фехнера (п. 2.5)
Оскільки (див. табл.3.3) всі значення різні і всі значення теж різні, то застосування методу збігу знаків можна вважати допустимим.
Для знаходження чисел A і B побудуємо таблицю знаків відхилень хі та уі від відповідно та (табл. 3.10).
Таблиця 3.10
Розрахункова таблиця
і | ||||||||||||||||||||
знак хі– | – | – | – | – | – | – | – | – | – | + | + | + | – | + | – | – | + | + | + | + |
знак уі– | – | – | – | – | – | – | – | – | – | + | + | + | + | + | + | – | + | + | + | + |
Із таблиці 3.10 видно, що A=18, B=2. Тоді спостережене значення коефіцієнта кореляції знаків обчислюємо за формулою (3.17):
.
За таблицею додатку 4 знайдемо критичне значення коефіцієнту збігу знаків для n=20 і : = (20; 0,05)=0,5. Оскільки > , то з надійністю 95% зв'язок вважаємо істотним, тобто, існуючим.
Оцінимо щільність зв’язку за правилом трисекції:
Оскільки то з тією ж надійністю 95% будемо вважати зв'язок помірним. Таким чином, підтверджується висновок про наявність прямого помірного (хоча і близького до щільного) зв’язку між ознаками, зроблений у п.2.3 за результатами вирішення тієї ж задачі методом дисперсійного аналізу.