Поняття гомо- і гетероскедастичності
Для оцінки параметрів моделі МНК повинно виконуватися 6 умов Гаусса-
Маркова. Однією із умов є припущення про сталість дисперсії кожної
випадкової величини ui . Таке явище називається гомоскедастичністю і є
другою умовою Гаусса-Маркова. Математично його можна записати наступним чином: M(ui2 )= su2 = const . (1)
Отже, якщо дисперсія залишків стала для кожного спостереження, тобто
має місце (1), то дана властивість називається гомоскедастичністю.
У прикладних дослідженнях бувають випадки порушення умови
гомоскедастичності, тобто умова (1) не виконується в якомусь конкретному
випадку: M(u ) const i = sui ¹ 2 2 або M(uu ) S ¢ = su × 2 , (2)
де S - деяка матриця.
Така ситуація породжує проблему гетероскедастичності. У даному
випадку отримані оцінки параметрів регресії за методом найменших квадратів будуть неефективними, хоча і незміщеними та обґрунтованими.
Отже, якщо дисперсія залишків змінюється для кожного спостереження
або групи спостережень, тобто має місце (2), то таке явище називається
гетероскедастичністю.
Суть припущення гомоскедастичності полягає в тому, що
варіація кожної випадкової величини ui навколо її математичного сподівання
не залежить від її пояснювальної змінної, то у випадку порушення цієї
властивості можуть виникнути наступні випадки при збільшенні значень x :
1) дисперсія залишків зростає
2) дисперсія залишків спадає
3) дисперсія залишків починає спадати, але з деякого значення x вона
починає зростати
Появу проблеми гетероскедастичності можна передбачити на
початковому етапі дослідження, поклавши в основу знання про характер даних.
Припущення про гомоскедастичність справджується в тих випадках, коли
об’єкти дослідження достатньо однорідні. Наприклад, при дослідженні
надходжень до бюджету від однопрофільних підприємств. Якщо
досліджуються неоднорідні об’єкти, то в такому випадку, як правило, виникає проблема гетероскедастичності. Наприклад, при вивченні залежності прибутку підприємства від розміру основних виробничих фондів, зрозуміло, що для великих підприємств коливання прибутку буде більшим, чим для малих. Отже, гетероскедастичність стає проблемою, коли значення змінних у моделі значно відрізняється в різних спостереженнях. Тому дана проблема може бути усунена, якщо позбутися розкиду даних.
Якщо припущення відносно гомоскедастичності порушується, то раніше
отримані співвідношення обчислення дисперсії параметрів моделі для оцінки
їх значущості та побудови інтервалів довіри використовувати неможливо,
оскільки в деякому випадку вони не збігаються з такими самими оцінками при обчисленні їх за умови, що гетероскедастичність відсутня. Це пов’язано з тим, що дисперсія залишків у першому випадку буде змінним значенням і в той же час вона є складовою при знаходженні дисперсій параметрів моделі.
31. Методи виявлення гетероскедастичності. (Декілька питань по різних тестах)
Перевірити модель на наявність гетероскедастичності можна з допомогою графічних та аналітичних методів. Серед аналітичних методів найбільш поширеними є такі тести:
- рангової кореляції Спірмена;
- Гольтфельда-Кванта;
- Глейзера;
- Уайта.
Тест рангової кореляції Спірмена передбачає найбільш загальні припущення про залежність дисперсій помилок регресії від значень незалежної змінної:
, . (3.10)
При цьому ніяких додаткових припущень відносно виду функцій не робиться. Відмітимо також, що відсутнє обмеження стосовно закону розподілу помилок.
Ідея тесту полягає в тому, що абсолютні величини залишків регресії розглядаються як оцінки , тому при наявності гетероскедастичності і значення будуть корелювати. Проте кореляція в цьому випадку передбачається ранговою.
Рангова кореляція досліджується тоді, коли необхідно встановити силу зв’язку між ординальними (порядковими) змінними. Прикладами ординальних змінних є житлові умови, тестові бали, екзаменаційні оцінки. Джерелом ординальних змінних можуть бути і кількісні змінні, для яких здійснюється процес ранжування. Наприклад, кожну з двох множин чисел , можна ранжувати в порядку зростання. В результаті -тий об’єкт характеризується двома рангами та по змінних та . Тоді коефіцієнт рангової кореляції Спірмена знаходиться за формулою
. (3.11)
Якщо ранги всіх об’єктів рівні між собою, тобто , то . Цей випадок називається повним прямим зв’язком. При повному оберненому зв’язку, коли ранги об’єктів по обох змінних розташовані в оберненому порядку, можна довести, що . У решті випадків .
При перевірці значущості виходять із того, що у випадку правильності нульової гіпотези (про відсутність кореляційного зв’язку між змінними) при статистика
(3.12)
має -розподіл Ст’юдента із ступенями вільності. Тому значущий на рівні , якщо
. (3.13
Тест Голдфелда-Квандта використовується у тому випадку, коли помилки регресії можна вважати нормально розподіленими випадковими величинами. При цьому спостережень має бути хоча б удвічі більше, ніж число оцінюваних параметрів. Як правило, тест застосовується до великих вибірок.
Припустимо, що середні квадратичні відхилення збурень пропорційні значенням пояснюючої змінної . Це означає постійність відносного, а не абсолютного, як у класичній моделі, розкладу збурень регресійної моделі.
Впорядкуємо спостережень в порядку зростання значень і виберемо перших і останніх спостережень (число визначимо пізніше). Тоді гіпотеза про гомоскедастичність буде рівносильна тому, що значення та є вибірковими спостереженнями нормально розподілених випадкових величин, які мають однакові дисперсії.
Зауваження. Для знаходження для двох груп ( та ) необхідно попередньо знайти два емпіричні рівняння для кожної з груп.
Гіпотеза про рівність дисперсій двох нормально розподілених сукупностей, як відомо [4], перевіряється з допомогою критерія Фішера-Снедокора. Нульова гіпотеза про рівність дисперсій двох сукупностей по спостережень (тобто гіпотеза про відсутність гетероскедастичності) відкидається на рівні , якщо
. (3.14)
Відмітимо, що чисельник і знаменник в (3.14) слід було розділити на відповідне число ступенів вільності, проте в даному випадку ці числа однакові і рівні .
Виявляється, що коли вибрати порядку , тоді потужність тесту, тобто імовірність відкинути гіпотезу про відсутність гетероскедастичності, коли насправді гетероскедастичності немає, буде максимальною.
Тест рангової кореляції Спірмена і тест Голдфелда-Квандта дозволяють лише виявити наявність гетероскедастичності, але вони не дають можливості з’ясувати кількісний характер залежності дисперсій помилок регресії від значень незалежної змінної, і, отже, не дають методів усунення гетероскедастичності.
Для досягнення цієї мети необхідні деякі додаткові припущення стосовно характеру гетероскедастичності. Справді, без цих припущень, очевидно, неможливо було б оцінити дисперсій помилок регресії ( ) з допомогою спостережень.
Найбільш простий і часто використовуваний тест на гетероскедастичність – тест Уайта. При його використанні припускається, що дисперсії помилок регресії є однією і тією ж функцією від спостережених значень незалежної змінної, тобто рівняння (3.10) набирають такого виду:
, . (3.15)
Найчастіше функція обирається квадратичною:
, (3.16)
що відповідає тому, що залежить від приблизно лінійно. У випадку гомоскедастичності , тобто вибіркові коефіцієнти регресії , , які є оцінками невідомих чисел , відповідно, незначуще відрізняються від нуля.
Ідея тесту Уайта полягає в оцінці функції з (3.15) за допомогою відповідного рівняння регресії для квадратів залишків:
, , (3.17)
де випадкова величина (за аналогією з із рівняння (2.3)).
Відмітимо, що ліві частини рівнянь (3.15) та (3.17) співпадають, оскільки (див. 2.21)).
Гіпотеза про відсутність гетероскедастичності (умова ) приймається у випадку незначущості регресії (3.17) в цілому (тобто одночасної незначущості теоретичних коефіцієнтів регресії та ).
Якщо обрати функцію у вигляді (3.16), тоді знаходити «вручну» оцінки , , , а також їх середні квадратичні відхилення – достатньо працемісткий процес. Оптимальний шлях – використання персонального комп’ютера із відповідним програмним забезпеченням.
Тест Глейзера аналогічний тесту Уайта, тільки в якості залежної змінної для вивчення гетероскедастичності вибирається не квадрат залишків, а їх абсолютна величина, тобто розглядається регресія
, . (3.18)
В якості функції зазвичай обирається функція виду
, (3.19)
Регресія (3.18) вивчається при різних значеннях , а потім вибирається те конкретне значення, при якому коефіцієнт виявляється найбільш значущим, тобто має найбільше значення -статистики. При цьому в якості значень беруться числа: 1, 2, 3, 1/2, 1/3 тощо. Якщо ж незначущий для всіх розглянутих значень (випадок ), тоді робиться висновок про відсутність гетероскедастичності.
32. Узагальнений МНК.
Система рівнянь для оцінки параметрів моделі на основі методу Ейткена запишеться так: або ‑ вектор оцінок параметрів економ-ої моделі; ‑ матриця не залеж змінних; ‑ матриця, транспон-а до матриці X; ‑ матриця, обернена до матриці кореляції залишків; ‑ матриця, обернена до матриці V, де , а - залишкова дисперсія; Y ‑ вектор залеж змінних. Звідси або Отже, щоб оцінити параметри моделі на основі методу Ейткена, треба сформ-и матрицю S або V. Матриця S має вигляд:
Параметрρ наближено можна визначити на основі залишків вибіркової моделі, оціненої за звичайним 1МНК.
33. Природа автокореляції та її вплив в економетричних моделях.
Одним з основних припущень класичного лінійного регресійного аналізу є припущення про відсутність взаємозв’язку між значеннями стохастичної складової моделі εу різних спостереженнях, тобто припущення
. ( 1 )
Якщо це припущення порушується виникає явище, яке носить назву автокореляції залишків.
aОзначення 1. Автокореляцією залишків називається залежність між послідовними значеннями стохастичної складової моделі .
У випадку автокореляції залишків маємо :
, ( 2 )
і ,як у випадку гетероскедастичності, формально можна записати :
, ( 3 )
де - деяка невідома константа, S – відома квадратна, додатньо визначена матриця розмірністю n×n.
У загальному випадку залежність між значеннями стохастичної складової ε у різних спостереженнях для випадку автокореляції можна подати наступним чином :
, ( 4 )
де : ρ1, ρ2, ... ,ρs – коефіцієнти автокореляції 1,2 і s-го порядку відповідно ; ui – випадкова величина, яка відповідає усім припущенням класичного лінійного регресійного аналізу – тобто вона розподілена за нормальним законом із сталою дисперсією і має нульове математичне сподівання.
Найпростішим і найбільш поширеним випадком автокореляції залишків є випадок ,коли залежність між послідовними значеннями стохастичної складової описується так званою авторегресійною схемою першого порядку – AR(1) яка має наступний вигляд :
. ( 5 )
Якщо ρ додатне ( ρ>0 ), то автокореляція залишків є позитивною, якщо ρ від’ємне ( ρ<0 ), то автокореляція залишків є негативною. При ρ=0 автокореляція залишків відсутня.
Автокореляція залишків найчастіше спостерігається у наступних двох випадках :
1) коли економетрична модель будується на основі часових рядів (у цьому випадку, якщо існує кореляція між послідовними значеннями деякої незалежної змінної, то буде спостерігатися і кореляція між послідовними значеннями стохастичними складової ε, особливо ,якщо використовуються лагові змінні ) ;
2) коли допущена помилка специфікації економетричної моделі – до моделі не включена істотна пояснююча змінна.
Негативними наслідками автокориляції буде :
1) завищені значення дисперсії параметрів моделі ;
2) помилки при використанні t – тестів і F – тестів ;
3) неефективність прогнозів, тобто отримання прогнозів з дуже великою дисперсією.