Реализация основных этапов построения и анализа парной линейной регрессии
2.1. Оценка параметров. Определение вида модели
Для оценки параметров линейных моделей применяют метод наименьших квадратов (МНК).
Методические замечания
Определение теоретической кривой, приближающей экспериментальные данные, методом наименьших квадратов студенты нашего вуза изучают в курсах «Математический анализ» (1 курс), «Теория вероятностей и математическая статистика» (2 курс) и «Статистика» (3 курс). Поэтому здесь целесообразно освежить материал и несколько углубить его.
Можно использовать один из элементов интерактивного обучения – мозговой штурм. Он займет не более 3-4 минут и позволит выяснить уровень информированности студентов о назначении и методике использования МНК.
Алгоритм проведения:
1. Студентам задаются вопросы, например, следующего содержания:
1) Для чего применяется метод наименьших квадратов?
2) Какая идея лежит в основе подбора параметров теоретической кривой?
3) Что такое система нормальных уравнений?
4) Как она выглядит при оценке параметров линейной модели?
2. Преподаватель записывает на доске все прозвучавшие высказывания так, как они прозвучали из уст участников.
3. После завершения «мозговой атаки» необходимо обсудить все варианты ответов, выбрать среди них правильные, отбросить или скорректировать неверные, дополнить материал недостающими знаниями.
В конечном итоге необходимо воспроизвести совместно со студентами следующую основную информацию об МНК.
МНК позволяет так подобрать коэффициенты модели регрессии и , чтобы теоретические значения исследуемого показателя (линия регрессии) находились на минимальном расстоянии от фактических значений по всей длине данных (рис.1).
Рис. 1. Расположение линии регрессии относительно фактических значений исследуемого показателя
Как видно из рисунка 1, линий регрессии можно провести много. Важно, чтобы выбранная линия более всего соответствовала фактическим данным по всей их совокупности (рис.2).
Рис. 2. Линия регрессии с минимальными отклонениями от фактических данных
Такую линию и позволяет подобрать МНК.
Аналитически, оценки и методом наименьших квадратов находятся путем минимизации функции
.
Минимизация функции Q сводится к математической задаче определения точки минимума двух переменных. Эта задача решается нахождением производных функции по каждой переменной (частных производных) и приравнивании их к нулю:
или
Получилась система из двух уравнений с двумя переменными и , решение которой позволяет получить искомые оценки параметров[1]:
Из последнего уравнения имеем равенство
,
которое указывает на то, что линия регрессии проходит через точку с координатами . Однако, если заменить значения переменных X и Y на их отклонения от средних , , то получим ту же линию регрессии только в новых координатах, центр которых переместится в точку , а формулы для оценки параметров примут вид[2]
Найденное решение существует, если
Это условие называется условием идентифицируемости модели. Оно означает, что не все значения совпадают между собой и со своим средним. Если оно не выполняется, то все точки лежат на одной вертикальной прямой (рис.3).
Рис. 3. Условие идентифицируемости не выполняется
Пример
Пусть зависимая переменная Y – квартальная прибыль девяти компаний одной отрасли (в млн. руб.), а фактор X – объем продаж товара этих компаний за квартал (в тыс. шт.). Исходные данные представлены в таблице 1.
Таблица 1
№ п.п. | Y | X |
Решение:
1) найти параметры уравнения линейной регрессии, дать экономическую интерпретацию коэффициента регрессии
Диаграмма рассеяния (рис. 4) демонстрирует наличие прямой и достаточно тесной связи переменных.
Рис. 4. Диаграмма рассеяния исходных данных
Для решения задачи построим расчетную таблицу 2:
№ п.п. | Yi | X | X-Xcp | (X-Хcp)^2 | Y-Ycp | (X-Xcp)*(Y-Ycp) | Yip | ei |
-9 | -31 | 31.65 | -6.65 | |||||
-7 | -22 | 37.07 | -3.07 | |||||
-4 | -14 | 45.2 | -3.2 | |||||
-6 | -5 | 39.78 | 11.22 | |||||
-1 | 56.04 | -1.04 | ||||||
64.17 | 2.83 | |||||||
75.01 | -2.01 | |||||||
69.59 | 6.41 | |||||||
85.85 | -4.85 | |||||||
Сумма | -0.36 | |||||||
Среднее |
Таблица 2
Уравнение регрессии:
Yi=-90.3 + 2.71*Xi + еi,
при этом
Yiр=-90.3 + 2.71*Xi .
Предпоследний столбец в таблице 1 получен в результате подстановки в модель регрессии фактических значений фактора. Последний столбец представляет ошибки моделирования .
Экономический смысл коэффициента регрессии:
при изменении объема продаж компании (Х) на 1 тысячу штук прибыль (Y) будет меняться в ту же сторону на 2,71 млн. руб.
Результат моделирования представлен на рисунке 5.
Рис. 5. Результаты приближения фактических значений прибыли линией регрессии
Замечание.
Уравнение регрессии и целый ряд его характеристик (в т.ч. (Предсказанное Y) и (Остатки)) можно получить, воспользовавшись инструментом Регрессия в пакете Анализ данных в Excel (таблицы 3, 4).
Таблица 3
Коэффициенты | |
Y-пересечение | -90.33160622 |
X | 2.70984456 |
Таблица 4
Наблюдение | Предсказанное Y | Остатки |
31.61 | -6.61 | |
37.03 | -3.03 | |
45.16 | -3.16 | |
39.74 | 11.26 | |
56.00 | -1.00 | |
64.13 | 2.87 | |
74.97 | -1.97 | |
69.55 | 6.45 | |
85.81 | -4.81 |
■
Анализ вариации зависимой переменной в уравнении регрессии[3]
Особую роль в эконометрических исследованиях играют различные виды дисперсий (вариаций). Дисперсия – это величина, характеризующая степень отклонения (разброса, рассеяния) каких-либо величин друг относительно друга. В зависимости от величин рассматривают разные дисперсии.
Рассмотрим вариацию (дисперсию, разброс) значений зависимой переменной Y вокруг их среднего значения .
Разобьем отклонения на две части
.
Тогда дисперсия Y представляется в виде трех слагаемых
.
Можно показать (самостоятельно), что третье слагаемое в этом равенстве равно нулю. Таким образом,
. (3)
Пояснения к формуле (3)
1. TSS = – общая сумма квадратов отклонений (общая дисперсия), которая характеризует степень разброса фактических значений исследуемой переменной Y около их среднего значения (рис.6);
Рис. 6. Общая сумма квадратов отклонений
1. RSS = – сумма квадратов отклонений, объясненная регрессией (факторная дисперсия), характеризует степень отклонения расчетных значений исследуемой переменной от среднего значения (рис.7);
Рис. 7. Объясненная (факторная) сумма квадратов отклонений
2. ESS = – остаточная сумма квадратов отклонений (остаточная дисперсия), оценивает степень отклонения линии регрессии от фактических значений исследуемого показателя (рис.8).
Рис. 8. Остаточная сумма квадратов отклонений
Любая сумма квадратов отклонений связана с числом степеней свободы, т.е. числом свободы независимого варьирования признака. Число степеней свободы равно разности между числом независимых наблюдений случайной величины n и числом связей, ограничивающих свободу их изменения. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов[4].
Для общей суммы квадратов TSS = необходимо (n-1) независимых отклонений, т.к. по совокупности из n единиц после расчета среднего уровня свободно варьируют лишь (n-1) отклонение.
Факторная сумма квадратов RSS = при линейной регрессии зависит только от одной константы – коэффициента регрессии . Поэтому данная сумма имеет одну степень свободы.
Подобно равенству (3), можно установить равенство между числом степеней свободы соответствующих сумм квадратов
,
из которого видно, что число степеней свободы остаточной суммы квадратов при линейной регрессии составляет (n-2). Действительно, две степени свободы теряются при определении двух параметров регрессии из системы нормальных уравнений.
Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы:
,
,
.
Дисперсии на одну степень свободы приводят различные дисперсии к сравнимому виду.
Замечание
Различные суммы квадратов отклонений, число степеней свободы и дисперсии на одну степень свободы можно получить в отчете по регрессионному анализу (таблица Дисперсионный анализ). Соответствующие результаты по данным нашего примера приведены в таблице 5.
Таблица 5
Дисперсионный анализ | |||
df | SS | MS | |
Регрессия | 2834.50 | 2834.50 | |
Остаток | 267.50 | 38.21 | |
Итого | 3102.00 |
Пояснения к таблице
1. Столбец df – число степеней свободы.
2. Столбец SS – суммы квадратов, соответственно факторная, остаточная, общая.
3. Столбец MS – дисперсии на одну степень свободы, соответственно факторная и остаточная.
Проверка качества модели
В задачу регрессионного анализа входит не только построение самой модели, но и исследование ее соответствия реальным (фактическим) данным.
Оценки и параметров регрессионного уравнениядолжны обладать определенными свойствами. Они должны быть несмещенными, состоятельными и эффективными.
Несмещенность оценок означает, что математическое ожидание остатков равно 0.
Оценки считаютсяэффективными, если они характеризуются наименьшей дисперсией.
Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки.
Указанные критерии оценок (несмещенность, состоятельность и эффективность) обязательно учитываются при разных способах оценивания. МНК строит оценки регрессии на основе минимизации суммы квадратов остатков. Поэтому для проверки названных критериев важно исследовать поведение остаточных величин регрессии. Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собойпредпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии.
Исследования остатков предполагают проверку наличия следующих пяти предпосылок МНК:
1) случайный характер остатков;
2) независимость остатков или отсутствие их автокорреляции;
3) остатки подчиняются нормальному распределению;
4) нулевая средняя величина остатков (или их математическое ожидание), не зависящая от уровней фактора Х;
5) гомоскедастичность остатков – дисперсия каждого отклонения одинакова для всех значений фактора.
Теорема Гаусса-Маркова.Если регрессионная модель удовлетворяет предпосылкам1, 2, 4, 5,то оценки и имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.
Выполнение предпосылки 3 (нормальность распределения остатков) позволяет использовать критерии t и F (см. ниже)при анализе свойств модели и ее параметров.
Проверка первых четырех предпосылок представляет собой исследование адекватности модели определенным статистическим критериям. Этот материал подробно рассмотрен в курсе ЭММиПМ в теме «Моделирование и прогнозирование временных рядов»[5].
Рассмотрим подробнее исследование гомоскедастичности остатков. Остатки считаются гомоскедастичными, если для каждого значения фактора они имеют одинаковую дисперсию. Иными словами остатки распределены вдоль оси абсцисс случайно с одинаковой частотой и амплитудой. В этом случае на графике остатков они расположены в виде достаточно узкой горизонтальной полосы[6] (рис.9).
Рис. 9. Гомоскедастичные остатки
Если это условие не соблюдается, то имеет место гетероскедастичность остатков. Гетероскедастичные остатки имеют направленность в своем распределении (рис. 10).
Рис. 10. Гетероскедастичные остатки
При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда – Квандта, разработанный в 1965 году. Тест, предложенный этими учеными, включает в себя следующие шаги:
1. Упорядочение n наблюдений по мере возрастания переменной X.
2. Исключение из рассмотрения С центральных наблюдений; при этом (n-C):2>p, где р – число оцениваемых параметров ( ).
3. Разделение совокупности из (n-C) наблюдений на две группы (соответственно с малыми и большими значениями фактора Х) и определение по каждой из групп уравнений регрессии.
4. Определение остаточной суммы квадратов для первой (S1) и второй (S2) групп и нахождение их отношения: R=S1:S2 (в числителе должна стоять большая величина).
Вывод о гомоскедастичности делается с помощью F-критерия Фишера с (n-C-2p):2 (р – число оцениваемых в уравнении параметров; для парной регрессии р=2) степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.
Замечание
Табличное значение F-критерия можно найти с помощью статистической функции FРАСПОБР.
Протестируем данные нашего примера на наличие гомоскедастичности остатков.
Пример (продолжение).
2) проверить выполнение предпосылок МНК:
Проверку предпосылок 1 – 4 выполнить самостоятельно, используя материал дисциплины ЭММиПМ.
Проверка предпосылки 5:
1. Упорядочим переменную Y по возрастанию фактора Х (в Excel для этого можно использовать команду Данные – Сортировка – По возрастанию Х).
Исходные данные
Y | X |
Упорядоченные данные
Y | X |
2. Уберем из середины упорядоченной совокупности С=1/4*n=1/4*9 2 значения. В результате получим две совокупности по ½*(9-2)=4 значения соответственно с малыми и большими значениями Х.
3. Для каждой совокупности в отдельности выполним регрессионный анализ (рисунок 11).
Для первой совокупности:
Дисперсионный анализ | |||
df | SS | MS | |
Регрессия | 200.0769 | 200.0769 | |
Остаток | 169.9231 | 84.96154 | |
Итого |
Для второй совокупности:
Дисперсионный анализ | |||
df | SS | MS | |
Регрессия | 78.75 | 78.75 | |
Остаток | |||
Итого | 102.75 |
Рис. 11.Фрагменты регрессионного анализа для первой и второй совокупностей соответственно
4. Найдем отношение полученных остаточных сумм квадратов (в числителе должна быть большая сумма):
R= 169,9/24 = | 7.08 |
5. Вывод о наличии гомоскедастичности остатков делаем с помощью F-критерия Фишера с уровнем значимости и двумя одинаковыми степенями свободы:
Число степеней свободы: | (9-1-2*2):2=2 |
Fтаб(0,05;2;2)= |
Так как , то обнаруживается наличие гомоскедастичности в остатках модели по отношению к фактору Х.
■
Замечание
При нарушении гомоскедастичности остатков модели и наличии автокорреляции в них рекомендуется заменять традиционный МНК обобщенным МНК (ОМНК), в основе которого лежит работа с предварительно преобразованными исходными данными[7].
Для анализа качества регрессионных моделей используется ряд дополнительных специфических характеристик. К ним относится, например, индекс корреляции:
.
Этот коэффициент является универсальным, так как отражает тесноту связи и точность модели, может использоваться при любой форме связи переменных. Для парной линейной модели индекс корреляции равен коэффициенту парной корреляции, т.е.
.
На практике чаще используется его квадрат, который называется коэффициентом детерминации:
.
, иногда выражают не в долях, а в процентах.
Коэффициент детерминации показывает,какая доля вариации (случайных колебаний, общей дисперсии) признака Y учтена в построенной модели и обусловлена случайными колебаниями включенного в нее фактора. Качество модели тем лучше, чем ближе к 1. Иными словами характеризует степень влияния включенных в модель факторов. Влияние факторов, не учтенных в модели, определяется тогда величиной 1- . Модель тем лучше, чем больше и меньше 1- .
Для оценки уровня точности регрессионных моделей используется также средняя относительная ошибка аппроксимации
.
Величина показывает, на сколько процентов в среднем фактические значения исследуемой величины отличаются от расчетных. Модель тем точнее, чем меньше . Часто наиболее приемлемыми считают значения .
В качестве меры точности модели применяют также оценку остаточной дисперсии или квадратный корень из нее , называемый стандартной ошибкой модели или среднеквадратическим отклонением.
Точность модели тем лучше, чем меньше ее стандартная ошибка (это же имеет место и при использовании для оценки уровня точности других видов ошибок). Однако, понятие «чем меньше» является относительным и зависит от порядка чисел, представляющих данные задачи. Поэтому модель считается точной, если стандартная ошибка модели меньше стандартной ошибки (среднеквадратического отклонения) результативного признака Y . Стандартную ошибку легко найти в Excel с помощью статистической функции СТАНДОТКЛОН.
Пример (продолжение).
3) вычислить коэффициент детерминации, найти среднюю относительную ошибку аппроксимации, сделать вывод о качестве модели
Необходимые предварительные расчеты представлены в таблице 6.
Таблица 6
№ пп | Y | Y-Yср | e | e^2 | eотн | (Y-Yср)^2 | X^2 |
-31 | -6.65 | 44.22 | 26.6 | ||||
-22 | -3.07 | 9.42 | 9.03 | ||||
-14 | -3.2 | 10.24 | 7.62 | ||||
-5 | 11.22 | 125.89 | |||||
-1 | -1.04 | 1.08 | 1.89 | ||||
2.83 | 8.01 | 4.22 | |||||
-2.01 | 4.04 | 2.75 | |||||
6.41 | 41.09 | 8.43 | |||||
-4.85 | 23.52 | 5.99 | |||||
Сумма | -0.36 | 267.52 | 88.54 | ||||
Среднее | 9.84 |
;
вывод: 91,4 % случайной вариации исследуемого признака Y (прибыль) учтено в построенной модели и обусловлено случайными колебаниями включенного в нее фактора Х (объем продаж); влияние неучтенных в модели факторов ( ) около 9 %.
вывод: фактические значения прибыли Y отличаются от модельных в среднем на 9.8 %; уровень точности модели достаточный.
Cтандартная ошибка модели и коэффициент детерминации выводятся в первой таблице «Регрессионная статистика» отчета по регрессионному анализу. Для нашей модели эта таблица представлена на рисунке 12.
Регрессионная статистика | |
Множественный R | 0.956 |
R-квадрат | 0.914 |
Нормированный R-квадрат | 0.901 |
Стандартная ошибка | 6.182 |
Наблюдения | 9.000 |
Рисунок 12. Фрагмент регрессионного анализа
В нашем случае стандартная ошибка модели , а среднеквадратическое отклонение (или стандартная ошибка) Y . Так как < , то модель регрессии является точной.
■