Реализация основных этапов построения и анализа парной линейной регрессии

2.1. Оценка параметров. Определение вида модели

Для оценки параметров линейных моделей применяют метод наименьших квадратов (МНК).

Методические замечания

Определение теоретической кривой, приближающей экспериментальные данные, методом наименьших квадратов студенты нашего вуза изучают в курсах «Математический анализ» (1 курс), «Теория вероятностей и математическая статистика» (2 курс) и «Статистика» (3 курс). Поэтому здесь целесообразно освежить материал и несколько углубить его.

Можно использовать один из элементов интерактивного обучения – мозговой штурм. Он займет не более 3-4 минут и позволит выяснить уровень информированности студентов о назначении и методике использования МНК.

Алгоритм проведения:

1. Студентам задаются вопросы, например, следующего содержания:

1) Для чего применяется метод наименьших квадратов?

2) Какая идея лежит в основе подбора параметров теоретической кривой?

3) Что такое система нормальных уравнений?

4) Как она выглядит при оценке параметров линейной модели?

2. Преподаватель записывает на доске все прозвучавшие высказывания так, как они прозвучали из уст участников.

3. После завершения «мозговой атаки» необходимо обсудить все варианты ответов, выбрать среди них правильные, отбросить или скорректировать неверные, дополнить материал недостающими знаниями.

В конечном итоге необходимо воспроизвести совместно со студентами следующую основную информацию об МНК.

МНК позволяет так подобрать коэффициенты модели регрессии Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru и , чтобы теоретические значения исследуемого показателя (линия регрессии) находились на минимальном расстоянии от фактических значений по всей длине данных (рис.1).

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Рис. 1. Расположение линии регрессии относительно фактических значений исследуемого показателя

Как видно из рисунка 1, линий регрессии можно провести много. Важно, чтобы выбранная линия более всего соответствовала фактическим данным по всей их совокупности (рис.2).

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Рис. 2. Линия регрессии с минимальными отклонениями от фактических данных

Такую линию и позволяет подобрать МНК.

Аналитически, оценки Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru и методом наименьших квадратов находятся путем минимизации функции

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru .

Минимизация функции Q сводится к математической задаче определения точки минимума двух переменных. Эта задача решается нахождением производных функции по каждой переменной (частных производных) и приравнивании их к нулю:

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

или

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Получилась система из двух уравнений с двумя переменными Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru и , решение которой позволяет получить искомые оценки параметров[1]:

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Из последнего уравнения имеем равенство

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru ,

которое указывает на то, что линия регрессии проходит через точку с координатами Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru . Однако, если заменить значения переменных X и Y на их отклонения от средних , , то получим ту же линию регрессии только в новых координатах, центр которых переместится в точку Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru , а формулы для оценки параметров примут вид[2]

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Найденное решение существует, если

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Это условие называется условием идентифицируемости модели. Оно означает, что не все значения Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru совпадают между собой и со своим средним. Если оно не выполняется, то все точки лежат на одной вертикальной прямой Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru (рис.3).

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Рис. 3. Условие идентифицируемости не выполняется

Пример

Пусть зависимая переменная Y – квартальная прибыль девяти компаний одной отрасли (в млн. руб.), а фактор X – объем продаж товара этих компаний за квартал (в тыс. шт.). Исходные данные представлены в таблице 1.

Таблица 1

№ п.п.	Y	X

Решение:

1) найти параметры уравнения линейной регрессии, дать экономическую интерпретацию коэффициента регрессии

Диаграмма рассеяния (рис. 4) демонстрирует наличие прямой и достаточно тесной связи переменных.

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Рис. 4. Диаграмма рассеяния исходных данных

Для решения задачи построим расчетную таблицу 2:

№ п.п.	Yi	X	X-Xcp	(X-Хcp)^2	Y-Ycp	(X-Xcp)*(Y-Ycp)	Yip	e_i
			-9		-31		31.65	-6.65
			-7		-22		37.07	-3.07
			-4		-14		45.2	-3.2
			-6		-5		39.78	11.22
					-1		56.04	-1.04
							64.17	2.83
							75.01	-2.01
							69.59	6.41
							85.85	-4.85
Сумма								-0.36
Среднее

Таблица 2

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Уравнение регрессии:

Y_i=-90.3 + 2.71*X_i + е_i,

при этом

Y_i_р=-90.3 + 2.71*X_i .

Предпоследний столбец в таблице 1 получен в результате подстановки в модель регрессии фактических значений фактора. Последний столбец представляет ошибки моделирования Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru .

Экономический смысл коэффициента регрессии:

при изменении объема продаж компании (Х) на 1 тысячу штук прибыль (Y) будет меняться в ту же сторону на 2,71 млн. руб.

Результат моделирования представлен на рисунке 5.

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Рис. 5. Результаты приближения фактических значений прибыли линией регрессии

Замечание.

Уравнение регрессии и целый ряд его характеристик (в т.ч. Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru (Предсказанное Y) и (Остатки)) можно получить, воспользовавшись инструментом Регрессия в пакете Анализ данных в Excel (таблицы 3, 4).

Таблица 3

	Коэффициенты
Y-пересечение	-90.33160622
X	2.70984456

Таблица 4

Наблюдение	Предсказанное Y	Остатки
	31.61	-6.61
	37.03	-3.03
	45.16	-3.16
	39.74	11.26
	56.00	-1.00
	64.13	2.87
	74.97	-1.97
	69.55	6.45
	85.81	-4.81

■

Анализ вариации зависимой переменной в уравнении регрессии[3]

Особую роль в эконометрических исследованиях играют различные виды дисперсий (вариаций). Дисперсия – это величина, характеризующая степень отклонения (разброса, рассеяния) каких-либо величин друг относительно друга. В зависимости от величин рассматривают разные дисперсии.

Рассмотрим вариацию (дисперсию, разброс) Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru значений зависимой переменной Y вокруг их среднего значения .

Разобьем отклонения Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru на две части

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru .

Тогда дисперсия Y представляется в виде трех слагаемых

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru .

Можно показать (самостоятельно), что третье слагаемое в этом равенстве равно нулю. Таким образом,

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru . (3)

Пояснения к формуле (3)

1. TSS = Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru – общая сумма квадратов отклонений (общая дисперсия), которая характеризует степень разброса фактических значений исследуемой переменной Y около их среднего значения (рис.6);

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Рис. 6. Общая сумма квадратов отклонений

1. RSS = Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru – сумма квадратов отклонений, объясненная регрессией (факторная дисперсия), характеризует степень отклонения расчетных значений Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru исследуемой переменной от среднего значения (рис.7);

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Рис. 7. Объясненная (факторная) сумма квадратов отклонений

2. ESS = Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru – остаточная сумма квадратов отклонений (остаточная дисперсия), оценивает степень отклонения линии регрессии Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru от фактических значений исследуемого показателя (рис.8).

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Рис. 8. Остаточная сумма квадратов отклонений

Любая сумма квадратов отклонений связана с числом степеней свободы, т.е. числом свободы независимого варьирования признака. Число степеней свободы равно разности между числом независимых наблюдений случайной величины n и числом связей, ограничивающих свободу их изменения. Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Число степеней свободы должно показать, сколько независимых отклонений из n возможных требуется для образования данной суммы квадратов[4].

Для общей суммы квадратов TSS = Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru необходимо (n-1) независимых отклонений, т.к. по совокупности из n единиц после расчета среднего уровня свободно варьируют лишь (n-1) отклонение.

Факторная сумма квадратов RSS = Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru при линейной регрессии зависит только от одной константы – коэффициента регрессии Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru . Поэтому данная сумма имеет одну степень свободы.

Подобно равенству (3), можно установить равенство между числом степеней свободы соответствующих сумм квадратов

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru ,

из которого видно, что число степеней свободы остаточной суммы квадратов при линейной регрессии составляет (n-2). Действительно, две степени свободы теряются при определении двух параметров регрессии из системы нормальных уравнений.

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы:

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru ,

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru .

Дисперсии на одну степень свободы приводят различные дисперсии к сравнимому виду.

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Замечание

Различные суммы квадратов отклонений, число степеней свободы и дисперсии на одну степень свободы можно получить в отчете по регрессионному анализу (таблица Дисперсионный анализ). Соответствующие результаты по данным нашего примера приведены в таблице 5.

Таблица 5

Дисперсионный анализ
	df	SS	MS
Регрессия		2834.50	2834.50
Остаток		267.50	38.21
Итого		3102.00

Пояснения к таблице

1. Столбец df – число степеней свободы.

2. Столбец SS – суммы квадратов, соответственно факторная, остаточная, общая.

3. Столбец MS – дисперсии на одну степень свободы, соответственно факторная и остаточная.

Проверка качества модели

В задачу регрессионного анализа входит не только построение самой модели, но и исследование ее соответствия реальным (фактическим) данным.

Оценки Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru и параметров регрессионного уравнениядолжны обладать определенными свойствами. Они должны быть несмещенными, состоятельными и эффективными.

Несмещенность оценок означает, что математическое ожидание остатков равно 0.

Оценки считаютсяэффективными, если они характеризуются наименьшей дисперсией.

Состоятельность оценок характеризует увеличение их точности с увеличением объема выборки.

Указанные критерии оценок (несмещенность, состоятельность и эффективность) обязательно учитываются при разных способах оценивания. МНК строит оценки регрессии на основе минимизации суммы квадратов остатков. Поэтому для проверки названных критериев важно исследовать поведение остаточных величин Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru регрессии. Условия, необходимые для получения несмещенных, состоятельных и эффективных оценок, представляют собойпредпосылки МНК, соблюдение которых желательно для получения достоверных результатов регрессии.

Исследования остатков Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru предполагают проверку наличия следующих пяти предпосылок МНК:

1) случайный характер остатков;

2) независимость остатков или отсутствие их автокорреляции;

3) остатки подчиняются нормальному распределению;

4) нулевая средняя величина остатков (или их математическое ожидание), не зависящая от уровней фактора Х;

5) гомоскедастичность остатков – дисперсия каждого отклонения Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru одинакова для всех значений фактора.

Теорема Гаусса-Маркова.Если регрессионная модель Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru удовлетворяет предпосылкам1, 2, 4, 5,то оценки и имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

Выполнение предпосылки 3 (нормальность распределения остатков) позволяет использовать критерии t и F (см. ниже)при анализе свойств модели и ее параметров.

Проверка первых четырех предпосылок представляет собой исследование адекватности модели определенным статистическим критериям. Этот материал подробно рассмотрен в курсе ЭММиПМ в теме «Моделирование и прогнозирование временных рядов»[5].

Рассмотрим подробнее исследование гомоскедастичности остатков. Остатки считаются гомоскедастичными, если для каждого значения фактора они имеют одинаковую дисперсию. Иными словами остатки распределены вдоль оси абсцисс случайно с одинаковой частотой и амплитудой. В этом случае на графике остатков они расположены в виде достаточно узкой горизонтальной полосы[6] (рис.9).

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Рис. 9. Гомоскедастичные остатки

Если это условие не соблюдается, то имеет место гетероскедастичность остатков. Гетероскедастичные остатки имеют направленность в своем распределении (рис. 10).

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

Рис. 10. Гетероскедастичные остатки

При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда – Квандта, разработанный в 1965 году. Тест, предложенный этими учеными, включает в себя следующие шаги:

1. Упорядочение n наблюдений по мере возрастания переменной X.

2. Исключение из рассмотрения С центральных наблюдений; при этом (n-C):2>p, где р – число оцениваемых параметров ( Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru ).

3. Разделение совокупности из (n-C) наблюдений на две группы (соответственно с малыми и большими значениями фактора Х) и определение по каждой из групп уравнений регрессии.

4. Определение остаточной суммы квадратов для первой (S1) и второй (S2) групп и нахождение их отношения: R=S1:S2 (в числителе должна стоять большая величина).

Вывод о гомоскедастичности делается с помощью F-критерия Фишера с (n-C-2p):2 (р – число оцениваемых в уравнении параметров; для парной регрессии Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru р=2) степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Замечание

Табличное значение F-критерия можно найти с помощью статистической функции FРАСПОБР.

Протестируем данные нашего примера на наличие гомоскедастичности остатков.

Пример (продолжение).

2) проверить выполнение предпосылок МНК:

Проверку предпосылок 1 – 4 выполнить самостоятельно, используя материал дисциплины ЭММиПМ.

Проверка предпосылки 5:

1. Упорядочим переменную Y по возрастанию фактора Х (в Excel для этого можно использовать команду Данные – Сортировка – По возрастанию Х).

Исходные данные

Y	X

Упорядоченные данные

Y	X

2. Уберем из середины упорядоченной совокупности С=1/4*n=1/4*9 Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru 2 значения. В результате получим две совокупности по ½*(9-2)=4 значения соответственно с малыми и большими значениями Х.

3. Для каждой совокупности в отдельности выполним регрессионный анализ (рисунок 11).

Для первой совокупности:

Дисперсионный анализ
	df	SS	MS
Регрессия		200.0769	200.0769
Остаток		169.9231	84.96154
Итого

Для второй совокупности:

Дисперсионный анализ
	df	SS	MS
Регрессия		78.75	78.75
Остаток
Итого		102.75

Рис. 11.Фрагменты регрессионного анализа для первой и второй совокупностей соответственно

4. Найдем отношение полученных остаточных сумм квадратов (в числителе должна быть большая сумма):

R= 169,9/24 =

7.08

5. Вывод о наличии гомоскедастичности остатков делаем с помощью F-критерия Фишера с уровнем значимости Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru и двумя одинаковыми степенями свободы:

Число степеней свободы:	(9-1-2*2):2=2
Fтаб(0,05;2;2)=

Так как Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru , то обнаруживается наличие гомоскедастичности в остатках модели по отношению к фактору Х.

■

Замечание

При нарушении гомоскедастичности остатков модели и наличии автокорреляции в них рекомендуется заменять традиционный МНК обобщенным МНК (ОМНК), в основе которого лежит работа с предварительно преобразованными исходными данными[7].

Для анализа качества регрессионных моделей используется ряд дополнительных специфических характеристик. К ним относится, например, индекс корреляции:

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru .

Этот коэффициент является универсальным, так как отражает тесноту связи и точность модели, может использоваться при любой форме связи переменных. Для парной линейной модели индекс корреляции равен коэффициенту парной корреляции, т.е.

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru .

На практике чаще используется его квадрат, который называется коэффициентом детерминации:

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru .

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru , иногда выражают не в долях, а в процентах.

Коэффициент детерминации показывает,какая доля вариации (случайных колебаний, общей дисперсии) признака Y учтена в построенной модели и обусловлена случайными колебаниями включенного в нее фактора. Качество модели тем лучше, чем ближе Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru к 1. Иными словами характеризует степень влияния включенных в модель факторов. Влияние факторов, не учтенных в модели, определяется тогда величиной 1- Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru . Модель тем лучше, чем больше и меньше 1- .

Для оценки уровня точности регрессионных моделей используется также средняя относительная ошибка аппроксимации

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru .

Величина Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru показывает, на сколько процентов в среднем фактические значения исследуемой величины отличаются от расчетных. Модель тем точнее, чем меньше Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru . Часто наиболее приемлемыми считают значения .

В качестве меры точности модели применяют также оценку остаточной дисперсии Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru или квадратный корень из нее , называемый стандартной ошибкой модели или среднеквадратическим отклонением.

Точность модели тем лучше, чем меньше ее стандартная ошибка (это же имеет место и при использовании для оценки уровня точности других видов ошибок). Однако, понятие «чем меньше» является относительным и зависит от порядка чисел, представляющих данные задачи. Поэтому модель считается точной, если стандартная ошибка модели Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru меньше стандартной ошибки (среднеквадратического отклонения) результативного признака Y Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru . Стандартную ошибку легко найти в Excel с помощью статистической функции СТАНДОТКЛОН.

Пример (продолжение).

3) вычислить коэффициент детерминации, найти среднюю относительную ошибку аппроксимации, сделать вывод о качестве модели

Необходимые предварительные расчеты представлены в таблице 6.

Таблица 6

№ пп	Y	Y-Yср	e	e^2	eотн	(Y-Yср)^2	X^2
		-31	-6.65	44.22	26.6
		-22	-3.07	9.42	9.03
		-14	-3.2	10.24	7.62
		-5	11.22	125.89
		-1	-1.04	1.08	1.89
			2.83	8.01	4.22
			-2.01	4.04	2.75
			6.41	41.09	8.43
			-4.85	23.52	5.99
Сумма			-0.36	267.52	88.54
Среднее					9.84

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru ;

вывод: 91,4 % случайной вариации исследуемого признака Y (прибыль) учтено в построенной модели и обусловлено случайными колебаниями включенного в нее фактора Х (объем продаж); влияние неучтенных в модели факторов ( Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru ) около 9 %.

Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru

вывод: фактические значения прибыли Y отличаются от модельных Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru в среднем на 9.8 %; уровень точности модели достаточный.

Cтандартная ошибка модели Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru и коэффициент детерминации выводятся в первой таблице «Регрессионная статистика» отчета по регрессионному анализу. Для нашей модели эта таблица представлена на рисунке 12.

Регрессионная статистика
Множественный R	0.956
R-квадрат	0.914
Нормированный R-квадрат	0.901
Стандартная ошибка	6.182
Наблюдения	9.000

Рисунок 12. Фрагмент регрессионного анализа

В нашем случае стандартная ошибка модели Реализация основных этапов построения и анализа парной линейной регрессии - student2.ru , а среднеквадратическое отклонение (или стандартная ошибка) Y . Так как < , то модель регрессии является точной.