Парная линейная регрессия. Если функция регрессии линейна, то говорят о линейной регрессии
Если функция регрессии линейна, то говорят о линейной регрессии. Модель линейной регрессии (линейное уравнение) является наиболее распространенным (и простым) видом зависимости между экономическими переменными. Кроме того, построенное линейное уравнение может служить начальной точкой эконометрического анализа. Линейная регрессия (теоретическое линейное уравнение регрессии) представляет собой линейную функцию между условным математическим ожиданием зависимой переменной Y и одной объясняющей переменной X ( – значения независимой переменной в i-ом наблюдении, ).
. (1.5)
Для отражения того факта, что каждое индивидуальное значение отклоняется от соответствующего условного математического ожидания, необходимо ввести в последнее соотношение случайное слагаемое .
(1.6)
Это соотношение называется теоретической линейной регрессионной моделью, и – теоретическими параметрами (теоретическими коэффициентами) регрессии, – случайным отклонением.
Следовательно, индивидуальные значения представляются в виде суммы двух компонент – систематической и случайной , причина появления которой достаточно подробно рассмотрена ранее. В общем виде теоретическую линейную регрессионную модель будем представлять в виде:
. (1.7)
Для определения значений теоретических коэффициентов регрессии необходимо знать и использовать все значения переменных X и Y генеральной совокупности, что практически невозможно.
Таким образом, задачи линейного регрессионного анализа состоят в том, чтобы по имеющимся статистическим данным для переменных X и Y:
а) получить наилучшие оценки неизвестных параметров и ;
б) проверить статистические гипотезы о параметрах модели;
в) проверить, достаточно ли хорошо модель согласуется со статистическими данными (адекватность модели данным наблюдений).
Следовательно, по выборке ограниченного объема мы сможем построить так называемое эмпирическое уравнение регрессии
(1.8)
где – оценка условного математического ожидания ; и – оценки неизвестных параметров и , называемые эмпирическими коэффициентами регрессии. Следовательно, в конкретном случае:
(1.9)
где отклонение – оценка теоретического случайного отклонения .
В силу несовпадения статистической базы для генеральной совокупности и выборки оценки и практически всегда отличаются от истинных значений коэффициентов и , что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности обычно приводят к определению отличающихся друг от друга оценок. Возможное соотношение между теоретическим и эмпирическими уравнениями регрессии схематично изображено на рисунке 1.2.
Рис. 1.2
Задача состоит в том, чтобы по конкретной выборке найти оценки и неизвестных параметров и так, чтобы построенная линия регрессии являлась бы наилучшей в определенном смысле среди всех других прямых. Например, коэффициенты и эмпирического уравнения регрессии могут быть оценены исходя из условий минимизации одной из следующих сумм:
1. , однако эта сумма не может быть мерой качества найденных оценок в силу того, что существует бесчисленное количество прямых, для которых .
2. . Этот метод называется методом наименьшей суммы.
3. . Это самый распростаренный и теоретически обоснованный метод, который получил название метода наименьших квадратов (МНК). Кроме того, он является наиболее простым с вычислительной точки зрения.
Найдем оценки и , используя метод наименьших квадратов. При этом минимизируется следующая функция:
. (1.10)
Эта функция является квадратичной функцией двух параметров и . Условием существования минимума функции двух переменных является равенство нулю ее частных производных:
Разделив оба уравнения системы на n, получим:
,
где (1.11)
Из формул статистики очевидно, что:
Тогда (1.12)
где – выборочный коэффициент корреляции, – стандартные отклонения.