Линейная регрессия и метод наименьших квадратов
Сами количественные признаки — это фактически случайные величины , которые описываются своими распределениями (совокупностью принимаемых значений и совокупностью вероятностей, с которыми эти значения принимаются). Соответственно для признаков определяются средние, а сами случайные величины могут быть представлены в виде суммы средней и остатка, характеризующего случайные флуктуации :
, (1.8)
где средняя (первое слагаемое) может быть приближена или просто заменена некоторой функцией, например, линейной:
. (1.9)
Это представление имеет глубокий смысл и будет неоднократно использоваться и обсуждаться далее. Далее, помимо среднего для признака как для случайной величины, определяется дисперсия, которая служит мерой вариации признака в целом (интегральная характеристика колеблемости признака):
. (1.10)
Эконометрика исследует взаимозависимости между признаками и динамику их изменения во времени. Признаки, зависящие от других, называются зависимыми , или объясняющими. Признаки, от которых зависят первые (зависимые), называются независимыми , или факторами, (регрессорами). Далее мы увидим, что их так называемая независимость друг от друга отнюдь не носит абсолютный характер. Тем не менее, понятие независимости факторов является весьма важным и весьма полезным начальным предположением.
После исследования соответствующих базовых моделей начального уровня удается строить и изучать более сложные и более совершенные модели, в которых можно учитывать частичную зависимость факторов. Также естественно, что в качестве начальных базовых моделей используются простейшие зависимости, например, линейные. После этого рассматривают модели, которые можно преобразовать в линейные. И, наконец, только после этого — существенно нелинейные модели. О том, каков точный смысл этих понятий, речь пойдет в следующих главах.
Возвращаясь к нашему примеру с линейной зависимостью, отметим, что если просто провести на глаз прямую (график линейной зависимости), максимально соответствующую точкам (наблюдениям), то получаем простую графическую интерпретацию. Отрезок, отсекаемый на оси y, представляет собой оценку свободного члена в формуле линейной зависимости. Соответственно, угловой коэффициент прямой — это оценка параметра при независимой переменной.
Линия графика (линейной зависимости), или линия регрессии, должна быть такова, чтобы указанные остатки являлись минимальными. Как понимать требование минимальности именно всех остатков? Ведь, уменьшая одни остатки, мы всегда будем увеличивать другие. Наилучший способ — это потребовать минимизации суммы квадратов остатков, которые еще называют отклонениями. В этом случае говорят о минимизации суммы квадратов отклонений. Это одно и то же. Наилучшее соответствие кривой точкам наблюдений получилось бы в предельном случае абсолютно точного соответствия, когда кривая (в нашем случае — прямая) пройдет точно через все точки. Но это нереально для линии регрессии ввиду наличия случайного члена и ошибок наблюдений.
Именно описанный только что принцип минимизации квадратов остатков и его реализация называются методом наименьших квадратов (МНК) . Поскольку существует также модификация и развитие его, то говорят также о традиционном, или обычном, МНК.
В математике (математической статистике и теории приближенных вычислений) МНК рассматривается в качестве одного из наиболее важных и эффективных методов приближенных вычислений и способов оценивания. По существу, именно ситуация, когда система алгебраических линейных уравнений не имеет точного решения (в смысле, вкладываемом в понятие решения в классическом школьном курсе математики), является наиболее общей и важной с практической точки зрения. В большинстве случаев удается найти содержательные приближенные решения, дающие ответ на вопросы, поставленные в данной задаче, и служащие обобщением такого решения в узком смысле обращения уравнений системы в тождества.
Важно понимать, что в МНК переменные и коэффициенты как бы меняются местами. Из требования минимизации суммы квадратов остатков вытекает довольно простая система линейных алгебраических уравнений. Она называется нормальной системой, или системой нормальных уравнений . В этой системе уравнений в качестве известных выступают величины, получаемые в результате непосредственного сложения, перемножения друг на друга соответствующих величин, возведения их в квадрат и последующего суммирования наблюдаемых значений переменных.
Надо отчетливо понимать, что, несмотря на свой нередко относительно громоздкий вид, это всего лишь известные величины, играющие теперь роль коэффициентов системы. С другой стороны, сами исходные коэффициенты линейной зависимости (параметры) неизвестны. Именно их и надо определить из системы нормальных уравнений.
Для решения системы алгебраических линейных уравнений существуют различные методы — от простого исключения переменных до использования определителей и обратных матриц, метод Гаусса , систематизирующий и обобщающий исключение переменных и называемый поэтому методом последовательного исключения неизвестных . Для случая двух переменных эти формулы нахождения решения системы нормальных уравнений довольно просты. Для множественной регрессии , когда рассматриваются зависимости от множества факторов, такие формулы становятся более громоздкими, но в принципе сохраняющими аналогичную структуру уравнений системы.
Для использования МНК крайне важно, что в очень большом количестве исследуемых ситуаций выборочная дисперсия весьма близка к генеральной дисперсии и является хорошим приближением, а потому хорошей оценкой для генеральной дисперсии, кроме отдельных специальных случаев. В то же время выборочное среднее не является достаточно хорошей оценкой, а служит всего лишь грубым первоначальным приближением к оценке генерального среднего, которое уточняется с помощью формул, использующих выборочную дисперсию.
Сами оценки являются случайными величинами , т.к. зависят от случайного сочетания значений в выборке, объема выборки и поэтому, так же как и исследуемая исходная случайная величина, имеют постоянную и случайную составляющие. Таким образом, оценки как случайные величины, вообще говоря, не совпадают в точности с оцениваемыми с их помощью характеристиками генеральной совокупности. Соответствующие разности между самой характеристикой и оценкой называются ошибками и также являются случайными величинами. Существует важное требование к оценкам, которое называется требованием несмещенности (несмещенные оценки ): именно среднее оценки должно равняться соответствующей характеристике генеральной совокупности. Это свойство выражает, так сказать, аккуратность оценки.
Другое важное требование — это надежность оценки , характеризуемая степенью сближения (сжатия) выборочной функции распределения к оцениваемой истинной, или теоретической, функции распределения. Поскольку разброс, или вариация, выражается дисперсией, то можно сказать, что требуется получить по возможности наименьшую дисперсию. Это требование и соответствующее свойство называются эффективностью .
Наконец, третье важное требование заключается в том, чтобы предел оценки при стремлении объема выборки к бесконечности равнялся бы с вероятностью 1 истинному значению характеристики генеральной совокупности, и оно называется состоятельностью .
1.6.
Измерители тесноты связи
Опираясь на оценки важнейших характеристик случайных величин , выявляют и исследуют связи между ними, определяют величину этих связей, исходя из важнейших показателей, характеризующих статистические зависимости между величинами и процессами. Мерой взаимосвязи между переменными является выборочная ковариация , которая для последовательности наблюдений двух переменных представляет среднее произведений разностей результатов наблюдений и их соответствующих средних. Есть другая форма вычисления ковариации, когда она представляется в виде среднего попарных произведений соответствующих результатов наблюдений этих двух переменных, из которого вычитается произведение средних этих двух переменных:
. (1.11)
Ковариация легко вычисляется, но при всей ее простоте она вовсе не является наилучшим измерителем взаимосвязи между величинами. Более точно характеризует зависимость коэффициент корреляции . Выборочный коэффициент корреляции, или выборочная корреляция, — это просто частное от деления выборочной ковариации на произведение выборочных дисперсий соответствующих переменных. Преимущество коэффициента корреляции перед ковариацией заключается в том, что ковариация зависит от единиц, в которых измеряются переменные, а коэффициент корреляции — это величина безразмерная:
. (1.12)
Эконометрика особое внимание уделяет проблемам отбора и достоверности данных, специальным методам работы при наличии данных с пропусками (неполные данные), влиянию агрегирования данных на сами эконометрические измерения. Агрегирование данных по времени приводит к значительно большей опасности искажения результатов измерений, нежели агрегирование пространственных данных. Важное значение имеют проблемы селективной выборки. Соответствующая выборка может оказаться нерепрезентативной, неслучайной, ограниченной только определенными ситуациями, а не всеми возможными.
В целом эконометрическое исследование включает решение следующих основных проблем:
1) качественный анализ связей экономических переменных;
2) выделение зависимых и независимых переменных;
3) тщательный подбор данных и их проверку;
4) спецификацию формы связи (вид функциональной связи усредненных величин) между результатом и регрессорами;
5) оценку неизвестных на этом этапе параметров (коэффициентов) модели;
6) проверку гипотез о свойствах распределения вероятностей для случайной компоненты модели (гипотеза о средней, дисперсии и ковариации).
Соответственно основные этапы эконометрического исследования включают:
· постановку проблемы;
· получение данных и анализ их качества;
· спецификацию модели;
· оценку неизвестных параметров модели;
· проверку результатов и их интерпретацию.
Само понятие экономических переменных и, соответственно, экономических измерений в эконометрике получает важное расширение и уточнение. Измерение может означать выделение некоторого свойства и последующее сравнение различных объектов по этому свойству. Можно также понимать измерение как операцию, приводящую к численному значению величины. Наконец, измерение в наиболее привычном смысле означает обязательное наличие эталона, т.е. единицы измерения. В первом случае имеет место просто сравнение объектов по наличию или отсутствию некоего свойства (номинация, классификация). Во втором — объекты сравниваются по интенсивности свойства (топология, шкалирование, упорядочение). В третьем — сравнение с эталоном (собственно измерение, квантификация).
Измерения в экономике включают большое количество разнородных данных, что обусловливает важную роль стоимостных измерений, вносящих универсальность в до того разнородные натуральные измерения. При этом немалое значение имеют совместно используемые и дополняющие друг друга объемные и структурные характеристики.
Взаимосвязи факторов и явлений в экономике не являются однозначными: они включают случайную компоненту. Поэтому в измерениях в экономике следует учитывать их низкую точность. Более того, экономические измерения характеризуются низким уровнем контроля точности измерений. Большую трудность при социально-экономических измерениях представляет выявление эмпирических отношений. Совсем непростой является задача обобщения данных для представления ненаблюдаемых (латентных) переменных. Сама операция обобщения может быть представлена сверткой или агрегированием переменных.
В качестве базы данных для эконометрических исследований служат данные официальной статистики, бухгалтерского учета и специальных экономических исследований. Само измерение в теории измерений связано со следующими двумя подходами:
1) соотношение множества объектов, описываемых некоторой переменной с множеством реперов (меток) и представляемых с помощью теории шкал;
2) соотношение переменной, которая непосредственно не наблюдаема (латентна), со значениями непосредственно наблюдаемой переменной (индикатора).
В последнем случае, более привычном, главное — отыскать связь индикатора с латентной переменной. Соответственно поиск измерителя исследуемого признака осуществляется либо выбором показателя, служащего индикатором исследуемого признака, либо определением функциональной зависимости значения исследуемого признака от значений наблюдаемых признаков, либо, наконец, построением системы признаков, характеризующей исследуемый признак.
Приведем некоторые примеры зависимостей, допускающих применение методов эконометрики для исследования их структуры и вида. К таким зависимостям относятся:
· связь между изменениями фондового индекса и макроэкономического показателя;
· изменение цены акций компании после объявлений о выплате ею дивидендов;
· влияние торгового дефицита страны на курс национальной валюты;
· зависимость между величиной ВВП и вероятностью дефолта по суверенным займам в какой-либо стране.
Цель эконометрического моделирования — это построение компактных, достаточно полных, достоверных и надежных моделей, адекватно отражающих сложные, нестабильные и недостаточно точно измеримые экономические явления и процессы. Хорошая эконометрическая модель должна охватывать также и конкурирующие с ней модели, т.е. она должна быть в состоянии объяснить эти модели и их результаты.
В рамках общей методологии построения эконометрических моделей предлагается также использовать диагностические тесты для проверки статистической значимости (адекватности) модели. Это означает исследование вероятности принятия ошибочного решения о наличии зависимости в случае простой имитации зависимости в результате неудачного построения выборки.
Многие экономические показатели неотрицательны, поэтому их нельзя описывать случайными величинами, принимающими наряду с положительными и отрицательные значения. Количество изучаемых объектов в экономическом исследовании ограничено. В эконометрике часто приходится применять детерминированные методы анализа данных особого вида, например, теорию нечетких множеств и нечетких данных, нечеткой логики. Многие числовые на первый взгляд величины в экономике в действительности таковыми не являются, и приходится учитывать их нечисловую природу при выборе методов исследования.