Метод наименьших квадратов и остаточная дисперсия
Вернемся теперь к методу наименьших квадратов (МНК) . Пусть имеется несколько, например четыре, наблюдения для двух величин (признаков) x и y. Пусть также выдвинута гипотеза о простейшей линейной зависимости между переменными x и y. Таким образом, зависимая переменная y представляется в виде линейной функции независимой переменной x и случайного остатка. Однако необходимо конкретизировать гипотезу о линейной зависимости, превратив ее в специфицированную модель. Это означает, что нужно определить коэффициенты линейной зависимости, т.е. два параметра линейной зависимости, которые ее полностью и определяют. Но ясно, что ни по данным четырех наблюдений, ни большего количества точно определить истинные значения этих коэффициентов (параметров) невозможно хотя бы потому, что данные наблюдений всегда содержат ошибки (погрешности). Следовательно, возникает проблема приближенного определения, или нахождения приближенных значений (оценок) для этих параметров.
Также и в математике давно известна проблема нахождения приближенных решений систем линейных алгебраических уравнений. Эта проблема давно известна как задача обработки наблюдений и нахождения зависимостей, наилучшим образом представляющих связи между наблюдаемыми величинами в геодезии, астрономии и других науках. Наглядно она выглядит как нахождение кривой, наилучшим образом прилежащей к полю наблюдаемых точек.
Поскольку существует много различных программ для решения подобных задач и построения модели регрессии , то нет необходимости запоминать эти сложные формулы. Нужно всего лишь постараться понять их структуру в простейшем случае и интерпретацию соответствующих параметров. В действительности при применении МНК к множественной регрессии возникают некоторые (дополнительные, по сравнению с простейшей парной регрессией ) интересные и не очень простые проблемы. О них расскажем в следующих лекциях.
Если выполняются определенные, достаточно общие условия, то оценки, получаемые по МНК, являются несмещенными и эффективными. Напомним, что несмещенность означает совпадение среднего от выборочной (получаемой по данным наблюдений) оценки с искомой неизвестной величиной соответствующего параметра для генеральной совокупности (т.е. всего распределения). А эффективность означает, что дисперсия выборочной оценки является минимальной, т.е. наименьшей для всех возможных оценок. Эти два свойства или, в крайнем случае, максимально близкие к ним чрезвычайно важны и практически необходимы для адекватных оценок. Поэтому и дальнейшие модификации МНК стараются формировать таким образом, чтобы сохранить эти свойства или максимально близкие к ним.
С МНК тесно связано и понятие остаточной дисперсии . Зависимая переменная у называется также результативным признаком. Если все точки наблюдений лежат на линии регрессии точно, это возможно только при функциональной связи. Это означает, другими словами, что фактические значения результативного признака совпадают с теоретическими или расчетными значениями, т.е. полностью обусловлены детерминированным влиянием одного только фактора х (функциональная зависимость). Тогда величина остаточной дисперсии равна нулю. Это предельный случай использования объясняющей переменной и начало подхода к дисперсионному анализу и понятию объясненной дисперсии и остаточной дисперсии. Но на практике всегда имеет место рассеяние точек наблюдения относительно кривой регрессии. В частности, это справедливо и для прямолинейной регрессии, полученной по МНК. Это рассеяние (отклонение) от линии регрессии обусловлено влиянием факторов, неучтенных в данном уравнении регрессии. Именно величина этого отклонения характеризуется остаточной регрессией . Остаточная регрессия равна просто средней от суммы квадратов остатков (отклонений), т.е. квадратов разностей фактических значений результативного признака и теоретических (расчетных) значений.
Применение эконометрического метода к изучению различных экономических явлений и процессов, в отличие от идеализированных экономических моделей, в которых изначально предполагается выделение основных факторов и связывающих их важнейших закономерностей, как правило, детерминированной природы, характеризуется признанием стохастической природы экономических явлений и процессов и в особенности важной роли неучтенных в модели факторов. Как это свойственно массовым явлениям и процессам, важнейшую роль при этом играют методы корреляционно-регрессионного анализа и переход от простейших моделей однофакторного анализа (двухмерная линейная модель регрессии) к моделям множественной регрессии.
Таким образом, эконометрика , подобно другим разделам статистического анализа, исходит из того, что детерминированная компонента принципиально не способна дать адекватное описание сложных зависимостей социально-экономической сферы. Уточнение таких зависимостей и расширение области их применимости достигаются за счет принятия в качестве неизбежной принципиальной недостижимости точного детерминированного описания этих сложных зависимостей и добавления к детерминированной (функциональной) компоненте случайного фактора в виде так называемого остаточного члена или возмущения. В него включается влияние неучтенных в модели факторов, случайных ошибок и особенностей измерения (в т.ч. и ошибки измерения).
Парная , или простая, регрессия представляет собой зависимость одного признака (переменного), называемого результативным, от другого, который называется объясняющим фактором, а также независимой переменной или признак-фактором (регрессором) . Уравнение простой регрессии используется в том случае, когда имеется доминирующий фактор — объясняющая переменная . При этом важна линейная зависимость между объясняющей переменной и результативным признаком. Дело в том, что для такой линейной модели ее параметры приобретают особо наглядный вид и хорошо интерпретируемый экономически смысл. Кроме того, многие более сложные, нелинейные зависимости посредством введения новых переменных и выполнения соответствующих преобразований над исходной моделью сводятся к линейной.
Если уравнение регрессии представляет истинную (фактическую) корреляционную связь признаков функциональной связью (например, в простейшем случае — линейной функцией), то соответствующая фактическая связь проявляется только в среднем, по совокупности наблюдений и соответствующих измерений. Более полная модель, корректно отражающая зависимости между двумя величинами, выражает результативный признак в каждом отдельном наблюдении (измерении) как сумму двух величин — теоретического значения результативного признака , полученного благодаря соответствующей математической функции (уравнения регрессии), и случайной величины (возмущения, или остаточного члена). Этот остаточный член характеризует отклонения реального значения результативного признака от теоретического (полученного по уравнению регрессии).
Уравнение регрессии характеризует форму зависимости и с помощью МНК позволяет определить конкретные значения параметров модели. Зная коэффициенты уравнения (параметры модели), получают полную модель зависимости, существенно дополняющую количественную оценку тесноты связи между переменными, которая задана коэффициентом корреляции. Но саму характеристику тесноты связи регрессионная модель не дает, поэтому она и дополняется коэффициентом корреляции (корреляционный анализ) . Вследствие этого их и объединяют в корреляционно-регрессионный анализ .