Тема 17. Проблема остатков множественной регрессии
В моделях множественной регрессии случайная величина представляет собой ненаблюдаемую величину, оценку которой можно получить как разность , т.е. случайная составляющая представляет собой неизвестный остаток заданного уравнения и не является реальным случайным остатком, при этом выборочные оценки остаточной величины могут меняться.
При формальных проверках результатов статистической значимости предполагалось, что остатки представляют собой независимые случайные величины, их средние значения равны нулю, они имеют постоянную дисперсию и подчиняются нормальному закону распределения случайных величин.
Статистические проверки параметров основаны на непроверяемых предпосылках распределения случайной составляющей , и носят лишь предварительный характер. Так как после построения уравнения проводится проверка наличия у остатка предполагаемых свойств. Это связано с тем, что оценки параметров регрессии должны удовлетворять критериям несмещенности, эффективности и состоятельности.
Статистическая оценка называется несмещенной, если математическое ожидание остатков равно нулю, т.е. , или .
Следовательно, при большом числе выборочных данных и, как следствие, при большом числе выборочных оцениваний остатки не будут накапливаться и найденный параметр можно будет рассматривать как среднее значение из возможного большого количества несмещенных оценок.
Статистическая оценка называется эффективной, если она характеризуется наименьшей возможной дисперсией.
На практике это означает возможность перехода от точечного оценивания к интервальному.
Статистическая оценка называется состоятельной, если она по вероятности стремится к оцениваемому параметру.
На практике состоятельность оценки характеризует точность оценок с увеличением объема выборки.
Данные критерии оценок используются при различных способах оценивания. Исследование остатков предполагает проверку наличия выполнения следующих 5 основных предпосылок МНК:
1) случайный характер остатков;
2) нулевое среднее значение величины остатков, независящей от ;
3) гомоскедастичность – дисперсия каждого отклонения одинаковадля всех значений ;
4) отсутствие автокорреляции остатков, т.е. остатки распределены независимо друг от друга;
5) остатки подчиняются нормальному распределению.
Когда все 5 предпосылок выполняются, то оценки, полученные с помощью МНК и оценки, полученные с помощью метода наибольшего правдоподобия, совпадают между собой. Если какая-то из предпосылок не выполняется, то модель нуждается в корректировке.
Для проверки случайного характера остатков (первой предпосылки МНК) строится график зависимости остатков от . Если графические изображения остатков расположены в линейной горизонтальной полосе, то остатки являются случайными и применение МНК считается оправданным, т.е. в этом случае теоретические значения результативного признака хорошо аппроксимируют фактические значения .
Если остатки не расположены в некоторой горизонтальной полосе, то они не являются случайными величинами, следовательно, применять МНК для оценки параметров модели невозможно. В таком случае, величина остатка будет зависеть от , поэтому необходимо либо вводить другую функцию, либо использовать дополнительную информацию.
Вторая предпосылка МНК означает, что . Это равенство справедливо для линейных моделей и моделей, нелинейных относительно включаемых переменных. В рамках второй предпосылки МНК исследуется несмещенность оценок коэффициентов регрессии, для чего строится график зависимости остатков от факторов . Если остатки на графике расположены в виде горизонтальной полосы, то они являются независимыми величинами от фактора , в остальных случаях – график показывает наличие зависимости от , и модель является неадекватной. Скопление точек в определенных участках значений говорит о наличии систематической погрешности модели.
Выполнение пятой предпосылки МНК позволяет проводить статистическую оценку результатов регрессионного моделирования с помощью - и - критериев. Вместе с тем необходимо отметить, что оценки, полученные с помощью МНК, обладают хорошими свойствами даже при отсутствии нормального распределения остатков.
Если не выполняется третья предпосылки МНК (гомоскедастичность остатков), то имеет место гетероскедастичность остатков, которую можно наглядно видеть из поля корреляции:
Наличие гетероскедастичности остатков, т.е. неодинаковой дисперсии остатков при различных значениях может в отдельных случаях привести к смещенности оценок коэффициентов регрессии, и, как следствие, уменьшению эффективности этих оценок. Практически при нарушении свойства гомоскедастичности остатков имеет место неравенство: . Это неравенство может быть представлено в виде: и величина может изменяться при переходе одного фактора к другому. На практике это означает, что сумма квадратов отклонений для зависимости при наличии гетероскедастичности должна иметь вид .
При минимизации полученной суммы ее отдельные значения взвешиваются, при этом наблюдению с наибольшей дисперсией придается пропорционально меньший вес и задача состоит в определении знания Ki и внесении поправок в исходные данные. В таких случаях вместо обычного МНК используют обобщенный МНК (взвешанный), обосновывая его применение не только визуальной проверкой гетероскедастичности, но и проводя ее эмпирическое подтверждение. При малом объеме выборки можно использовать метод Гольдфельда – Квандта, который включает в себя следующие шаги:
1) упорядочивание n- наблюдений по мере возрастания х;
2) исключение из рассмотрения С – центральных наблюдений, где ; р – число оцениваемых параметров;
3) разделение совокупности, состоящей из (n-c) наблюдений на 2 группы ( одна из которых состоит из малых знаний х, вторая из больших знаний х) и определение по каждой группе уравнений регрессии;
4) определение для каждой такой группы остаточной суммы квадратов отклонений, соответственно обозначаемых S1 и S2;
5) нахождение отношения значений сумм квадратов: .
При выполнении нулевой гипотезы Но о гомоскедастичности отношение R будет удовлетворять F – критерию с числом степеней свободы (n-С-2p)/2 для каждой остаточной суммы. Чем больше значение R – отношения превышает Fтабл., тем сильнее нарушена предпосылка о гомоскедастичности остатков, т.е. о равенстве дисперсий остаточных величин.
При построении регрессионных моделей важным является выполнение четвертой предпосылки.Наличие автокорреляции остатков означает наличие корреляционной зависимости между остатками текущих и предыдущих (последующих) наблюдений .
Коэффициент корреляции между остатками может быть найден как коэффициент парной корреляции: . Чем ближе знания к 1, тем теснее связь между остатками и в этом случае говорят о наличии автокорреляции остатков и зависимости функции распределения вероятностей от точки наблюдения и от значения остатка другой точки наблюдения.