Линейныеоднофакторные модели регрессии

Рассматривается связь результативного признака yс одним признаком фактором x. Для выявления меры такой связи, прежде всего, рассчитывается коэффициент Линейныеоднофакторные модели регрессии - student2.ru . Обычно цель расчета состоит в том можно ли считать связь линейной.

Линейный коэффициент корреляции представляет собой среднюю величину из произведений нормированных отклонений для x и y:

Линейныеоднофакторные модели регрессии - student2.ru

где Линейныеоднофакторные модели регрессии - student2.ru – ковариация признаков x и y. Линейныеоднофакторные модели регрессии - student2.ru , Линейныеоднофакторные модели регрессии - student2.ru . После несложных преобразований можно получить следующее представление коэффициента корреляции:

Линейныеоднофакторные модели регрессии - student2.ru

Свойства коэффициентов парной корреляции

1) Линейныеоднофакторные модели регрессии - student2.ru

2) Если Линейныеоднофакторные модели регрессии - student2.ru то между случайными величинами x и y существует функциональная линейная зависимость: при Линейныеоднофакторные модели регрессии - student2.ru – прямая (положительная); при Линейныеоднофакторные модели регрессии - student2.ru – обратная (отрицательная).

3) Если Линейныеоднофакторные модели регрессии - student2.ru , то это говорит лишь об отсутствии линейной зависимости между x и y, но не вообще об отсутствии корреляционной связи.

При Линейныеоднофакторные модели регрессии - student2.ru связь считается слабой, Линейныеоднофакторные модели регрессии - student2.ru – умеренной, при Линейныеоднофакторные модели регрессии - student2.ru – заметной, Линейныеоднофакторные модели регрессии - student2.ru – тесной, при Линейныеоднофакторные модели регрессии - student2.ru – весьма тесной. Коэффициент парной корреляции обладает свойством симметрии: Линейныеоднофакторные модели регрессии - student2.ru .

Метод наименьших квадратов

Пусть задана двумерная случайная величина Линейныеоднофакторные модели регрессии - student2.ru , где x и y– зависимы. Нанесем на координатную плоскость Линейныеоднофакторные модели регрессии - student2.ru точки: Линейныеоднофакторные модели регрессии - student2.ru , Линейныеоднофакторные модели регрессии - student2.ru ,…, Линейныеоднофакторные модели регрессии - student2.ru , являющиеся значениями случайной величины в n испытаниях. Нанесенное на координатную плоскость множество точек, называется корреляционным облаком.

Функцияf(x)называется наилучшей аппроксимацией зависимости y от x в смысле метода наименьших квадратов (МНК), если математическое ожидание Линейныеоднофакторные модели регрессии - student2.ru принимает наименьшее возможное значение. Здесь y выступает как случайная величина, а Линейныеоднофакторные модели регрессии - student2.ru – неслучайная аналитическая функция.

Сформулируем два важнейших (но не единственных) условия применимости МНК. Первое, объем выборки nдолжен быть таким, чтобы величина коэффициента корреляции Линейныеоднофакторные модели регрессии - student2.ru превосходила его среднюю ошибку Линейныеоднофакторные модели регрессии - student2.ru не менее чем в t раз, где t – критерий Стьюдента при вероятности нулевой гипотезы Линейныеоднофакторные модели регрессии - student2.ru об отсутствии корреляции на уровне значимости α. При этом, если Линейныеоднофакторные модели регрессии - student2.ru , то Линейныеоднофакторные модели регрессии - student2.ru полагают равным 2. Если Линейныеоднофакторные модели регрессии - student2.ru , то Линейныеоднофакторные модели регрессии - student2.ru определяют по таблице, полагая число степеней свободы равным Линейныеоднофакторные модели регрессии - student2.ru . Второе, распределение ошибки ε случайной величины y, зависящей от неслучайной величины x должно быть близко к нормальному закону.

Обычно визуально по корреляционному облаку предполагают вид функциональной зависимости y от x. Уравнение взаимосвязи двух переменных можно представить в виде: Линейныеоднофакторные модели регрессии - student2.ru , где ε – случайная ошибка, фактическое распределение значений которой неизвестно.

Свойства параметров регрессионной модели Линейныеоднофакторные модели регрессии - student2.ru зависят от свойств случайной составляющей. Для того, чтобы можно было применять МНК относительно ошибки ε должны быть сделаны дополнительные предположения.

Предпосылки МНК

Требования, предъявляемые к случайной величине ε, носят фундаментальный характер и заключаются в выполнении ряда условий.

1) Математическое ожидание значений остатков равно 0, т.е. Линейныеоднофакторные модели регрессии - student2.ru , говоря точнее, должно выполняться Линейныеоднофакторные модели регрессии - student2.ru . Это требование гарантирует несмещенность оценок параметров регрессии. Оно практически выполняется при непосредственной реализации МНК. Если оценки несмещенные, то их можно сравнивать по разным выборкам, что практически очень важно.

2) Величины остатков Линейныеоднофакторные модели регрессии - student2.ru при каждом последовательном измерении имеют случайный характер. Т.е. Линейныеоднофакторные модели регрессии - student2.ru , а нулевая средняя величина остатков не зависит от Линейныеоднофакторные модели регрессии - student2.ru .

3) Дисперсия остатков Линейныеоднофакторные модели регрессии - student2.ru не зависит от Линейныеоднофакторные модели регрессии - student2.ru и постоянна, т.е. Линейныеоднофакторные модели регрессии - student2.ru . При каждом конкретном наблюдении случайное отклонение может быть либо большим, либо меньшим, но не должно быть некоторой постоянной причины, вызывающей большую ошибку. Это требование называется условием равноизменчивости или гомоскедастичности. Его выполнение гарантирует эффективность оценок параметров регрессии, что позволяет (при выполнении предыдущих условий) включать в модель дополнительно новые значения переменных наблюдения Линейныеоднофакторные модели регрессии - student2.ru с целью повышения точности модели. Гомоскедастичность позволяет проводить интервальные оценки. Нарушение гомоскедастичности называется гетероскедастичностью.

4) Значения остатков распределены независимо друг от друга. Фактически это означает отсутствие автокорреляции, более свойственной динамическим рядам.

При выполнении сформулированных четырех условий, можно при необходимости увеличивать объем выборки и тем самым повышать состоятельность оценок.

5) При условии выполнения пунктов 1)-3) еще необходимо, чтобы Линейныеоднофакторные модели регрессии - student2.ru , т.е. остатки были распределены по нормальному закону или близкому к нему. Это условие не выполняется для малых выборок, но достаточно хорошо корректируется статистиками Линейныеоднофакторные модели регрессии - student2.ru – Стьюдента и Фишера, которые позволяют оценить значимость, исследуемых характеристик.

Проблема однако в том, что предпосылки МНК могут быть проверены только после того как с его помощью получено уравнение регрессии. Кроме выдвинутых пяти предпосылок МНК, следует добавить еще одну: для линейной множественной регрессии количество наблюдений n должно превышать количество коэффициентов k при переменных модели не менее чем в 7-8 раз, т.е. Линейныеоднофакторные модели регрессии - student2.ru (эмпирический факт). Например, если Линейныеоднофакторные модели регрессии - student2.ru , то требуется не менее 8 наблюдений. Если вид теоретической функции регрессии усложняется, то это требует увеличения числа наблюдений. Так, для Линейныеоднофакторные модели регрессии - student2.ru требуется уже не менее 14 наблюдений.

Наши рекомендации