Методические положения проведения регрессионного анализа.

1 этап. Первым этапом составления прогноза проводится анализ зависимости между двумя переменными с помощью метода наименьших квадратов. Для наглядного изображения исходных данных, дальнейшего анализа и прогнозирования составляется диаграмма рассеивания исходных данных. Оценивается выборочный коэффициент корреляции, по результатам расчетов необходимо сделать соответствующие выводы.

2 этап. Построение прямой регрессии с помощью метода наименьших квадратов.

Для набора пар данных X — Y в качестве прямой наилучшего приближения будет выбираться такая, для которой наименьшее значение принимает сумма квадратов расстояний от точек (х, у) из заданного набора данных до этой прямой, измеренных в вертикальном направлении (по оси Y). Эта прямая называется прямой регрессии, а ее уравнение — уравнением регрессии.

Уравнение прямой приближения имеет вид Методические положения проведения регрессионного анализа. - student2.ru . Первый параметр Методические положения проведения регрессионного анализа. - student2.ru называется свободным членом, а второй Методические положения проведения регрессионного анализа. - student2.ru — угловым коэффициентом, отражающим величину, на которую изменяется значение Y при увеличении X на единицу. Таким образом, необходимо определить данные параметры.

Построение прямой регрессии проводится с помощью критерия наименьших квадратов.

Методические положения проведения регрессионного анализа. - student2.ru (4.1)

Методические положения проведения регрессионного анализа. - student2.ru , (4.2)

Методические положения проведения регрессионного анализа. - student2.ru , (4.3)

где Методические положения проведения регрессионного анализа. - student2.ru -свободный член;

Методические положения проведения регрессионного анализа. - student2.ru -угловой коэффициент;

SSE – сумма квадратов ошибок.

Как можно предположить, значение углового коэффициента Методические положения проведения регрессионного анализа. - student2.ru связано с выборочным коэффициентом корреляции. В данном случае получается следующее:

Методические положения проведения регрессионного анализа. - student2.ru . (4.4)

Значит Методические положения проведения регрессионного анализа. - student2.ru и b0 пропорциональны друг другу и имеют один и тот же знак.

Разности между фактически полученными значениями Y и вычисленными по уравнению регрессии соответствующими значениями прогнозов Методические положения проведения регрессионного анализа. - student2.ru называются отклонениями. Отклонения — это расстояния по вертикали (положительные или отрицательные) от точек, отмеченных по исходным данным, до прямой регрессии.

Можно сказать, что величины прогноза являются моделируемыми значениями рассматриваемых данных, а отклонения показывают отличие от ожидаемой модели. Разделение на прогноз и отклонение применяется и в тех ситуациях, когда рассматривается модель, отличная от прямой линии.

В модели простой линейной регрессии зависимая величина Y является суммой ее ма­тематического ожидания и случайного отклонения ε. Значения ε отражают возможную вариацию величин Y, в них скрыто влияние различных ненаблюдаемых факторов.

3 этап. Определение стандартной ошибки оценки.

Имея прямую регрессии, можно определить, насколько сильно точки исходных данных отклоняются от прямой регрессии. Можно выполнить оценку разброса, аналогичную стандартному отклоне­нию выборки. Этот показатель, называемый стандартной ошибкой оценки, измеряет степень отличия реальных значений Y от оцененной величины Методические положения проведения регрессионного анализа. - student2.ru . Она обозначается через Методические положения проведения регрессионного анализа. - student2.ru и вычисляется по следующей формуле:

Методические положения проведения регрессионного анализа. - student2.ru . (4.5)

Стандартная ошибка оценки подобна стандартному отклонению. Ее можно использовать для оценки стандартного отклонения совокупности. Фактически Методические положения проведения регрессионного анализа. - student2.ru оценивает стандартное отклонение σ слагаемого ошибки в статистической модели простой линейной регрессии. Другими словами Методические положения проведения регрессионного анализа. - student2.ru оценивает общее стандартное отклонение σ нормального распределения значений Y, имеющих математические ожидания Методические положения проведения регрессионного анализа. - student2.ru + ε для каждого X.

Если стандартная ошибка оценки велика, точки данных могут значительно удаляться от прямой.

Для удобства вычислений уравнение (4.5) можно привести к следующему виду:

Методические положения проведения регрессионного анализа. - student2.ru . (4.6)

4 этап. Прогнозирование величины Y.

Регрессионную прямую можно использовать для оценки величины переменной Y при данных значениях переменной X. Чтобы получить точечный прогноз, или предсказание для данного значения X, необходимо вычислить значение найденной функции регрессии в точке X.

Есть два источника неопределенности в точечном прогнозе, использующем уравне­ние регрессии.

1. Неопределенность, обусловленная отклонением точек данных от выборочной прямой регрессии.

2. Неопределенность, обусловленная отклонением выборочной прямой регрессии от регрессионной прямой генеральной совокупности.

Интервальный прогноз значений переменной Y можно построить так, что при этом будут учтены оба источника неопределенности.

Стандартная ошибка прогноза Методические положения проведения регрессионного анализа. - student2.ru дает меру вариативности предсказанного значения Y около истинной величины Y для данного значения X. Стандартная ошибка прогноза равна следующему:

Методические положения проведения регрессионного анализа. - student2.ru ; (4.7)

Методические положения проведения регрессионного анализа. - student2.ru . (4.8)
Первое слагаемое Методические положения проведения регрессионного анализа. - student2.ru под первым радикалом в уравнении 5.7 дает меру отклонения точек данных от выборочной прямой регрессии (первый источник неопределенности). Второе слагаемое Методические положения проведения регрессионного анализа. - student2.ru измеряет отклонение выборочной прямой регрессии от регресси­онной прямой генеральной совокупности (второй источник неопределенности). Отметим, что стандартная ошибка прогноза зависит от значения X, для которого прогнозируется величина Y. Также следует отметить, что Методические положения проведения регрессионного анализа. - student2.ru минимально, когда X = Методические положения проведения регрессионного анализа. - student2.ru , поскольку тогда чис­литель в третьем слагаемом под корнем в уравнении 4.7 будет Методические положения проведения регрессионного анализа. - student2.ru = 0 . При прочих неизменных величинах большему отличию X от Методические положения проведения регрессионного анализа. - student2.ru соответствует большее значение стандартной ошибки прогноза.

Если статистическая модель простой линейной регрессии соответствует действительности, границы интервала прогноза величины Y равны следующему:

Методические положения проведения регрессионного анализа. - student2.ru tsf ,(4.9)

где t — квантиль распределения Стьюдента с п-2 степенями свободы (df=n-2).

Если выборка велика (n Методические положения проведения регрессионного анализа. - student2.ru 30), этот квантиль можно заменить соответствующим квантилем стандартного нормального распределения. Например, для большой выборки 95%-ный интервал прогноза задается следующими значениями:

Методические положения проведения регрессионного анализа. - student2.ru . (4.10)

5 этап. Разложение дисперсии.

Из уравнения можно выявить следующее:

Методические положения проведения регрессионного анализа. - student2.ru или Методические положения проведения регрессионного анализа. - student2.ru (4.11)

Методические положения проведения регрессионного анализа. - student2.ru

В идеале, когда все точки лежат на прямой регрессии, все остатки равны нулю и значения Y полностью вычисляются или объясняются линейной функцией от X.

Отнимая Методические положения проведения регрессионного анализа. - student2.ru от обеих частей предыдущего равенства, имеется следующее:

Методические положения проведения регрессионного анализа. - student2.ru . (4.12)

Несложными алгебраическими преобразованиями можно показать, что суммы квадратов складываются:

Методические положения проведения регрессионного анализа. - student2.ru (4.13)

или

SST=SSR+SSE , (4.14)

где SST= Методические положения проведения регрессионного анализа. - student2.ru , SSR= Методические положения проведения регрессионного анализа. - student2.ru , SSE= Методические положения проведения регрессионного анализа. - student2.ru .

Здесь SS обозначает "сумма квадратов'' (Sum of Squares), а Т, R, Е — соответственно "общая" (Total), "регрессионная" (Regression) и "ошибки" (Еrrоr). С этими суммами квадратов связаны следующие величины степеней свободы:

· df (SST) = n-1;

· df (SSR) = n;

· df (SSE) = n-2.

Так же, как и суммы квадратов, степени свободы связаны следующим соотношением.

n – 1 = 1 + (n-2) . (4.15)

Если линейной связи нет, Y не зависит от X и дисперсия Y оценивается значением выборочной дисперсии:

Методические положения проведения регрессионного анализа. - student2.ru . (4.16)

Если, с другой стороны, связь между X и Y имеется, она может влиять на некоторые разности значений Y.

Регрессионная сумма квадратов, SSR, измеряет часть дисперсии Y, объясняемую линейной зависимостью. Сумма квадратов ошибок, SSE, — это оставшаяся часть дисперсии Y, или дисперсия Y, не объясненная линейной зависимостью.

Разложение дисперсии
SST = SSR + SSE
Общая изменчивость Y Изменчивость, объясненная линейной зависимостью Остаток, или необъясненная изменчивость

Суммы квадратов, связанные с разложением изменчивости Y, и их соответствующие величины степеней свободы могут быть размещены так, как показано в табл. 4.1, известной как таблица анализа дисперсии или таблица ANOVA (ANalisis Of VArianse).

Таблица 4.1

Таблица ANOVA для прямолинейной регрессии

Источник Сума квадратов Степени свободы Среднеквадратическое отклонение
Регрессия SST MSR = SSR / 1
Ошибки SSE n - 2 MSE = SSE / (n-2)
Общая SSR n - 1  

Последний столбец таблицы ANOVA — это среднеквадратичные значения. Среднеквадратичное регрессии, MSR — это регрессионная сумма квадратов, разделенная на их величину степеней свободы. Аналогично среднеквадратичное ошибок, МSЕ — это сумма квадратов ошибок, разделенная на их величину степеней свободы.

Из уравнения 4.8 имеется следующее:

Методические положения проведения регрессионного анализа. - student2.ru

, (4.17)

т.е. равенство МSЕ квадрату стандартной ошибки оценки. Отношение среднеквадратичных значений будет использовано для другой цели в этой главе дальше.

6 этап. Определение коэффициента детерминации.

Коэффициент детерминации измеряет долю изменчивости Y, которую можно объяс­нить с помощью информации об изменчивости (разнице значений) независимой пе­ременной X.

Тождество Методические положения проведения регрессионного анализа. - student2.ru (формула 4.14) приводит к разбиению дисперсии, данному в уравнении 4.15. Для регрессионной прямой данных проводимого прогноза гипотетических точек данных разбиение графически представлено на рис. 4.2.

Если величина Y не зависит от X, специалисту следует ожидать значения Y, близкие к Методические положения проведения регрессионного анализа. - student2.ru , а разности Y - Методические положения проведения регрессионного анализа. - student2.ru просто отражают случайные отклонения. Однако в действительности величина Y зависит от X, что демонстрируется функцией регрессии. На рисунке взято значение X, большее Методические положения проведения регрессионного анализа. - student2.ru , и известно, что X и Y имеют значительную отрицательную корреляцию (r = -0,86). Общее расстояние по вертикали равно Y - Методические положения проведения регрессионного анализа. - student2.ru ,величина Методические положения проведения регрессионного анализа. - student2.ru - Методические положения проведения регрессионного анализа. - student2.ru , следовательно "объясняется" изменением X,тогда как оставшееся по вертикали расстояние Y - Методические положения проведения регрессионного анализа. - student2.ru "не объясняется" изменением X.

Показатель SST измеряет общую вариацию относительно Методические положения проведения регрессионного анализа. - student2.ru , а ее часть, объясненная изменением X, соответствует SSR. Оставшаяся, или необъясненная вариация соответствует SSE. Отношение объясненной вариации к общей называется выборочным коэффициентом детерминации и обозначается r2.

Методические положения проведения регрессионного анализа. - student2.ru (4.18)

Методические положения проведения регрессионного анализа. - student2.ru Методические положения проведения регрессионного анализа. - student2.ru

Рис. 4.2. Объясненная и необъясненная дисперсии для данных прогноза

Наши рекомендации