Методические положения проведения регрессионного анализа.
1 этап. Первым этапом составления прогноза проводится анализ зависимости между двумя переменными с помощью метода наименьших квадратов. Для наглядного изображения исходных данных, дальнейшего анализа и прогнозирования составляется диаграмма рассеивания исходных данных. Оценивается выборочный коэффициент корреляции, по результатам расчетов необходимо сделать соответствующие выводы.
2 этап. Построение прямой регрессии с помощью метода наименьших квадратов.
Для набора пар данных X — Y в качестве прямой наилучшего приближения будет выбираться такая, для которой наименьшее значение принимает сумма квадратов расстояний от точек (х, у) из заданного набора данных до этой прямой, измеренных в вертикальном направлении (по оси Y). Эта прямая называется прямой регрессии, а ее уравнение — уравнением регрессии.
Уравнение прямой приближения имеет вид . Первый параметр называется свободным членом, а второй — угловым коэффициентом, отражающим величину, на которую изменяется значение Y при увеличении X на единицу. Таким образом, необходимо определить данные параметры.
Построение прямой регрессии проводится с помощью критерия наименьших квадратов.
(4.1)
, (4.2)
, (4.3)
где -свободный член;
-угловой коэффициент;
SSE – сумма квадратов ошибок.
Как можно предположить, значение углового коэффициента связано с выборочным коэффициентом корреляции. В данном случае получается следующее:
. (4.4)
Значит и b0 пропорциональны друг другу и имеют один и тот же знак.
Разности между фактически полученными значениями Y и вычисленными по уравнению регрессии соответствующими значениями прогнозов называются отклонениями. Отклонения — это расстояния по вертикали (положительные или отрицательные) от точек, отмеченных по исходным данным, до прямой регрессии.
Можно сказать, что величины прогноза являются моделируемыми значениями рассматриваемых данных, а отклонения показывают отличие от ожидаемой модели. Разделение на прогноз и отклонение применяется и в тех ситуациях, когда рассматривается модель, отличная от прямой линии.
В модели простой линейной регрессии зависимая величина Y является суммой ее математического ожидания и случайного отклонения ε. Значения ε отражают возможную вариацию величин Y, в них скрыто влияние различных ненаблюдаемых факторов.
3 этап. Определение стандартной ошибки оценки.
Имея прямую регрессии, можно определить, насколько сильно точки исходных данных отклоняются от прямой регрессии. Можно выполнить оценку разброса, аналогичную стандартному отклонению выборки. Этот показатель, называемый стандартной ошибкой оценки, измеряет степень отличия реальных значений Y от оцененной величины . Она обозначается через и вычисляется по следующей формуле:
. (4.5)
Стандартная ошибка оценки подобна стандартному отклонению. Ее можно использовать для оценки стандартного отклонения совокупности. Фактически оценивает стандартное отклонение σ слагаемого ошибки в статистической модели простой линейной регрессии. Другими словами оценивает общее стандартное отклонение σ нормального распределения значений Y, имеющих математические ожидания + ε для каждого X.
Если стандартная ошибка оценки велика, точки данных могут значительно удаляться от прямой.
Для удобства вычислений уравнение (4.5) можно привести к следующему виду:
. (4.6)
4 этап. Прогнозирование величины Y.
Регрессионную прямую можно использовать для оценки величины переменной Y при данных значениях переменной X. Чтобы получить точечный прогноз, или предсказание для данного значения X, необходимо вычислить значение найденной функции регрессии в точке X.
Есть два источника неопределенности в точечном прогнозе, использующем уравнение регрессии.
1. Неопределенность, обусловленная отклонением точек данных от выборочной прямой регрессии.
2. Неопределенность, обусловленная отклонением выборочной прямой регрессии от регрессионной прямой генеральной совокупности.
Интервальный прогноз значений переменной Y можно построить так, что при этом будут учтены оба источника неопределенности.
Стандартная ошибка прогноза дает меру вариативности предсказанного значения Y около истинной величины Y для данного значения X. Стандартная ошибка прогноза равна следующему:
; (4.7)
. (4.8)
Первое слагаемое под первым радикалом в уравнении 5.7 дает меру отклонения точек данных от выборочной прямой регрессии (первый источник неопределенности). Второе слагаемое измеряет отклонение выборочной прямой регрессии от регрессионной прямой генеральной совокупности (второй источник неопределенности). Отметим, что стандартная ошибка прогноза зависит от значения X, для которого прогнозируется величина Y. Также следует отметить, что минимально, когда X = , поскольку тогда числитель в третьем слагаемом под корнем в уравнении 4.7 будет = 0 . При прочих неизменных величинах большему отличию X от соответствует большее значение стандартной ошибки прогноза.
Если статистическая модель простой линейной регрессии соответствует действительности, границы интервала прогноза величины Y равны следующему:
tsf ,(4.9)
где t — квантиль распределения Стьюдента с п-2 степенями свободы (df=n-2).
Если выборка велика (n 30), этот квантиль можно заменить соответствующим квантилем стандартного нормального распределения. Например, для большой выборки 95%-ный интервал прогноза задается следующими значениями:
. (4.10)
5 этап. Разложение дисперсии.
Из уравнения можно выявить следующее:
или (4.11)
В идеале, когда все точки лежат на прямой регрессии, все остатки равны нулю и значения Y полностью вычисляются или объясняются линейной функцией от X.
Отнимая от обеих частей предыдущего равенства, имеется следующее:
. (4.12)
Несложными алгебраическими преобразованиями можно показать, что суммы квадратов складываются:
(4.13)
или
SST=SSR+SSE , (4.14)
где SST= , SSR= , SSE= .
Здесь SS обозначает "сумма квадратов'' (Sum of Squares), а Т, R, Е — соответственно "общая" (Total), "регрессионная" (Regression) и "ошибки" (Еrrоr). С этими суммами квадратов связаны следующие величины степеней свободы:
· df (SST) = n-1;
· df (SSR) = n;
· df (SSE) = n-2.
Так же, как и суммы квадратов, степени свободы связаны следующим соотношением.
n – 1 = 1 + (n-2) . (4.15)
Если линейной связи нет, Y не зависит от X и дисперсия Y оценивается значением выборочной дисперсии:
. (4.16)
Если, с другой стороны, связь между X и Y имеется, она может влиять на некоторые разности значений Y.
Регрессионная сумма квадратов, SSR, измеряет часть дисперсии Y, объясняемую линейной зависимостью. Сумма квадратов ошибок, SSE, — это оставшаяся часть дисперсии Y, или дисперсия Y, не объясненная линейной зависимостью.
Разложение дисперсии | ||
SST = | SSR + | SSE |
Общая изменчивость Y | Изменчивость, объясненная линейной зависимостью | Остаток, или необъясненная изменчивость |
Суммы квадратов, связанные с разложением изменчивости Y, и их соответствующие величины степеней свободы могут быть размещены так, как показано в табл. 4.1, известной как таблица анализа дисперсии или таблица ANOVA (ANalisis Of VArianse).
Таблица 4.1
Таблица ANOVA для прямолинейной регрессии
Источник | Сума квадратов | Степени свободы | Среднеквадратическое отклонение |
Регрессия | SST | MSR = SSR / 1 | |
Ошибки | SSE | n - 2 | MSE = SSE / (n-2) |
Общая | SSR | n - 1 |
Последний столбец таблицы ANOVA — это среднеквадратичные значения. Среднеквадратичное регрессии, MSR — это регрессионная сумма квадратов, разделенная на их величину степеней свободы. Аналогично среднеквадратичное ошибок, МSЕ — это сумма квадратов ошибок, разделенная на их величину степеней свободы.
Из уравнения 4.8 имеется следующее:
, (4.17)
т.е. равенство МSЕ квадрату стандартной ошибки оценки. Отношение среднеквадратичных значений будет использовано для другой цели в этой главе дальше.
6 этап. Определение коэффициента детерминации.
Коэффициент детерминации измеряет долю изменчивости Y, которую можно объяснить с помощью информации об изменчивости (разнице значений) независимой переменной X.
Тождество (формула 4.14) приводит к разбиению дисперсии, данному в уравнении 4.15. Для регрессионной прямой данных проводимого прогноза гипотетических точек данных разбиение графически представлено на рис. 4.2.
Если величина Y не зависит от X, специалисту следует ожидать значения Y, близкие к , а разности Y - просто отражают случайные отклонения. Однако в действительности величина Y зависит от X, что демонстрируется функцией регрессии. На рисунке взято значение X, большее , и известно, что X и Y имеют значительную отрицательную корреляцию (r = -0,86). Общее расстояние по вертикали равно Y - ,величина - , следовательно "объясняется" изменением X,тогда как оставшееся по вертикали расстояние Y - "не объясняется" изменением X.
Показатель SST измеряет общую вариацию относительно , а ее часть, объясненная изменением X, соответствует SSR. Оставшаяся, или необъясненная вариация соответствует SSE. Отношение объясненной вариации к общей называется выборочным коэффициентом детерминации и обозначается r2.
(4.18)
Рис. 4.2. Объясненная и необъясненная дисперсии для данных прогноза