Тема: Регрессионный анализ

1. Цель и содержание лабораторной работы.

Целью проведения лабораторной работы является изучение модели простой линейной регрессии, позволяющей прогнозировать значение зависимой переменной по величине независимой переменной.

Регрессия – это зависимость среднего значения какой-либо случайной величины от некоторой другой величины или нескольких величин. При регрессионной связи одному и тому же значению величины X (в отличие от функциональной связи) могут соответствовать разные случайные значения величины Y. Основное отличие от экстраполяции в том, что последняя является определением будущих, ожидаемых значений экономических величин, показателей на основе имеющихся данных об их изменении в прошлые периоды; перенесением прошлого на будущее, исходя из выявленных в прошлом тенденций изменения. Математически экстраполяция сводится к продолжению кривой, характеризующей предыдущее изменение экономического показателя.

В ходе изучения лабораторной работы необходимо рассмотреть теоретический материал проведения регрессионного анализа, решить задачу согласно выбранному варианту и составить отчет по установленным требованиям, содержащий пояснения результатов выполненного прогноза. Решение комплексной задачи проводится на основе представленного практического примера.

2. Методические положения проведения регрессионного анализа.

1 этап. Первым этапом составления прогноза проводится анализ зависимости между двумя переменными с помощью метода наименьших квадратов. Для наглядного изображения исходных данных, дальнейшего анализа и прогнозирования составляется диаграмма рассеивания исходных данных. Оценивается выборочный коэффициент корреляции, по результатам расчетов необходимо сделать соответствующие выводы.

2 этап. Построение прямой регрессии с помощью метода наименьших квадратов.

Для набора пар данных X — Y в качестве прямой наилучшего приближения будет выбираться такая, для которой наименьшее значение принимает сумма квадратов расстояний от точек (х, у) из заданного набора данных до этой прямой, измеренных в вертикальном направлении (по оси Y). Эта прямая называется прямой регрессии, а ее уравнение — уравнением регрессии.

Уравнение прямой приближения имеет вид Тема: Регрессионный анализ - student2.ru . Первый параметр называется свободным членом, а второй — угловым коэффициентом, отражающим величину, на которую изменяется значение Y при увеличении X на единицу. Таким образом, необходимо определить данные параметры.

Построение прямой регрессии проводится с помощью критерия наименьших квадратов.

Тема: Регрессионный анализ - student2.ru (4.1)

Тема: Регрессионный анализ - student2.ru , (4.2)

Тема: Регрессионный анализ - student2.ru , (4.3)

где Тема: Регрессионный анализ - student2.ru -свободный член;

Тема: Регрессионный анализ - student2.ru -угловой коэффициент;

SSE – сумма квадратов ошибок.

Как можно предположить, значение углового коэффициента Тема: Регрессионный анализ - student2.ru связано с выборочным коэффициентом корреляции. В данном случае получается следующее:

Тема: Регрессионный анализ - student2.ru . (4.4)

Значит Тема: Регрессионный анализ - student2.ru и b₀ пропорциональны друг другу и имеют один и тот же знак.

Разности между фактически полученными значениями Y и вычисленными по уравнению регрессии соответствующими значениями прогнозов Тема: Регрессионный анализ - student2.ru называются отклонениями. Отклонения — это расстояния по вертикали (положительные или отрицательные) от точек, отмеченных по исходным данным, до прямой регрессии.

Можно сказать, что величины прогноза являются моделируемыми значениями рассматриваемыхданных, а отклонения показывают отличие от ожидаемой модели. Разделение на прогноз и отклонение применяется и в тех ситуациях, когда рассматривается модель, отличная от прямой линии.

В модели простой линейной регрессии зависимая величина Y является суммой ее математического ожидания и случайного отклонения ε. Значения ε отражают возможную вариацию величин Y, в них скрыто влияние различных ненаблюдаемых факторов.

3 этап. Определение стандартной ошибки оценки.

Имея прямую регрессии, можно определить, насколько сильно точки исходных данных отклоняются от прямой регрессии. Можно выполнить оценку разброса, аналогичную стандартному отклонению выборки. Этот показатель, называемый стандартной ошибкой оценки, измеряет степень отличия реальных значений Y от оцененной величины Тема: Регрессионный анализ - student2.ru . Она обозначается через и вычисляется по следующей формуле:

Тема: Регрессионный анализ - student2.ru . (4.5)

Стандартная ошибка оценки подобна стандартному отклонению. Ее можно использовать для оценки стандартного отклонения совокупности. Фактически Тема: Регрессионный анализ - student2.ru оценивает стандартное отклонение σ слагаемого ошибки в статистической модели простой линейной регрессии. Другими словами оценивает общее стандартное отклонение σ нормального распределения значений Y, имеющих математические ожидания Тема: Регрессионный анализ - student2.ru + ε для каждого X.

Если стандартная ошибка оценки велика, точки данных могут значительно удаляться от прямой.

Для удобства вычислений уравнение (4.5) можно привести к следующему виду:

Тема: Регрессионный анализ - student2.ru . (4.6)

4 этап. Прогнозирование величины Y.

Регрессионную прямую можно использовать для оценки величины переменной Y при данных значениях переменной X. Чтобы получить точечный прогноз, или предсказание для данного значения X, необходимо вычислить значение найденной функции регрессии в точке X.

Есть два источника неопределенности в точечном прогнозе, использующем уравнение регрессии.

1. Неопределенность, обусловленная отклонением точек данных от выборочной прямой регрессии.

2. Неопределенность, обусловленная отклонением выборочной прямой регрессии от регрессионной прямой генеральной совокупности.

Интервальный прогноз значений переменной Y можно построить так, что при этом будут учтены оба источника неопределенности.

Стандартная ошибка прогноза Тема: Регрессионный анализ - student2.ru дает меру вариативности предсказанного значения Y около истинной величины Y для данного значения X. Стандартная ошибка прогноза равна следующему:

Тема: Регрессионный анализ - student2.ru ; (4.7)

Тема: Регрессионный анализ - student2.ru . (4.8)
Первое слагаемое под первым радикалом в уравнении 5.7 дает меру отклонения точек данных от выборочной прямой регрессии (первый источник неопределенности). Второе слагаемое Тема: Регрессионный анализ - student2.ru измеряет отклонение выборочной прямой регрессии от регрессионной прямой генеральной совокупности (второй источник неопределенности). Отметим, что стандартная ошибка прогноза зависит от значения X, для которого прогнозируется величина Y. Также следует отметить, что Тема: Регрессионный анализ - student2.ru минимально, когда X = , поскольку тогда числитель в третьем слагаемом под корнем в уравнении 4.7 будет = 0 . При прочих неизменных величинах большему отличию X от Тема: Регрессионный анализ - student2.ru соответствует большее значение стандартной ошибки прогноза.

Если статистическая модель простой линейной регрессии соответствует действительности, границы интервала прогноза величины Y равны следующему:

Тема: Регрессионный анализ - student2.ru ts_f ,(4.9)

где t — квантиль распределения Стьюдента с п-2 степенями свободы (df=n-2).

Если выборка велика (n Тема: Регрессионный анализ - student2.ru 30), этот квантиль можно заменить соответствующим квантилем стандартного нормального распределения. Например, для большой выборки 95%-ный интервал прогноза задается следующими значениями:

Тема: Регрессионный анализ - student2.ru . (4.10)

5 этап.Разложение дисперсии.

Из уравнения можно выявить следующее:

Тема: Регрессионный анализ - student2.ru или (4.11)

Тема: Регрессионный анализ - student2.ru

В идеале, когда все точки лежат на прямой регрессии, все остатки равны нулю и значения Y полностью вычисляются или объясняются линейной функцией от X.

Отнимая Тема: Регрессионный анализ - student2.ru от обеих частей предыдущего равенства, имеется следующее:

Тема: Регрессионный анализ - student2.ru . (4.12)

Несложными алгебраическими преобразованиями можно показать, что суммы квадратов складываются:

Тема: Регрессионный анализ - student2.ru (4.13)

или

SST=SSR+SSE , (4.14)

где SST= Тема: Регрессионный анализ - student2.ru , SSR= , SSE= .

Здесь SS обозначает "сумма квадратов'' (Sum of Squares), а Т, R, Е — соответственно "общая" (Total), "регрессионная" (Regression) и "ошибки" (Еrrоr). С этими суммами квадратов связаны следующие величины степеней свободы:

· df (SST) = n-1;

· df (SSR) = n;

· df (SSE) = n-2.

Так же, как и суммы квадратов, степени свободы связаны следующим соотношением.

n – 1 = 1 + (n-2) . (4.15)

Если линейной связи нет, Y не зависит от X и дисперсия Y оценивается значением выборочной дисперсии:

Тема: Регрессионный анализ - student2.ru . (4.16)

Если, с другой стороны, связь между X и Y имеется, она может влиять на некоторые разности значений Y.

Регрессионная сумма квадратов, SSR, измеряет часть дисперсии Y, объясняемую линейной зависимостью. Сумма квадратов ошибок, SSE, — это оставшаяся часть дисперсии Y, или дисперсия Y, не объясненная линейной зависимостью.

Разложение дисперсии
SST =	SSR +	SSE
Общая изменчивость Y	Изменчивость, объясненная линейной зависимостью	Остаток, или необъясненная изменчивость

Суммы квадратов, связанные с разложением изменчивости Y, и их соответствующие величины степеней свободы могут быть размещены так, как показано в табл. 4.1, известной как таблица анализа дисперсии или таблица ANOVA (ANalisis Of VArianse).

Таблица 4.1

Таблица ANOVA для прямолинейной регрессии

Источник	Сума квадратов	Степени свободы	Среднеквадратическое отклонение
Регрессия	SST		MSR = SSR / 1
Ошибки	SSE	n - 2	MSE = SSE / (n-2)
Общая	SSR	n - 1

Последний столбец таблицы ANOVA — это среднеквадратичные значения. Среднеквадратичное регрессии, MSR — это регрессионная сумма квадратов, разделенная на их величину степеней свободы. Аналогично среднеквадратичное ошибок, МSЕ — это сумма квадратов ошибок, разделенная на их величину степеней свободы.

Из уравнения 4.8 имеется следующее:

Тема: Регрессионный анализ - student2.ru

, (4.17)

т.е. равенство МSЕ квадрату стандартной ошибки оценки. Отношение среднеквадратичных значений будет использовано для другой цели в этой главе дальше.

6 этап. Определение коэффициента детерминации.

Коэффициент детерминации измеряет долю изменчивости Y, которую можно объяснить с помощью информации об изменчивости (разнице значений) независимой переменной X.

Тождество Тема: Регрессионный анализ - student2.ru (формула 4.14) приводит к разбиению дисперсии, данному в уравнении 4.15. Для регрессионной прямой данных проводимого прогноза гипотетических точек данных разбиение графически представлено на рис. 4.2.

Если величина Y не зависит от X, специалисту следует ожидать значения Y, близкие к Тема: Регрессионный анализ - student2.ru , а разности Y - просто отражают случайные отклонения. Однако в действительности величина Y зависит от X, что демонстрируется функцией регрессии. На рисунке взято значение X, большее Тема: Регрессионный анализ - student2.ru , и известно, что X и Y имеют значительную отрицательную корреляцию (r = -0,86). Общее расстояние по вертикали равно Y - ,величина - , следовательно "объясняется" изменением X,тогда как оставшееся по вертикали расстояние Y - Тема: Регрессионный анализ - student2.ru "не объясняется" изменением X.

Показатель SST измеряет общую вариацию относительно Тема: Регрессионный анализ - student2.ru , а ее часть, объясненная изменением X, соответствует SSR. Оставшаяся, или необъясненная вариация соответствует SSE. Отношение объясненной вариации к общей называется выборочным коэффициентом детерминации и обозначается r².

Тема: Регрессионный анализ - student2.ru (4.18)

Тема: Регрессионный анализ - student2.ru

Рис. 4.2. Объясненная и необъясненная дисперсии для данных прогноза

3. Практический пример построения прогноза на основе регрессионного анализа.

Специалист планово-экономического отдела (ПЭО) машиностроительного завода изучает цены и объемы продажи изделия, выбрав произвольным образом десять недель. Собранные им данные представлены в табл. 4.2.

Таблица 4.2

Данные о продаже изделия

Номер недели	Количество проданного изделия (тыс. шт) - Y	Цена одного изделия (усл. ед) - Х
		1,3
		2,0
		1,7
		1,5
		1,6
		1,2
		1,6
		1,4
		1,0
		1,1

Решение.

Этап 1. Для наглядного изображения исходных данных и дальнейшего анализа и прогнозирования составляется диаграмма рассеивания для исходных данных, представленная на рис. 4.3.

Тема: Регрессионный анализ - student2.ru Рис. 4.3. Диаграмма рассеивания

Диаграмма показывает, что имеет место обратная линейная зависимость между переменной Y (количеством проданных изделий) и переменной X (ценой одного изделия). Можно сделать вывод, что при возрастании цены объем продаж уменьшается.

Таким образом, далее целесообразно оценить количественную меру обнаруженной зависимости. Для этого вычисляется выборочный коэффициент корреляции на основе формулы 4.19.

Тема: Регрессионный анализ - student2.ru . (4.19)

Вспомогательные расчеты представляются в таблице 4.3.

Таблица 4.3

Расчеты коэффициента корреляции

n=10	Y	X	XY	Y²	Х²
	10,0	1,3	13,00	100,00	1,69
6,0	2,0	12,00	36,00	4,00
5,0	1,7	8,50	25,00	2,89
12,0	1,5	18,00	144,00	2,25
10,0	1,6	16,00	100,00	2,56
15,0	1,2	18,00	225,00	1,44
5,0	1,6	8,00	25,00	2,56
12,0	1,4	16,80	144,00	1,96
17,0	1,0	17,00	289,00	1,00
20,0	1,1	22,00	400,00	1,21
Сумма	112,0	14,4	149,30	1488,00	21,56

Тема: Регрессионный анализ - student2.ru .

Расчеты коэффициента корреляции достаточно просто можно провести в Excel: Сервис → Анализ данных → Корреляция.

По результатам расчетов значение выборочного коэффициента корреляции, равное -0,86, указывает на довольно тесную обратную зависимость между переменными Y и Х, т.е. при возрастании цены одного изделия количество продаваемых изделий падает.

При этом возникает следующий вопрос: на сколько уменьшается продажа изделий при увеличении его цены? В данном случае на диаграмме рассеивания можно провести прямую, проходящую достаточно близко от отмеченных точек. Тогда наклон прямой покажет, на сколько изделий в среднем будет уменьшаться величина Y при увеличении величины Х на одну усл. ед.

Этап 2.Провести требуемую прямую, визуально сориентировав ее так, чтобы она находилась как можно ближе к отмеченным на диаграмме точкам, можно по-разному. Необходим такой способ нахождения прямой наилучшего приближения, при использовании которого любой человек будет получать один и тот же результат для заданного набора данных. Для однозначного определения прямой наилучшего приближения чаще всего применяется критерий наименьших квадратов.

С помощью метода наименьших квадратов вычисляются оценки коэффициентов регрессии для данных специалиста ПЭО. Вычисления проводятся на основе уравнений 4. 3 и 4. 4, а также числовых значений из табл. 4.3. Определяется следующее:

Тема: Регрессионный анализ - student2.ru ,

Тема: Регрессионный анализ - student2.ru .

Тогда уравнение прямой регрессии, определенное по методу наименьших квадратов, будет иметь следующий вид:

Тема: Регрессионный анализ - student2.ru . (4.21)

Смысл коэффициентов из этого уравнения: свободный член Тема: Регрессионный анализ - student2.ru — это значение Y при X, равном нулю. Формально интерпретируя уравнение, получаем, что при Х = 0 (т.е. при нулевой стоимости изделия) среднее количество продаваемых изделий будет равно 32 140. Это не соответствует здравому смыслу. Данная проблема связана с прогнозом значений Y для значений X,заметно отличающихся от тех, которые представлены в выборке данных. Так, в выборке нет величин X, близких к нулю. В этой ситуации, как и во многих других случаях применения регрессионного анализа, разумная интерпретация свободного члена уравнения регрессии не представляется возможной.

В общем случае неразумно прогнозировать значения Y для тех X, которые лежат вне множества значений переменной X, встречающихся в выборке. Функцию регрессии следует считать подходящей аппроксимацией реальной ситуации только в той области, из которой взяты анализируемые данные. Экстраполяция функции вне этой области возможна только при справедливости достаточно ограничивающего предположения о том, что характер зависимости Y от X при этом не изменяется.

Угловой коэффициент Тема: Регрессионный анализ - student2.ru можно интерпретировать как среднее изменение величины Y при возрастании Х на единицу. В данном примере Y в среднем уменьшается на 14 540 (т.е. будет продано на 14 540 тыс. шт. меньше) при возрастании X на единицу (т.е. при возрастании цены изделия на одну усл. ед.). Каждое увеличение цены на одну усл. ед. уменьшает объем продажи в среднем на 14 540 изделий, т.е. наша выборка показывает, что увеличение цены на одну усл. ед. уменьшает количество продаваемых изделий на 14,54.

Связь значений переменных X и Y может быть проиллюстрирована на диаграмме рассеивания путем проведения прямой, являющейся наилучшим приближением этой зависимости (рис. 4.4).

Тема: Регрессионный анализ - student2.ru

Рис. 4.4. Данные прогноза

Обратите внимание на то, что вертикальные отрезки от точек данных до прямой проведены пунктиром. Сумма квадратов длин отрезков, проведенных к этой прямой, должна быть меньше аналогичной суммы квадратов длин, проведенных к любой другой прямой. (Для данных специалиста ПЭО сумма квадратов длин равна SSЕ = 59,14). Из метода наименьших квадратов следует, что данная прямая является наилучшим приближением для заданных 10 точек исходных данных.

Этап 3.Определение стандартной ошибки.

Для данных специалиста ПЭО стандартная ошибка оценки равна следующему:

Тема: Регрессионный анализ - student2.ru .

Для величины Y принимающей значения от 3 до 18 (рис. 4.4), значение Тема: Регрессионный анализ - student2.ru = 2,72 довольно велико и указывает, что существенная часть вариации величины Y (количества проданных изделий) не объясняется изменением величины X (цены). Это утверждение будет исследовано позже.

Этап 4. Прогнозирование величины Y.

Предположительно специалист хочет получить прогноз количества изделий, которое будет продано при цене 1,63 усл. ед. за штуку. Из уравнения (4.21) получается 8440 штук.

Тема: Регрессионный анализ - student2.ru .

Данный прогноз — это значение величины Y. Поэтому интересующий прогноз будет координатой Y точки с координатой X = 1,63 на регрессионной прямой.

Конечно, реальные значения величины Y, соответствующие рассматриваемым значениям величины X, к сожалению, не лежат в точности на регрессионной прямой. Фактически они разбросаны относительно прямой в соответствии с величиной Тема: Регрессионный анализ - student2.ru . Более того, выборочная (построенная графически) регрессионная прямая является оценкой регрессионной прямой генеральной совокупности, основанной на выборке всего лишь из 10 пар данных. Другая случайная выборка 10 пар данных даст иную выборочную прямую регрессии; это аналогично ситуации, когда различные выборки из одной и той же генеральной совокупности дают различные значения выборочного среднего.

Графически 95%-ный интервал прогноза значений Y для данных специалиста представлен на рис. 4.5.

Тема: Регрессионный анализ - student2.ru

Рис. 4.5. 95%-ный интервал прогноза значений Y

Используя результаты из табл. 4.3 и уравнения 4.11, где X =1,44 , определяется стандартная ошибка прогноза в точке X = 1,63.

Таблица 4.4

Расчет стандартной ошибки прогноза

X
1,3	0,0196
2,0	0,3136
1,7	0,0676
1,5	0,0036
1,6	0,0256
1,2	0,0576
1,6	0,0256
1,4	0,0016
1,0	0,1936
1,1	0,1156

Тема: Регрессионный анализ - student2.ru .

При Тема: Регрессионный анализ - student2.ru и X=1,63, используя уравнение 11, определяется 95%-ный интервал прогноза значений Y:

Тема: Регрессионный анализ - student2.ru =8,44 2,306*2,91=8,44 6,71

или (1,73;15,15), т.е. от 1730 до 15150 штук.

Здесь 2,306= Тема: Регрессионный анализ - student2.ru - это нижний 2,5%-ый квантиль; t – распределения с 8 степенями свободы.

Интервал прогноза настолько велик, что практически бесполезен для прогнозирования значений величины Y. Это связано с тем, что исходная выборка мала, а значение Тема: Регрессионный анализ - student2.ru сравнительно велико. Степень неопределенности, представленная большим интервалом прогноза, не видна по отдельным точечным прогнозам, полученным из функции регрессии. Значительным преимуществом интервальной оценки является явное отражение неопределенности, связанной с прогнозом.

Вообще говоря, опасно использовать регрессионную функцию для предсказания значений величины Y вне области имеющихся данных. Специалист вполне оправданно пытается получить прогноз для величины Y при Х= 1,63, поскольку некоторые из имеющихся в исходных данных значений X близки к 1,63. С другой стороны, нельзя прогнозировать значение Y при X=3,00. Среди исходных данных нет таких больших значений X и поэтому любой прогноз значения Y для подобного значения X очень сомнителен. При попытке оценить количество изделий, которое может быть продано по цене 3 усл. ед. за штуку, специалист должен исходить из предположения, что при подобных значениях цены линейная модель остается верной. У него могут быть определенные причины считать так, однако никаких явных свидетельств этого не существует.

Этап 5.Разложение дисперсии.

Специалист ПЭО начал свой анализ данных с информации об объемах продаж только за 10 недель (переменная Y). Если другой информации не поступит, он может использовать выборочное среднее Y=11,2 как прогноз количества продаваемых изделий для каждой недели. Ошибки или отклонения, связанные с этим прогнозом, равны Y - Тема: Регрессионный анализ - student2.ru , и сумма квадратов ошибок даст . Последнее значение, ,в точности равно SST, обшей сумме квадратов, введенной в уравнение 5.10. Таким образом, SSТ измеряет отклонение значения Y от прогноза, использующего лишь значения Y в его вычислении. (Если анализ остановить на этом этапе, отклонения Y следует измерять выборочной дисперсией Тема: Регрессионный анализ - student2.ru вместо SST= . Выборочная дисперсия является обычной мерой изменчивости наблюдений одной переменной.) Прогноз величины , значения отклонения Y - Тема: Регрессионный анализ - student2.ru суммы квадратов SST= приведены в табл. 4.5. (Сумма отклонений Y — всегда равна нулю, поскольку среднее является математическим центром значений Y).

Таблица 4.5

Отклонения для данных прогноза и значения прогноза Тема: Регрессионный анализ - student2.ru

Данные Y	Прогноз Y ( )	Отклонения (Y- )	(Y- )²
	11,2	-1,2	1,44
	11,2	-5,2	27,04
5,0	11,2	-6,2	38,44
12,0	11,2	0,8	0,64
10,0	11,2	-1,2	1,44
15,0	11,2	3,8	14,44
5,0	11,2	-6,2	38,44
12,0	11,2	0,8	0,64
17,0	11,2	5,8	33,64
20,0	11,2	8,8	77,44
Сумма:	0,0	233,6

Прогнозист также имеет информацию о значениях переменной X (о цене одного изделия), соответствующих величинам Y. (r = -0,86.) Можно ожидать, что с помощью этой дополнительной переменной мы сможем объяснить часть изменчивости (разностей) значений Y, не объясненной прогнозом Тема: Регрессионный анализ - student2.ru .

По расчетам линейный прогноз пар значений Х-Y задается уравнением Тема: Регрессионный анализ - student2.ru = 32,14 - 14,54X. Таблица, подобная табл. 5.5, может быть построена при в качестве прогноза значений Y.Результат приводится в табл. 4.6. (Если свободный член включен в уравнение регрессии, сумма отклонений Тема: Регрессионный анализ - student2.ru всегда равна нулю).

Таблица 4.6

Отклонения для данных при значении прогноза Тема: Регрессионный анализ - student2.ru

X	Y	Прогноз Y ( ), использующий уравнение	Отклонения (Y- )	(Y- )²
1,3	10,0	13,238	-3,238	10,485
2,0	6,0	3,06	2,940	8,644
1,7	5,0	7,422	-2,422	5,866
1,5	12,0	10,33	1,670	2,789
1,6	10,0	8,876	1,124	1,263
1,2	15,0	14,692	0,308	0,095
1,6	5,0	8,876	-3,876	15,023
1,4	12,0	11,784	0,216	0,047
1,0	17,0	17,6	-0,600	0,360
1,1	20,0	16,146	3,854	14,853
Сумма:	0,0	59,41

Сравнение табл. 4.5 и 4.6показывает, что использование Тема: Регрессионный анализ - student2.ru в качестве прогноза значения Y приводит, вообще говоря, к меньшим отклонениям (по абсолютной величине) и существенно меньшим суммам квадратов остатков (ошибок), чем применение для прогноза значения Тема: Регрессионный анализ - student2.ru . Использование соответствующих значений X уменьшает ошибку прогноза (предсказания). Таким образом, знание значений X помогает лучше объяснить разности Y. Но в какой мере может помочь знание значений X? Ответ на этот вопрос можно получить посредством разбиения изменчивости.

Используя данные из табл. 4.5, 4.6 и уравнение 4.14, имеется

SST= Тема: Регрессионный анализ - student2.ru =233,6;

SSE= Тема: Регрессионный анализ - student2.ru =59,41

и, следовательно,

SSR= Тема: Регрессионный анализ - student2.ru = SST- SSE = 233,6 - 59,41 = 174,19.

Разбиение изменчивости является следующим:

SST =	SSR +	SSE
233,6 =	174,19 +	59,41
Общая вариация	Объясненная вариация	Необъясненная вариация

Для изменчивости, оставшейся после предсказания Y через значение Тема: Регрессионный анализ - student2.ru , специалист получил следующее значение:

Тема: Регрессионный анализ - student2.ru .

Это та часть, которая объясняется взаимосвязью значений Y и X. Доля вариации Y относительно Тема: Регрессионный анализ - student2.ru , равная 1 – 0,75 = 0,25, осталась необъясненной. С этой точки зрения знание значений соответствующей переменной X приводит к лучшему прогнозу значений Y, чем прогноз, полученный из значения Тема: Регрессионный анализ - student2.ru , не зависящего от Х.

Разбиение изменчивости для данных прогноза может быть представлено в таблице анализа дисперсии ANOVA, общий вид которой представлен в табл. 4.1., 4.7.

Таблица 4.7

Таблица ANOVA по данным прогноза

Источник	Сумма квадратов	Степени свободы	Среднеквадратическое отклонение
Регрессия	174,19		174,19
Ошибки	59,41		7,43
Общая	233,6

Разбиение изменчивости ясно показано в столбце с суммами квадратов. Необходимо обратить внимание на то, что с учетом погрешности округления MSE=7,43=(2,72)²= Тема: Регрессионный анализ - student2.ru .

Этап 6.Расчеткоэффициента детерминации r² .

Для данных прогнозиста коэффициент был вычислен ранее. Значение коэффициента детерминации также можно легко получить из таблицы ANOVA, представленной табл. 5.7.

SST= Тема: Регрессионный анализ - student2.ru =233,6; SSR= = 174,19; SSE= =59,41

и r²= Тема: Регрессионный анализ - student2.ru .

Кроме того, r²можно вычислить следующим образом:

r²= Тема: Регрессионный анализ - student2.ru .

Около 75% изменчивости количества проданных штук изделий (Y) можно объяснить разницей в цене изделия (X). Около 25% изменчивости количества проданного молока нельзя объяснить изменением цены. Эта часть изменчивости может быть объяснена влиянием факторов, не учтенных в проведенном регрессионном анализе (например, рекламой, возможностью замены изделий, качеством материалов и т.п.).

В случае прямолинейной регрессии коэффициент детерминации r²равен квадрату коэффициента корреляции r:

коэффициент детерминации = (коэффициент корреляции)²,

r²= (r)².

Значит для данных специалиста, с учетом погрешности округления,

0,746 = (-0,843)².

Почему в регрессионном анализе коэффициенты r и r² необходимо рассматривать отдельно? Причина в том, что они несут различную информацию.

Коэффициент корреляции выявляет не только силу, но и направление линейной связи. В случае данных, собранных прогнозистом, имеет место отрицательная взаимосвязь (r= -0,86). В других случаях значение r может указывать на положительную взаимосвязь. Когда существует дело с большим набором переменных, иногда полезно учитывать характер взаимосвязи в некоторых парах переменных. Следует отметить, что когда коэффициент корреляции возводится в квадрат, полученное значение всегда будет положительным и информация о характере взаимосвязи теряется.

Коэффициент детерминации r²измеряет силу взаимосвязи между Y и X иначе, чем коэффициент корреляции r. Значение r² измеряет долю изменчивости Y, объясненную разницей значений X. Эту полезную интерпретацию можно обобщить на взаимосвязь между Y и более чем одной переменной X.

На рис. 4.6 иллюстрируется два крайних случая для значения коэффициента r²: r² = 0 и r²=1. В случае (а) изменчивость Y никак не объясняется изменениями X: диаграмма рассеивания не показывает никакой линейной взаимосвязи между значениями величин X и Y. В случае (б), когда коэффициент r² = 1, изменчивость Y полностьюобъясняется, если известны значения X: все точки данных в нашей выборке лежат на прямой регрессии.

Тема: Регрессионный анализ - student2.ru