Тема 8. КОРРЕЛЯЦИОННЫЙ МЕТОД АНАЛИЗА СВЯЗЕЙ. МОДЕЛИ ПАРНОЙ РЕГРЕССИИ
Корреляционный метод имеет две основные задачи:
1)обнаружить зависимость между факторным и результативным признаками и описать её форму с помощью уравнения регрессии;
2)установить меру тесноты связи между признаками (в какой мере вариация х обуславливает вариацию у).
Приступая к изучению корреляционной зависимостиследует помнить о том, что, прежде всего, необходимо провести предварительный теоретический анализ. Он должен ответить на вопрос о том, существует ли такая связь вообще. Из истории статистики известно, что несоблюдение этого правила не раз приводило исследователей к курьезным результатам.
Предварительный теоретический анализ позволяет во многих случаях подсказать и форму связи (прямолинейная или более сложная), установить, является ли связь прямой пли обратной.
Сказанное выше означает, что каждый, кто прибегает к использованию метода корреляции, должен хорошо владеть не только данным методом, но и знанием предмета своего исследования.
Корреляционную связь, в которой есть только один признак-фактор и один признак-результат, именуют парной. Уравнение, выражающее такую связь, представляют какой-либо математической формулой прямой или кривых линий (гипербола, парабола и др.).
Для нахождения формы связи и описания ее в виде уравнения линии используют:
— группировку статистических данных;
— построение графика эмпирической линии.
Если точек очень много, то рассматривают не линию, а облако точек на графике корреляционного поля. В реальной практике не всегда удается достаточно уверенно по эмпирической линии установить форму линии связи. В этих случаях принимают несколько вариантов формы связи, по каждому из них делают расчеты и в конце дают оценку вариантов с помощью показателя тесноты связи. Вариант, в котором теснота связи оказалась наиболее высокой, принимается за наиболее верный.
Если форма связи выражается прямой линией, то уравнение регрессии имеет вид:
,
где - теоретическое значение,
и - параметры уравнения.
Параметр экономической интерпретации не имеет. Параметр называется коэффициентом регрессии, который показывает насколько изменится результативный признак ( ) при изменении признака-фактора (x) на одну единицу.
Параметры уравнения и найдем из решения системы двух нормальных уравнений:
Уравнение регрессии можно использовать для прогнозирования, если связь между факторным и результативным признаками достаточно тесная.
В случае прямолинейной формы связи теснота может быть измерена линейным коэффициентом корреляции по формуле:
.
Коэффициент корреляции может находится в пределах от 0 (связь отсутствует) до (связь полная). Знак «+» указывает на прямую, а знак «-» на обратную связь.
Существуют способы оценки тесноты связи. В частности, по таблице Чэддока тесноту связи определяют:
Значение коэффициента (по модулю) | Теснота связи |
0,1-0,3 0,3-0,5 0,5-0,7 0,7-0,9 0,9-0,99 | слабая умеренная заметная высокая весьма высокая |
В упрощенном виде считают, что если коэффициент (по модулю) составляет от 0,1 до 0,3 – связь слабая, от 0,3 до 0,7 – средняя, от 0,7 и выше – тесная.
Уравнение линейной регрессии также можно найти по формуле (II способ):
,
где – линейный коэффициент корреляции;
, , , , ,
, .
Оценить тесноту связи можно также с помощью корреляционного отношения, которое вычисляется по формуле:
,
где - индивидуальные значения результативного признака,
- теоретические значения результативного признака, которые находятся по уравнению регрессии,
- среднее значение результативного признака.
При этом абсолютная величина коэффициента корреляции равна корреляционному отношению.
Для оценки степени соответствия модели фактическим данным служит коэффициент детерминации
.
Коэффициент детерминации показывает, какую часть фактической вариации переменной y составляет вариация регрессии.
К простейшим показателям степени тесноты связи относят
а) коэффициент корреляции знаков Фехнера:
,
где - число совпадений знаков отклонений индивидуальных величин от средней величины;
- число несовпадений знаков отклонений индивидуальных величин от средней величины.
б) коэффициент корреляции рангов Кендалла:
.
Для расчета все единицы ранжируются по признаку x, по ряду другого признака y подсчитывается для каждого ранга число последующих рангов, превышающих данный (их сумму обозначим P) и число последующих рангов, ниже данного (их сумму обозначим Q).
в) коэффициент корреляции рангов Спирмена:
,
где - разность между рангами переменной x и y.
Коэффициенты корреляции знаков Фехнера,рангов Кендалла, рангов Спирмена могут принимать значения от -1 до +1. Если эти коэффициенты больше нуля, то существует прямая корреляционная связь между исследуемыми признаками, а если меньше нуля, то обратная корреляционная связь. Чем ближе значения этих коэффициентов по модулю к единице, тем теснее связь между изучаемыми признаками. Причем значения, равные также свидетельствуют о корреляционной связи ( в отличие от линейного коэффициента корреляции).
Преимущество коэффициентов корреляции рангов состоит в том, что ранжировать можно и по таким признакам, которые нельзя выразить численно: можно проранжировать кандидатов на занятие определенной должности по профессиональному уровню, по умению руководить коллективом и т.п.
Недостатком коэффициентов корреляции рангов является то, что одинаковым разностям рангов могут соответствовать совершенно отличные разности значений признаков (в случае количественных признаков). Поэтому для количественных признаков следует считать корреляцию рангов, как и коэффициент знаков Фехнера, приближёнными мерами тесноты связи.
Значимость (надежность) вычисленного значения линейного коэффициента корреляции r определяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости линейного коэффициента корреляции) при конкурирующей гипотезе .
1. Наблюдаемое значение критерия находится по формуле:
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где - уровень значимости, обычно или ( , где - доверительная вероятность);
n-2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу об отсутствии связи между показателями x и y.
Если , то отклоняем нулевую гипотезу об отсутствии связи между показателями x и y. Т.е. полученное значение r считается значимым и принимаем гипотезу о наличии статистической связи между показателями.
Значимость простой линейной регрессии проверяется с помощью F-критерия Фишера. Проверяется нулевая гипотеза при конкурирующей гипотезе .
1. Наблюдаемое значение критерия находится по формуле:
;
2. Критическую точку F-критерия Фишера определяем по соответствующей таблице
,
где - уровень значимости, обычно или ( , где - доверительная вероятность), m – количество объясняющих переменных модели (для модели простой парной корреляции m=1);
m и n-m-1= n-2 – числа степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу об отсутствии линейной регрессии между показателями x и y (необходимо строить нелинейную регрессию).
Если , то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о наличии линейной регрессии между показателями x и y.
Значимость коэффициента регрессии b проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза (о незначимости коэффициента регрессии) при конкурирующей гипотезе .
1. Наблюдаемое значение критерия находится по формуле:
,
где - среднеквадратическая (стандартная) ошибка параметра регрессии b, находится по формуле
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где - уровень значимости, обычно или ( , где - доверительная вероятность);
n-2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии почти не отличается от нуля или равен нулю.
Если , то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.
Значимость параметра a проверяется с помощью t-критерия Стьюдента. Проверяется нулевая гипотеза при конкурирующей гипотезе .
1. Наблюдаемое значение критерия находится по формуле:
,
где - среднеквадратическая (стандартная) ошибка параметра регрессии a, находится по формуле
;
2. Критическую точку t-критерия Стьюдента определяем по соответствующей таблице
,
где - уровень значимости, обычно или ( , где - доверительная вероятность);
n-2 – число степеней свободы, а n – количество наблюдений;
3. Сравниваем наблюдаемое значение критерия и критическую точку:
Если , то принимаем нулевую гипотезу о незначимости параметра a, т.е. параметра a почти не отличается от нуля или равен нулю.
Если , то отклоняем нулевую гипотезу о незначимости параметра a, т.е. параметра a не равен нулю.
Доверительные интервалы параметров регрессии при уровне значимости определяются по формулам:
где
- среднеквадратическая ошибка параметра регрессии a,
- среднеквадратическая ошибка параметра регрессии b,
- табличное значение критерия Стьюдента при заданном уровне значимости и числе степеней свободы .
Доверительный интервалдля прогнозного значения при уровне значимости определяется по формуле:
где
- точечный прогноз, находится по построенной модели линейной регрессии;
- средняя ошибка прогноза в точке , рассчитывается по формуле:
где - среднеквадратическая (стандартная) ошибка регрессии, рассчитывается по формуле:
Пример.Имеются данные об объемах реализованной продукции и балансовой прибылью предприятия по месяцам отчетного года (см. табл. 8.1).
Таблица 8.1
Месяц | Объем реализованной продукции, млн. руб. | Балансовая прибыль, млн. руб. |
Январь Февраль Март Апрель Май Июнь Июль Август Сентябрь Октябрь Ноябрь | 1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
Необходимо:
1) построить модель линейной регрессии зависимости балансовой прибыли предприятия от объема реализованной продукции;
2) оценить тесноту связи между указанными признаками с помощью
а) линейного коэффициента корреляции,
б) коэффициента корреляции знаков Фехнера,
в) коэффициента корреляции рангов Кендалла,
г) коэффициента корреляции рангов Спирмена
и сделать соответствующие выводы;
3) определить значимость построенной модели с помощью коэффициента детерминации;
4) при уровне значимости проверить значимость
а) линейного коэффициента корреляции,
б) простой линейной регрессии,
в) параметров регрессии
и сделать соответствующие выводы;
5) дать точечный и интервальный (при уровне значимости ) прогноз балансовой прибыли при объеме реализации, равном 75 млн. руб.
Решение.
1) Так как балансовая прибыль зависит от объема реализованной продукции, то в качестве факторного признака (x) будет выступать объем реализованной продукции, а в качестве результативного (y) – балансовая прибыль.
Уравнение линейной регрессии найдем по формуле:
,
Рассчитаем необходимые суммы в таблице 8.2.
Таблица 8.2
x | y | ||||
1,2 | 537,397 | 6,205 | |||
1,8 | 330,579 | 3,576 | |||
84,306 | 2,859 | ||||
2,5 | 173,760 | 1,418 | |||
51,579 | 0,477 | ||||
3,2 | 38,215 | 0,241 | 118,4 | ||
3,5 | 10,124 | 0,036 | |||
4,9 | 7,942 | 1,462 | 225,4 | ||
219,579 | 1,714 | ||||
6,2 | 666,579 | 6,296 | 427,8 | ||
7,3 | 1355,579 | 13,026 | |||
Итого: | 40,6 | 3475,636 | 37,309 | 2105,6 |
Тогда (млн. руб.);
(млн. руб.);
;
; (млн. руб.);
; (млн. руб.);
;
Уравнение линейной регрессии имеет вид:
или .
2а) Линейный коэффициент корреляции между переменными x и y равен , что свидетельствует о прямой весьма высокой связи между этими признаками, т.е. между объемом реализованной продукции и балансовой прибылью предприятия.
2б) Найдем коэффициент корреляции знаков Фехнера.
В таблице 8.3 запишем знаки отклонений индивидуальных величин от средней.
Таблица 8.3
x | y | Знак | Знак | «с» - совпадение знаков «н» - несовпадение знаков |
1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 | ─ ─ ─ ─ ─ ─ ─ + + + + | ─ ─ ─ ─ ─ ─ ─ + + + + | с с с с с с с с с с с |
Итак, число совпадений знаков отклонений и число несовпадений знаков отклонений . Тогда . Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.
2в) Найдем коэффициент корреляции рангов Кендалла.
В таблице 8.4 запишем ранги переменных x и y.
Таблица 8.4
x | y | Ранг x | Ранг y |
1,2 1,8 2,0 2,5 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
Упорядочим все единицы по признаку x (см. табл. 8.5)
Таблица 8.5
x | y | Ранг x | Ранг y |
1,2 1,8 2,5 2,0 3,0 3,2 3,5 4,9 5,0 6,2 7,3 |
По признаку y подсчитаем суммы P и Q:
P=10+9+7+7+6+5+4+3+2+1+0=54, Q=0+0+1+0+0+0+0+0+0+0+0=1.
Тогда . Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.
2г) Найдем коэффициент корреляции рангов Спирмена.
Рассчитаем в таблице квадраты разностей между рангами переменных x и y (см. табл. 8.6).
Таблица 8.6
x | y | Ранг x | Ранг y | (Ранг x– Ранг y) |
1,2 1,8 2,5 2,0 3,0 3,2 3,5 4,9 5,0 6,2 7,3 | ||||
Итого: |
Тогда . Следовательно, между изучаемыми признаками существует прямая тесная корреляционная связь.
3) Коэффициент детерминации найдем по формуле:
,
необходимые суммы рассчитаны в таблицах 8.7 и 8.2.
Таблица 8.7
1,340 | 5,525 | 0,020 | ||
1,847 | 3,399 | 0,002 | ||
2,354 | 1,786 | 0,021 | ||
2,760 | 0,867 | 0,577 | ||
2,963 | 0,530 | 0,001 | ||
3,064 | 0,393 | 0,018 | ||
3,368 | 0,104 | 0,017 | ||
3,977 | 0,082 | 0,853 | ||
5,193 | 2,258 | 0,037 | ||
6,309 | 6,853 | 0,012 | ||
7,424 | 13,937 | 0,015 | ||
Итого: | 40,6 | 35,734 | 1,575 |
следовательно, модель объясняет зависимость между переменными на 95,78 %.
4а) При уровне значимости проверим гипотезу о значимости линейного коэффициента корреляции.
,
.
1. Наблюдаемое значение критерия
.
2. Критическая точка .
3. Т.к. (14,2895>2,26), то отклоняем нулевую гипотезу об отсутствии связи между показателями x и y. Т.е. полученное значение r считается значимым, и принимаем гипотезу о наличии статистической связи между показателями.
4б) При уровне значимости проверим гипотезу о значимости простой линейной регрессии.
,
.
1. Наблюдаемое значение критерия
.
2. Критическая точка .
3. Т.к. (204,1897>5,12), то отклоняем нулевую гипотезу о равенстве нулю коэффициента детерминации. Т.е. принимаем конкурирующую гипотезу о значимости линейной регрессии между показателями x и y.
4в) При уровне значимости проверим гипотезы о значимости параметров регрессии.
Для коэффициента регрессии b:
,
.
1. Наблюдаемое значение критерия
,
где (необходимые суммы найдены в таблицах 8.2 и 8.7);
2. Критическая точка .
3. Т.к. (14,2895>2,26), то отклоняем нулевую гипотезу о незначимости коэффициента регрессии, т.е. коэффициент регрессии не равен нулю.
Для параметра a:
,
.
1. Наблюдаемое значение критерия
,
где (необходимые суммы найдены в таблицах 8.2 и 8.7);
2. Критическая точка .
3. Т.к. (|-2,075|<2,26), то принимаем нулевую гипотезу о незначимости параметра a, т.е. параметра a почти не отличается от нуля или равен нулю, и он может не использоваться в модели. Однако наличие свободного члена в линейном уравнении может лишь уточнить вид зависимости. Поэтому, если нет серьезных причин для удаления свободного члена из уравнения регрессии, то лучше его использовать в модели.
5) Точечный прогноз балансовой прибыли при объеме реализации, равном 75 млн. руб. найдем по построенной модели:
(млн. руб.)
Доверительный интервалдля прогнозного значения млн. руб. будет иметь вид:
где
,
стандартная ошибка регрессии .
Т.к. , то доверительный интервал будет иметь вид:
или .
Таким образом, при уровне значимости при объеме реализации, равном 75 млн. руб. балансовая прибыль предприятия ожидается в пределах от 5,8057 млн. руб. до 8,0287 млн. руб.
Если связь между признаками выражается какой-либо кривой линией, то нужно применить соответствующую формулу для расчета уравнения регрессии. Так, например, при связи, выраженной в форме гиперболы, уравнение регрессии имеет вид:
,
Параметры уравнения и находятся из решения системы уравнений:
Если уравнение регрессии имеет форму параболы второго порядка, то его уравнение будет: .
Параметры уравнения , и находятся из решения системы уравнений:
Показателем тесноты криволинейной корреляции является корреляционное отношение, которое вычисляется по выше приведенной формуле.