Однофакторный линейный корреляционно-регрессионный анализ
Наиболее распространенной в статистике является метод парной корреляции, который рассматривает влияние на результативный признак у вариации факторного признака х. Парная корреляция представляет собой однофакторный корреляционно-регрессионный анализ. Однофакторный корреляционно-регрессионный анализ представляет собой построение и анализ двухмерной модели и является основой в изучении многофакторных стохастических связей.
Установление в исходной информации математической функции зависимости является одним из основных этапов в построении уравнения регрессии. Из множества функциональных зависимостей необходимо найти функцию, которая лучше других выражала бы связи между исследуемыми признаками. Выбор типа функции основан либо на теоретических знаниях об изучаемом процессе или явлении, либо на опыте предыдущих аналогичных исследований, либо осуществления эмпирического анализа - перебора и оценки различных функций, максимально точно описывающих изучаемую зависимость.
В изучении связи экономических показателей наиболее часто используются уравнения прямолинейной зависимости. Особое внимание к линейным связям объяснимо тем, что в данной зависимости вариация переменных наиболее ограничена. В большинстве случаев нелинейные формы зависимости преобразуют в линейную форму. Делается это логарифмированием или заменой переменных. Уравнение однофакторной (парной) линейной корреляционной связи имеет вид:
, (6)
Где - теоретические (выровненные) значения результативного признака, получаемые по уравнению регрессии;
- коэффициенты уравнения регрессии
Поскольку а0 является средним значением у в точке х=0, экономическая интерпретация часто затруднена или вообще невозможна.
Коэффициент парной линейной регрессии а1 имеет смысл показателя силы связи между вариацией факторного признака х и вариации результативного признака у. Уравнение (6) показывает среднее значение изменения результативного признака у при изменении факторного признака х на одну единицу его измерения, т.е. вариацию признака у на единицу х.
Параметры уравнения а0 и а1 находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), т.е. в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных от выровненных :
(7)
Для нахождения минимума данной функции приравнивают к нулю ее частные производные и получают систему двух линейных уравнений, которая называется системой нормальных уравнений:
(8)
Решая эту систему в общем виде, получают:
; (9)
Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:
, или ; (10)
(11)
Определив значения и подставив их в уравнение связи , находят значения , зависящее только от заданного значения х.
Рассмотрим на примере данных Приложения 1 и Приложения 2 выявление корреляционной связи и построение однофакторного уравнения регрессии зависимости.
Начальном этапе выявления взаимосвязи между изучаемыми признаками Среднедушевые денежные доходы населения и Среднедушевое потребление мяса и мясопродуктов построим поле корреляции (рис.1).
Экономически целесообразно в качестве факторного признака Х принять значения признака Среднедушевые денежные доходы населения, в качестве результативного (зависимого) признака – Среднедушевое потребление мяса и мясопродуктов. Анализируемые данные выбраны по двум Федеральным округам: Центральный и Северо-Западный.
Рис. 1 Поле корреляции
Точки корреляционного поля располагаются на графике не хаотично, а определённым образом вдоль некоторой гипотетической линии, что дает повод сделать вывод о существовании связи между признаками. Однако следует отметить, что имеются два аномальных значения признаков, отмеченные на графике, которые следует исключить из вычислений, т.к. резко отличающиеся значения признака отрицательно влияют на общую функцию зависимости. После удаления «аномальных» значений поле корреляции представлено на рис.2. Данные аномальных значений соответствуют г. Москва и Ненецкому автономному округу.
Рис. 2 Поле корреляции после удаления аномальных значений
После удаления «аномальных» значений продолжим выявление зависимости. Предположим, что между указанными показателями существует корреляционная связь.
Для измерения направления и тесноты взаимосвязи между факторным и результативным признаками расчетным путем используем линейный коэффициент корреляции. Вычисление выполним по формуле (5.1).
В таблице 1 выполним вычисления.
Таблица 1
№ п/п | х | y | yх | ||
5692,8 | 72,5 | 412728,0 | 32407971,8 | 5256,3 | |
7095,9 | 64,2 | 455556,8 | 50351796,8 | 4121,6 | |
7182,7 | 63,2 | 453946,6 | 51591179,3 | 3994,2 | |
7597,5 | 69,7 | 529545,8 | 57722006,3 | 4858,1 | |
7711,4 | 57,7 | 444947,8 | 59465690,0 | 3329,3 | |
7863,0 | 69,7 | 548051,1 | 61826769,0 | 4858,1 | |
8114,6 | 78,1 | 633750,3 | 65846733,2 | 6099,6 | |
8373,2 | 73,8 | 617942,2 | 70110478,2 | 5446,4 | |
8436,5 | 69,8 | 588867,7 | 71174532,3 | 4872,0 | |
8530,3 | 67,2 | 573236,2 | 72766018,1 | 4515,8 | |
8591,7 | 73,8 | 634067,5 | 73817308,9 | 5446,4 | |
8592,3 | 60,3 | 518115,7 | 73827619,3 | 3636,1 | |
8612,6 | 64,9 | 558957,7 | 74176878,8 | 4212,0 | |
8613,0 | 63,7 | 548648,1 | 74183769,0 | 4057,7 | |
9291,6 | 79,9 | 742398,8 | 86333830,6 | 6384,0 | |
9403,7 | 70,0 | 658259,0 | 88429573,7 | 4900,0 | |
9611,5 | 74,2 | 713173,3 | 92380932,3 | 5505,6 | |
9811,1 | 76,1 | 746624,7 | 96257683,2 | 5791,2 | |
10095,1 | 72,4 | 730885,2 | 101911044,0 | 5241,8 | |
10499,4 | 71,3 | 748607,2 | 110237400,4 | 5083,7 | |
10552,7 | 96,6 | 1019390,8 | 111359477,3 | 9331,6 | |
11399,2 | 89,0 | 1014528,8 | 129941760,6 | 7921,0 | |
11573,7 | 63,0 | 729143,1 | 133950531,7 | 3969,0 | |
14480,7 | 87,0 | 1259820,9 | 209690672,5 | 7569,0 | |
15221,3 | 75,9 | 1155296,7 | 231687973,7 | 5760,8 | |
16216,2 | 68,4 | 1109188,1 | 262965142,4 | 4678,6 | |
16876,4 | 85,5 | 1442932,2 | 284812877,0 | 7310,3 | |
Сумма | 266040,1 | 1957,9 | 19588610,2 | 2829227650,1 | 144150,3 |
Среднее | 9853,3 | 72,5 | 725504,1 | 104786209,3 | 5338,9 |
Подставим значения в формулу:
Полученное значение линейного коэффициента корреляции свидетельствует о наличии прямой корреляционной связи между Среднедушевыми денежными доходами населения и Среднедушевым потреблением мяса и мясопродуктов. По шкале Чэддока (таблица 2) связь между признаками заметная.
Таблица 2
0,1 – 0,3 | 0,3 – 0,5 | 0,5 – 0,7 | 0,7 – 0,9 | 0,9 – 0,99 | |
Характеристика силы связи | Слабая | Умеренная | Заметная | Тесная | Весьма тесная |
Вычислим коэффициент детерминации, который представляет собой квадрат линейного коэффициента корреляции:
или 37,3%
Полученное значение свидетельствует о том, что 37,3% вариации результативного признака «Среднедушевое потребление мяса и мясопродуктов» обусловлено вариацией факторного признака «Среднегодовые денежные доходы населения», остальные 62,7% вариации вызваны другими значимыми факторами, не учтенными в модели зависимости.
Далее вычислим уравнение регрессии. Используя данные таблицы 1, вычислим систему нормальных уравнений по методу наименьших квадратов по формуле (8).
Решая систему уравнений, получаем:
а1=0,001
а0=58,446
Получили уравнение регрессии:
у=58,446+0,001Х
Данное уравнение характеризует зависимость среднего потребления мяса и мясопродуктов от среднедушевого денежного дохода. Полученное уравнение регрессии показывает, что с увеличением среднедушевого денежного дохода населения на 1 рубль в среднем потребление мяса и мясопродуктов увеличится на 0,001 кг.
Другими словами при увеличении среднедушевого денежного дохода на 1 тыс.рублей, в среднем употребление мяса и мясопродуктов увеличится на 1 кг.
Кроме того, что между анализируемыми признаками установлено наличие, направление и сила связи, выясним, пригодно ли полученное уравнение регрессии для дальнейшего практического использования. Проверим данное уравнение регрессии на адекватность.
Корреляционно-регрессионный анализ зачастую выполняется в совокупности, объем которой ограничен. В связи с этим показатели регрессии и корреляции могут быть искажены действием случайных факторов.
Чтобы проверить насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверять адекватность построенных статистических моделей.
При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатом действия случайных причин.
Значимость коэффициентов простой линейной регрессии осуществляют с помощью t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t-критерия:
Для параметра а0
(12)
Для параметра а1
(13)
Где n- объем выборочных данных
- среднее квадратическое отклонение результативного признака Y от выравненных значений .
- среднее квадратическое отклонение факторного признака х от общей средней .
Вычисленные значения сравнивают с критическими t, которые определяются по таблице Стьюдента с учетом принятого уровня значимости и числом степеней свободы вариации . Обычно уровень значимости принимают равным =0,05. Параметр принимается значимым (существенным) при условии, если > . В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями. Для проверки значимости коэффициентов регрессии исследуемого уравнения вычислим t-критерий Стьюдента с степенями свободы.
Вновь потребуются вспомогательные вычисления (таблица 3).
Таблица 3
64,1 | 8,4 | 69,9 | -4160,5 | 17309760,3 |
65,5 | -1,3 | 1,8 | -2757,4 | 7603254,8 |
65,6 | -2,4 | 5,9 | -2670,6 | 7132104,4 |
66,0 | 3,7 | 13,4 | -2255,8 | 5088633,6 |
66,2 | -8,5 | 71,5 | -2141,9 | 4587735,6 |
66,3 | 3,4 | 11,5 | -1990,3 | 3961294,1 |
66,6 | 11,5 | 133,2 | -1738,7 | 3023077,7 |
66,8 | 7,0 | 48,7 | -1480,1 | 2190696,0 |
66,9 | 2,9 | 8,5 | -1416,8 | 2007322,2 |
67,0 | 0,2 | 0,1 | -1323 | 1750329,0 |
67,0 | 6,8 | 45,7 | -1261,6 | 1591634,6 |
67,0 | -6,7 | 45,4 | -1261 | 1590121,0 |
67,1 | -2,2 | 4,7 | -1240,7 | 1539336,5 |
67,1 | -3,4 | 11,3 | -1240,3 | 1538344,1 |
Продолжение таблицы 3 | ||||
67,7 | 12,2 | 147,9 | -561,7 | 315506,9 |
67,8 | 2,2 | 4,6 | -449,6 | 202140,2 |
68,1 | 6,1 | 37,7 | -241,8 | 58467,2 |
68,3 | 7,8 | 61,5 | -42,2 | 1780,8 |
68,5 | 3,9 | 14,9 | 241,8 | 58467,2 |
68,9 | 2,4 | 5,5 | 646,1 | 417445,2 |
69,0 | 27,6 | 761,8 | 699,4 | 489160,4 |
69,8 | 19,2 | 366,9 | 1545,9 | 2389806,8 |
70,0 | -7,0 | 49,3 | 1720,4 | 2959776,2 |
72,9 | 14,1 | 198,1 | 4627,4 | 21412830,8 |
73,7 | 2,2 | 5,0 | 28815424,0 | |
74,7 | -6,3 | 39,2 | 6362,9 | 40486496,4 |
75,3 | 10,2 | 103,6 | 7023,1 | 49323933,6 |
СУММА | - | 2267,6 | - | 207844879,5 |
По таблице распределения Стьюдента для находим критическое значение t-критерия: =2,05 при
Поскольку расчетное значение > , оба параметра а0 и а1 признаются значимыми (отклоняется гипотеза о том, что каждый из этих параметров в действительности равен нулю, и лишь в силу случайных обстоятельств оказался равным проверяемой величине).
Для оценки существенности полученного уравнения регрессии Y=58,466+0,001Х проверим значимость коэффициента корреляции, используя t-критерий Стьюдента.
При линейной однофакторной связи t-критерий рассчитаем по формуле:
(14)
Расчетное значение сравнивается с табличным значением . Если расчетное значение > , то гипотеза о случайности коэффициента корреляции отклоняется.
Рассчитаем :
Поскольку расчетное значение > (3,9>2,05), то значение коэффициента корреляции значимо и имеющаяся связь между среднедушевыми денежными доходами и среднедушевым потреблением мяса и мясопродуктов существенна и не случайна.
Подводя итог выполненных вычислений, можно сделать вывод о том, что полученная расчетным путем модель регрессии Y=58,466+0,001Х в адекватна. Результаты малой выборки (n=27) можно распространить на всю генеральную совокупность, а также можно использовать для прогнозирования.
Список литературы
1. Башкатова Б.И. Социально-экономическая статистика: учебник для вузов. –М.: ЮНИТИ-ДАНА, 2002 г.
2. Гусаров В.М. Статистика: учебное пособие. – М.: ЮНИТИ-Дана, 2001
3. Голуб Л.А. Социально-экономическая статистика: учебное пособие. –М.: ВЛАДОС, 2003 г.
4. Елисеева И.И., Юзбашев М.М. Общая теория статистики: учебник. - М., 2005 г.
5. Общая теория статистики: статистическая методология в изучении коммерческой деятельности: Учебник. / под ред. О.Э.Башиной, А.А.Спирина. -5-е изд., доп. и перераб. – М.: Финансы и статистика, 2005
6. Салин В.Н, Шпаковская Е.П. Экономическая статистика. Учебник. ЮРИСТЪ, Москва, 2001.
7. Харченко Л.П., Долженкова В.Г., Ионин В.Г. и др.: Статистика: учебное пособие. – Изд. 2-е, перераб. и доп. – М.: ИНФРА-М, 2005. – 384 с.