Однофакторный линейный корреляционно-регрессионный анализ

Наиболее распространенной в статистике является метод парной корреляции, который рассматривает влияние на результативный признак у вариации факторного признака х. Парная корреляция представляет собой однофакторный корреляционно-регрессионный анализ. Однофакторный корреляционно-регрессионный анализ представляет собой построение и анализ двухмерной модели и является основой в изучении многофакторных стохастических связей.

Установление в исходной информации математической функции зависимости является одним из основных этапов в построении уравнения регрессии. Из множества функциональных зависимостей необходимо найти функцию, которая лучше других выражала бы связи между исследуемыми признаками. Выбор типа функции основан либо на теоретических знаниях об изучаемом процессе или явлении, либо на опыте предыдущих аналогичных исследований, либо осуществления эмпирического анализа - перебора и оценки различных функций, максимально точно описывающих изучаемую зависимость.

В изучении связи экономических показателей наиболее часто используются уравнения прямолинейной зависимости. Особое внимание к линейным связям объяснимо тем, что в данной зависимости вариация переменных наиболее ограничена. В большинстве случаев нелинейные формы зависимости преобразуют в линейную форму. Делается это логарифмированием или заменой переменных. Уравнение однофакторной (парной) линейной корреляционной связи имеет вид:

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru , (6)

Где Однофакторный линейный корреляционно-регрессионный анализ - student2.ru - теоретические (выровненные) значения результативного признака, получаемые по уравнению регрессии;

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru - коэффициенты уравнения регрессии

Поскольку а0 является средним значением у в точке х=0, экономическая интерпретация часто затруднена или вообще невозможна.

Коэффициент парной линейной регрессии а1 имеет смысл показателя силы связи между вариацией факторного признака х и вариации результативного признака у. Уравнение (6) показывает среднее значение изменения результативного признака у при изменении факторного признака х на одну единицу его измерения, т.е. вариацию признака у на единицу х.

Параметры уравнения а0 и а1 находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), т.е. в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных Однофакторный линейный корреляционно-регрессионный анализ - student2.ru от выровненных Однофакторный линейный корреляционно-регрессионный анализ - student2.ru :

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru (7)

Для нахождения минимума данной функции приравнивают к нулю ее частные производные и получают систему двух линейных уравнений, которая называется системой нормальных уравнений:

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru (8)

Решая эту систему в общем виде, получают:

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru ; Однофакторный линейный корреляционно-регрессионный анализ - student2.ru (9)

Параметры уравнения парной линейной регрессии иногда удобно исчислять по следующим формулам, дающим тот же результат:

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru , или Однофакторный линейный корреляционно-регрессионный анализ - student2.ru ; (10)

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru (11)

Определив значения Однофакторный линейный корреляционно-регрессионный анализ - student2.ru и подставив их в уравнение связи Однофакторный линейный корреляционно-регрессионный анализ - student2.ru , находят значения Однофакторный линейный корреляционно-регрессионный анализ - student2.ru , зависящее только от заданного значения х.

Рассмотрим на примере данных Приложения 1 и Приложения 2 выявление корреляционной связи и построение однофакторного уравнения регрессии зависимости.

Начальном этапе выявления взаимосвязи между изучаемыми признаками Среднедушевые денежные доходы населения и Среднедушевое потребление мяса и мясопродуктов построим поле корреляции (рис.1).

Экономически целесообразно в качестве факторного признака Х принять значения признака Среднедушевые денежные доходы населения, в качестве результативного (зависимого) признака – Среднедушевое потребление мяса и мясопродуктов. Анализируемые данные выбраны по двум Федеральным округам: Центральный и Северо-Западный.

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru

Рис. 1 Поле корреляции

Точки корреляционного поля располагаются на графике не хаотично, а определённым образом вдоль некоторой гипотетической линии, что дает повод сделать вывод о существовании связи между признаками. Однако следует отметить, что имеются два аномальных значения признаков, отмеченные на графике, которые следует исключить из вычислений, т.к. резко отличающиеся значения признака отрицательно влияют на общую функцию зависимости. После удаления «аномальных» значений поле корреляции представлено на рис.2. Данные аномальных значений соответствуют г. Москва и Ненецкому автономному округу.

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru

Рис. 2 Поле корреляции после удаления аномальных значений

После удаления «аномальных» значений продолжим выявление зависимости. Предположим, что между указанными показателями существует корреляционная связь.

Для измерения направления и тесноты взаимосвязи между факторным и результативным признаками расчетным путем используем линейный коэффициент корреляции. Вычисление выполним по формуле (5.1).

В таблице 1 выполним вычисления.

Таблица 1

№ п/п х y Однофакторный линейный корреляционно-регрессионный анализ - student2.ru Однофакторный линейный корреляционно-регрессионный анализ - student2.ru
5692,8 72,5 412728,0 32407971,8 5256,3
7095,9 64,2 455556,8 50351796,8 4121,6
7182,7 63,2 453946,6 51591179,3 3994,2
7597,5 69,7 529545,8 57722006,3 4858,1
7711,4 57,7 444947,8 59465690,0 3329,3
7863,0 69,7 548051,1 61826769,0 4858,1
8114,6 78,1 633750,3 65846733,2 6099,6
8373,2 73,8 617942,2 70110478,2 5446,4
8436,5 69,8 588867,7 71174532,3 4872,0
8530,3 67,2 573236,2 72766018,1 4515,8
8591,7 73,8 634067,5 73817308,9 5446,4
8592,3 60,3 518115,7 73827619,3 3636,1
8612,6 64,9 558957,7 74176878,8 4212,0
8613,0 63,7 548648,1 74183769,0 4057,7
9291,6 79,9 742398,8 86333830,6 6384,0
9403,7 70,0 658259,0 88429573,7 4900,0
9611,5 74,2 713173,3 92380932,3 5505,6
9811,1 76,1 746624,7 96257683,2 5791,2
10095,1 72,4 730885,2 101911044,0 5241,8
10499,4 71,3 748607,2 110237400,4 5083,7
10552,7 96,6 1019390,8 111359477,3 9331,6
11399,2 89,0 1014528,8 129941760,6 7921,0
11573,7 63,0 729143,1 133950531,7 3969,0
14480,7 87,0 1259820,9 209690672,5 7569,0
15221,3 75,9 1155296,7 231687973,7 5760,8
16216,2 68,4 1109188,1 262965142,4 4678,6
16876,4 85,5 1442932,2 284812877,0 7310,3
Сумма 266040,1 1957,9 19588610,2 2829227650,1 144150,3
Среднее 9853,3 72,5 725504,1 104786209,3 5338,9

Подставим значения в формулу:

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru

Полученное значение линейного коэффициента корреляции свидетельствует о наличии прямой корреляционной связи между Среднедушевыми денежными доходами населения и Среднедушевым потреблением мяса и мясопродуктов. По шкале Чэддока (таблица 2) связь между признаками заметная.

Таблица 2

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru 0,1 – 0,3 0,3 – 0,5 0,5 – 0,7 0,7 – 0,9 0,9 – 0,99
Характеристика силы связи Слабая Умеренная Заметная Тесная Весьма тесная

Вычислим коэффициент детерминации, который представляет собой квадрат линейного коэффициента корреляции:

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru или 37,3%

Полученное значение свидетельствует о том, что 37,3% вариации результативного признака «Среднедушевое потребление мяса и мясопродуктов» обусловлено вариацией факторного признака «Среднегодовые денежные доходы населения», остальные 62,7% вариации вызваны другими значимыми факторами, не учтенными в модели зависимости.

Далее вычислим уравнение регрессии. Используя данные таблицы 1, вычислим систему нормальных уравнений по методу наименьших квадратов по формуле (8).

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru

Решая систему уравнений, получаем:

а1=0,001

а0=58,446

Получили уравнение регрессии:

у=58,446+0,001Х

Данное уравнение характеризует зависимость среднего потребления мяса и мясопродуктов от среднедушевого денежного дохода. Полученное уравнение регрессии показывает, что с увеличением среднедушевого денежного дохода населения на 1 рубль в среднем потребление мяса и мясопродуктов увеличится на 0,001 кг.

Другими словами при увеличении среднедушевого денежного дохода на 1 тыс.рублей, в среднем употребление мяса и мясопродуктов увеличится на 1 кг.

Кроме того, что между анализируемыми признаками установлено наличие, направление и сила связи, выясним, пригодно ли полученное уравнение регрессии для дальнейшего практического использования. Проверим данное уравнение регрессии на адекватность.

Корреляционно-регрессионный анализ зачастую выполняется в совокупности, объем которой ограничен. В связи с этим показатели регрессии и корреляции могут быть искажены действием случайных факторов.

Чтобы проверить насколько эти показатели характерны для всей генеральной совокупности, не являются ли они результатом стечения случайных обстоятельств, необходимо проверять адекватность построенных статистических моделей.

При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатом действия случайных причин.

Значимость коэффициентов простой линейной регрессии осуществляют с помощью t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t-критерия:

Для параметра а0

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru (12)

Для параметра а1

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru (13)

Где n- объем выборочных данных

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru - среднее квадратическое отклонение результативного признака Y от выравненных значений Однофакторный линейный корреляционно-регрессионный анализ - student2.ru .

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru - среднее квадратическое отклонение факторного признака х от общей средней Однофакторный линейный корреляционно-регрессионный анализ - student2.ru .

Вычисленные значения сравнивают с критическими t, которые определяются по таблице Стьюдента с учетом принятого уровня значимости Однофакторный линейный корреляционно-регрессионный анализ - student2.ru и числом степеней свободы вариации Однофакторный линейный корреляционно-регрессионный анализ - student2.ru . Обычно уровень значимости принимают равным Однофакторный линейный корреляционно-регрессионный анализ - student2.ru =0,05. Параметр принимается значимым (существенным) при условии, если Однофакторный линейный корреляционно-регрессионный анализ - student2.ru > Однофакторный линейный корреляционно-регрессионный анализ - student2.ru . В таком случае практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями. Для проверки значимости коэффициентов регрессии исследуемого уравнения Однофакторный линейный корреляционно-регрессионный анализ - student2.ru вычислим t-критерий Стьюдента с Однофакторный линейный корреляционно-регрессионный анализ - student2.ru степенями свободы.

Вновь потребуются вспомогательные вычисления (таблица 3).

Таблица 3

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru Однофакторный линейный корреляционно-регрессионный анализ - student2.ru Однофакторный линейный корреляционно-регрессионный анализ - student2.ru Однофакторный линейный корреляционно-регрессионный анализ - student2.ru Однофакторный линейный корреляционно-регрессионный анализ - student2.ru
64,1 8,4 69,9 -4160,5 17309760,3
65,5 -1,3 1,8 -2757,4 7603254,8
65,6 -2,4 5,9 -2670,6 7132104,4
66,0 3,7 13,4 -2255,8 5088633,6
66,2 -8,5 71,5 -2141,9 4587735,6
66,3 3,4 11,5 -1990,3 3961294,1
66,6 11,5 133,2 -1738,7 3023077,7
66,8 7,0 48,7 -1480,1 2190696,0
66,9 2,9 8,5 -1416,8 2007322,2
67,0 0,2 0,1 -1323 1750329,0
67,0 6,8 45,7 -1261,6 1591634,6
67,0 -6,7 45,4 -1261 1590121,0
67,1 -2,2 4,7 -1240,7 1539336,5
67,1 -3,4 11,3 -1240,3 1538344,1
Продолжение таблицы 3
67,7 12,2 147,9 -561,7 315506,9
67,8 2,2 4,6 -449,6 202140,2
68,1 6,1 37,7 -241,8 58467,2
68,3 7,8 61,5 -42,2 1780,8
68,5 3,9 14,9 241,8 58467,2
68,9 2,4 5,5 646,1 417445,2
69,0 27,6 761,8 699,4 489160,4
69,8 19,2 366,9 1545,9 2389806,8
70,0 -7,0 49,3 1720,4 2959776,2
72,9 14,1 198,1 4627,4 21412830,8
73,7 2,2 5,0 28815424,0
74,7 -6,3 39,2 6362,9 40486496,4
75,3 10,2 103,6 7023,1 49323933,6
СУММА - 2267,6 - 207844879,5

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru

По таблице распределения Стьюдента для Однофакторный линейный корреляционно-регрессионный анализ - student2.ru находим критическое значение t-критерия: Однофакторный линейный корреляционно-регрессионный анализ - student2.ru =2,05 при Однофакторный линейный корреляционно-регрессионный анализ - student2.ru

Поскольку расчетное значение Однофакторный линейный корреляционно-регрессионный анализ - student2.ru > Однофакторный линейный корреляционно-регрессионный анализ - student2.ru , оба параметра а0 и а1 признаются значимыми (отклоняется гипотеза о том, что каждый из этих параметров в действительности равен нулю, и лишь в силу случайных обстоятельств оказался равным проверяемой величине).

Для оценки существенности полученного уравнения регрессии Y=58,466+0,001Х проверим значимость коэффициента корреляции, используя t-критерий Стьюдента.

При линейной однофакторной связи t-критерий рассчитаем по формуле:

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru (14)

Расчетное значение Однофакторный линейный корреляционно-регрессионный анализ - student2.ru сравнивается с табличным значением Однофакторный линейный корреляционно-регрессионный анализ - student2.ru . Если расчетное значение Однофакторный линейный корреляционно-регрессионный анализ - student2.ru > Однофакторный линейный корреляционно-регрессионный анализ - student2.ru , то гипотеза о случайности коэффициента корреляции отклоняется.

Рассчитаем Однофакторный линейный корреляционно-регрессионный анализ - student2.ru :

Однофакторный линейный корреляционно-регрессионный анализ - student2.ru

Поскольку расчетное значение Однофакторный линейный корреляционно-регрессионный анализ - student2.ru > Однофакторный линейный корреляционно-регрессионный анализ - student2.ru (3,9>2,05), то значение коэффициента корреляции значимо и имеющаяся связь между среднедушевыми денежными доходами и среднедушевым потреблением мяса и мясопродуктов существенна и не случайна.

Подводя итог выполненных вычислений, можно сделать вывод о том, что полученная расчетным путем модель регрессии Y=58,466+0,001Х в адекватна. Результаты малой выборки (n=27) можно распространить на всю генеральную совокупность, а также можно использовать для прогнозирования.

Список литературы

1. Башкатова Б.И. Социально-экономическая статистика: учебник для вузов. –М.: ЮНИТИ-ДАНА, 2002 г.

2. Гусаров В.М. Статистика: учебное пособие. – М.: ЮНИТИ-Дана, 2001

3. Голуб Л.А. Социально-экономическая статистика: учебное пособие. –М.: ВЛАДОС, 2003 г.

4. Елисеева И.И., Юзбашев М.М. Общая теория статистики: учебник. - М., 2005 г.

5. Общая теория статистики: статистическая методология в изучении коммерческой деятельности: Учебник. / под ред. О.Э.Башиной, А.А.Спирина. -5-е изд., доп. и перераб. – М.: Финансы и статистика, 2005

6. Салин В.Н, Шпаковская Е.П. Экономическая статистика. Учебник. ЮРИСТЪ, Москва, 2001.

7. Харченко Л.П., Долженкова В.Г., Ионин В.Г. и др.: Статистика: учебное пособие. – Изд. 2-е, перераб. и доп. – М.: ИНФРА-М, 2005. – 384 с.

Наши рекомендации