Тема 9. Статистические методы измерения связей
Основные понятия и категории
Все социально-экономические явления взаимосвязаны. Связь между ними имеет причинно-следственный характер. Признаки, которые характеризуют причины и условия связи, называются факторными х, а те, которые характеризуют последствия связи, – результативными y. Между признаками x и y возникают разные по природе и характеру связи, в частности: функциональные и стохастические. При функциональной связи каждому значению признака х отвечает одно четко определенное значение y. Этасвязь проявляется однозначно в каждом конкретном случае. При стохастической связи каждому значению признака х отвечает определенное множество значений y, которые образовывают так называемое условное распределение. Как закон эта связь проявляется только в массе случаев и характеризуется изменением условных распределений y. Если заменить условное распределение средней величиной y, то образуется разновидность стохастической связи – корреляционная. В случаекорреляционного связи каждому значению признака х отвечаетсреднее значение результативного признака y,.
Примером стохастической и в частности корреляционной связи является распределение проданных на бирже недвижимости однокомнатных квартир по их стоимости y и размеру общей площади х (табл. 9.1).
Каждой группе по факторному признаку отвечает свое распределение y, которое отличается от других групп и от безусловного итоговогораспределения. Следовательно, наблюдается стохастическая связь между признаками.
Таблица 9.1
Размер общей площади, м2 х | Количество квартир со стоимостью, тыс. грн. | Средняя стоимость квартиры, тыс. грн., | |||||
9–11 | 11–13 | 13–15 | 15–17 | 17–19 | Всего, fj | ||
До 25 | – | – | 10,8 | ||||
25–30 | – | 13,2 | |||||
30–35 | – | 15,2 | |||||
35 и больше | – | – | – | – | 18,0 | ||
В целом | ЗО | 13,0 |
Условные распределения можно заменить средними значениями результативного признака, которые вычисляются как средняя арифметическая взвешенная.
Постепенное изменение средних от одной группы к другой свидетельствует о наличии корреляционной связи между признаками.
Характеристикой корреляционного связи является линия регрессии, которая рассматривается в двух моделях: аналитической группировки и регрессионного анализа. В модели аналитической группировки – это эмпирическая линия регрессии, которая образовывается из групповых средних значений результативного признака ,для каждого значения (интервала) хj.
Эффекты воздействия х на yопределяются как отношение приростов средних групповых значений , где .По данным табл. 9.1 приросты во всех группах одинаковые – 5 м2, а средняя стоимость проданных квартир увеличивается по группам таким образом: =13,2-10,8=2,4 тыс. грн.; =2,0; =2,8. Следовательно, с увеличением размера общей площади квартир на 1 м2 их стоимость в среднем растет соответственно на: = 2,4 : 5 =0,48 тыс. грн. и на 0,4 и 0,56.
Оценка плотности связи основывается на правиле сложения дисперсий. В модели аналитической группировки мерой плотности связи есть отношение межгрупповой дисперсии к общей, которое называют корреляционным отношением:
,
где: – общая дисперсия, которая измеряет вариацию результативного признака y,обусловленную воздействием всех возможных факторов; межгрупповая дисперсия – измеряет вариацию результативного признака yза счет воздействия только группировочного признака х. Корреляционное отношение колеблется от 0 до 1, а если выразить в процентах, то от 0 до 100%. При отсутствии связи =0, а при условии функциональной – =1. Чем большее приближается к единице, тем более плотная связь.
По данным табл. 9.1 общая дисперсия стоимости проданных квартир составляет:
=
=(102 • 30+122 • 25+142 • 20+162 • 15+182 • 10):100-132= =176-169=7.
В табл. 9.2 приведена аналитическая группировка проданных квартир, которая описывает зависимость их стоимости от общей площади. Там же дан расчет межгрупповой дисперсии.
Таблица 9.2
Общая площадь квартиры, м2, | Количество квартир, | Средняя стоимость квартиры, тыс. грн., | ||
До 25 | 10,8 | - 2,2 | 193,6 | |
25–30 | 13,2 | 0,2 | 1,2 | |
30–35 | 15,2 | 2,2 | 116,2 | |
35 и больше | 18,0 | 5,0 | 150,0 | |
В целом | 13,0 | X | 461,0 |
Корреляционное отношение составляет:
,
следовательно, вариация стоимости проданных квартир на 66% объясняется вариацией их общей площади и на 34% – вариацией других факторов. Т.е. связь между признаками достаточно плотная.
Однако плотная связь может возникнуть случайно, поэтому необходимо проверить ее тесноту, т.е. доказать неслучайность связи. Проверка тесноты связи – это сравнение фактического значения с его критическим значением для определенного уровня тесноты ичисла степеней свободы k1=m-1 и k2=n-m, гдеm – число групп; n – объем совокупности. Если , то связь признается существенной. Критические значения корреляционного отношения для =0,05 приведены в Приложении 4.
В нашем примере k1=4–1=3, k2=100–4=96. Из-за отсутствия в таблице критических значений k2=96 используем ближайшее (k2=100), тогда (3, 100)=0,075.
Поскольку =0,659>0,075, то связь признается существенной с вероятностью 0,95.
В модели регрессивного анализа характеристикой корреляционного связи является теоретическая линия регрессии, которая описывается функцией Y=f(x), которая называется уравнением регрессии. В зависимости от характера связи используют:
линейные уравнения Y=a+bx, когда с изменением хпризнак yизменяется более-менее равномерно;
нелинейные уравнения, когда изменение взаимосвязанных признаков происходит неравномерно (с ускорением, замедлением или с переменным направлением связи), в частности: степенной Y=axb, гиперболическое Y=a+b/x, параболическое Y=a+bx+cx2и тому подобное.
Чаще применяются линейные уравнения или приведенные к линейному виду. В линейном уравнении параметр b – коэффициентрегрессии указывает, на сколько единиц в среднем изменится yс изменением хна единицу. Он имеет единицу измерения результативного признака. В случае прямой связи b – величина положительная, а при обратной – отрицательная. Параметр a – свободный член уравнения регрессии, т.е. это значение Y при x=0. Если xне приобретает нулевые значения, то данный параметр имеет только расчетное назначение. Параметры определяются методом наименьших квадратов, согласно которому сумма квадратов отклонений эмпирических значений y от теоретических Y минимальная . В соответствии с условием минимизации параметры линейного уравнения регрессии вычисляются на основании системы нормальных уравнений:
Отсюда
Для расчета параметров уравнения параболы второго порядка методом наименьших квадратов система нормальных уравнений имеет следующий вид:
Пример. Расчет параметров линейного уравнения регрессии рассматривается на примере связи между суточной стоимостью туристических путевок в одном из турагентств и длительностью отдыха (дней).
Таблица 9.3.
Номер путевки | Длительность отдыха, дней | Суточная стоимость путевки, грн. | xy | x2 | Y | (y-Y)2 | y2 |
78 | 91,6 | 185,0 | |||||
52,5 | 6,2 | ||||||
82,9 | 146,4 | ||||||
35,1 | 126,0 | ||||||
52,5 | 0,2 | ||||||
26,4 | 0,2 | ||||||
82,9 | 4,4 | ||||||
48,1 | 3,6 | ||||||
Всего | 472,0 | 372,0 |
Величины, на основании которых вычисляются параметры, равняются: =100; =472; =4972; =1464; n=8; =100:8=12,5; =472:8=59. Следовательно, параметры составляют:
грн.,
а=59–(–4,34) • 12,5=113,25.
Тогда уравнение регрессии имеет вид: Y=113,25–4,34x, т.е. с увеличением длительности отдыха на один день суточная стоимость туристической путевки дешевеет в среднем на 4,34 грн.
Коэффициент регрессии в небольших по объему совокупностях подвержен случайным колебаниям. Поэтому осуществляется проверка его существенности при помощи t-критерия (Стьюдента):
где b – коэффициент регрессии; – собственно стандартная погрешность, которая рассчитывается по формуле
где – соответственно остаточная и факторная дисперсии; n – объем совокупности.
По данным таблицы 9.3 =26,75, =46,5, n =8, тогда
грн., а ,
что значительно превышает критическое значение t0.95(6)=2,54.
Таким образом, с вероятностью 0,95 воздействие длительности отдыха на суточную стоимость путевок признается существенным. Для коэффициента регрессии определяются также доверительные границы . С вероятностью 0,95 доверительные границы коэффициента регрессии составляют: - 4,34±2,54 • 0,54 или -4,34±1,37 грн.
Характеристикой относительного изменения yза счет хесть коэффициент эластичности
который показывает, на сколько процентов в среднем меняется результативный признак с изменением факторного на 1%. По данным табл. 9.3,
следовательно, с увеличением длительности отдыха на 1% суточная стоимость путевок уменьшается в среднем на 0,9%.
На основании уравнения регрессии определяются теоретические значения Y, т.е. значение результативного признака при условии воздействия только фактора х при неизменном уровне других факторов. В приведенном примере Y – это ожидаемая стоимость путевок за счет воздействия только длительности отдыха. Так, для х=5 дней суточная стоимость путевки будет составлять Y=113,2–54,34 • 5=91,6 грн., что несколько отклоняется от эмпирического значения.
Отклонение эмпирических значений yот теоретических Y называют остаточными. Они характеризуют воздействие на результативный признак всех других факторов, кроме х. Средний размер этих отклонений определяет остаточная дисперсия
Вариацию y, обусловленную воздействием только фактора х,измеряет факторная дисперсия:
Доля факторной дисперсии в общей характеризует плотность связи и называется коэффициентом детерминации:
Он имеет такой же смысл, интерпретацию и цифровые границы, как и . По данным табл. 9.3
следовательно, по правилу сложения дисперсий
или по другой формуле:
Тогда R2=503:549,5=0,915, т.е. 91,5% вариации суточной стоимости путевок линейно связано с вариацией длительности отдыха, а 8,5% вариации приходится на остальные факторы. Поэтому связь очень плотная.
Плотность связи оценивается также индексом корреляции , однако интерпретируется только R2. Для линейной связи используется линейный коэффициент корреляции (Пирсона) r:
который принимает значения в границах ±1, поэтому характеризует не только плотность, но и направление связи. Положительное значение свидетельствует о прямой связи, а отрицательное – об обратной.
По приведенному примеру,
Следовательно, связь между суточной стоимостью турпутевок и сроком отдыха есть плотной и обратной. Абсолютное значение r равно индексу корреляции:
Однако для интерпретации r необходимо перейти R2=r2.
Проверка существенности связи осуществляется таким же образом, как и в модели аналитической группировки, путем сравнения Отличия касаются только определения k1 и k2, в которых m – число параметров уравнения регрессии. В нашем примере k1=2–1=1, а k2=8–2=6, критическое значение (1,6) = 0,5 значительно меньше фактического R2=0,915.
Связь между суточной стоимостью путевок и длительностью отдыха признается существенной с вероятностью 0,95.
Проверка существенности связи в обеих моделях может осуществляться также по критерию Фишера, который функционально связан с R2 и :
поэтому процедура проверки и выводы идентичны.
Для оценки плотности связи между признаками порядковой (ранговой) шкалы используют коэффициент ранговой корреляции , который по содержанию идентичный линейному коэффициенту корреляции. Наиболее распространена формула Спирмена
где dj – отклонения рангов факторного (Rx)и результативного (Ry) признаков; n – количество рангов.
Коэффициент ранговой корреляции меняется в границах от -1 до +1, т.е. одновременно оценивает плотность связи и указывает ее направление.
Пример. По данным табл. 9.4 оценим плотность связи между уровнем эффективности экономики и надежностью делового партнерства для семи стран Восточной Европы. Поскольку информация представлена в форме интегральных показателей (балльной оценки), необходимо провести ранжирование стран. Наименьшему значению интегрального показателя представляется ранг 1, наибольшему – ранг n=7. Сумма квадратов отклонений рангов составляет
а коэффициент ранговой корреляции:
Таблица 9.4
Страна | Интегральные показатели | Ранги показателей | Отклонение рангов, dj | |||
эффективности экономики (mах=10) | надежности делового партнерства (mах=100) | Rx | Ry | |||
А | 5,9 | 54,9 | - 1 | |||
В | 7,1 | 54,8 | ||||
С | 4,2 | 45,3 | - 1 | |||
3,4 | 36,9 | - 1 | ||||
К | 4,9 | 35,8 | ||||
М | 2,7 | 26,4 | - 1 | |||
Р | 2,9 | 24,8 | ||||
Всего | X | X | X | X |
Значение коэффициента ранговой корреляции свидетельствует о наличии прямой и достаточно заметной связи между указанными параметрами риска иностранного инвестирования экономики. По приложению 6 критическое значение коэффициента ранговой корреляции для =0,05 и n=7 составляет (7)=0,71, что значительно меньше фактического. Следовательно, существенность связи доказана с вероятностью 0,95.
Анализ взаимосвязей между атрибутивными признаками проводится на основании таблиц взаимной сопряженности (взаимозависимости), которые описывают комбинационные распределения совокупностей по двум признакам – факторному х ирезультативному y. Приналичии стохастической связи условные распределения меняются от группы к группе. Оценка плотности стохастической связи основывается на отклонениях частот (долей) условных распределений от безусловного, т.е. на отклонениях фактических частот fi j от теоретических Fi j, пропорциональных итоговым частотам безусловного распределения:
где fi 0 – итоговые частоты по признаку х; f0 j – итоговые частоты по признаку y; n –объем совокупности.
Очевидно, что
Абсолютную величину отклонений (fi j – Fi j) характеризует квадратичная сопряженность Пирсона :
При отсутствии стохастической связи =0. Для заключения о существенности связи фактическое значение сравнивается с критическим для заданной вероятности 1- и числа степеней свободы k=(mx–1)(my–1), где mx и my – соответственно количество групп по признакам x и y.Критические значения приведены в Приложении 3.
Относительной мерой плотности стохастической связи служат коэффициенты взаимной сопряженности С, которые по содержанию идентичны коэффициентам корреляции. Если mx=my,используют коэффициент сопряженности Чупрова:
если mx≠my, преимущество отдают коэффициенту сопряженности Крамера:
где mmin – минимальное количество групп по признаку x или y.
Значения коэффициента С колеблются в границах от 0 до 1.
Пример. В табл. 9.5 приведено комбинационное распределение респондентов по возрасту и склонности к риску. К группе рисковых отнесены респонденты, которые намереваются приобрести ценные бумаги, невзирая на риск, осторожные не представляют риска без гарантий, нерисковые избегают риска вообще. Концентрация частот вокруг диагонали из верхнего левого угла в правый нижний свидетельствует о наличии стохастической связи.
Таблица 9.5
Возраст, лет | Тип инвестора | Всего | ||
рисковый | осторожный | нерисковый | ||
До 30 | ||||
30–50 | ||||
50 и старше | ||||
Всего |
Фактическое значение составляет
,
что значительно превышает критическое (4) = 9,49. Следовательно, существенность связи между возрастом респондентов и их склонностью к риску доказана с вероятностью 0,95.
Поскольку mx=my=3,для оценки плотности связи используем коэффициент взаимной сопряженности Чупрова:
т.е. связь между признаками умеренная.
В случае, когда mx=my=2, расчет коэффициента взаимной сопряженности упрощается:
В статистической литературе коэффициент С для 4-клеточной таблицы называют коэффициентом контингенции (ассоциации). Очевидно, .
Для анализа такого типа таблиц используют также отношение перекрестных произведений или отношение шансов:
Отношение шансов характеризует меру относительного риска фактора хна результат y.
Пример. По данным табл. 9.6 оценим плотность связи между восприятием рекламы и приобретением рекламируемого товара, а также результативность рекламы.
Таблица 9.6
Восприятие рекламы | Количество респондентов | Всего | |
приобрели товар | не приобрели товара | ||
Запомнили рекламу Не запомнили рекламу | |||
Всего |
Коэффициент контингенции свидетельствует о наличии стохастической связи
Фактическое значение =80•0,2542=5,16, что превышает критическое значение (1)=3,84. Следовательно, существенность связи доказана.
Отношение шансов составляет
т.е. шансы реализовать рекламируемый товар в 5,5 раза больше по сравнению с нерекламируемым.
Методы анализа таблиц взаимной сопряженности можно использовать и для количественных признаков, как например комбинационное распределение табл. 9.1, однако следует заметить, что меры плотности корреляционного связи – коэффициент детерминации и корреляционное отношения – более мощные.