Тема 9. Статистические методы измерения связей

Основные понятия и категории

Все социально-экономические явления взаимосвязаны. Связь между ними имеет причинно-следственный характер. Признаки, которые характеризуют причины и условия связи, называются факторными х, а те, которые характеризуют последствия связи, – результативными y. Между признаками x и y возникают разные по природе и характеру связи, в частности: функциональные и стохастические. При функциональной связи каждому значению признака х отвечает одно четко определенное значение y. Этасвязь проявляется однозначно в каждом конкретном случае. При стохастической связи каждому значению признака х отвечает определенное множество значений y, которые образовывают так называемое условное распределение. Как закон эта связь проявляется только в массе случаев и характеризуется изменением условных распределений y. Если заменить условное распределение средней величиной y, то образуется разновидность стохастической связи – корреляционная. В случаекорреляционного связи каждому значению признака х отвечаетсреднее значение результативного признака y,.

Примером стохастической и в частности корреляционной связи является распределение проданных на бирже недвижимости однокомнатных квартир по их стоимости y и размеру общей площади х (табл. 9.1).

Каждой группе по факторному признаку отвечает свое распределение y, которое отличается от других групп и от безусловного итоговогораспределения. Следовательно, наблюдается стохастическая связь между признаками.

Таблица 9.1

Размер общей площади, м2 х Количество квартир со стоимостью, тыс. грн. Средняя стоимость квартиры, тыс. грн., Тема 9. Статистические методы измерения связей - student2.ru
9–11 11–13 13–15 15–17 17–19 Всего, fj
До 25   10,8
25–30 13,2
30–35 15,2
35 и больше 18,0
В целом ЗО 13,0

Условные распределения можно заменить средними значениями результативного признака, которые вычисляются как средняя арифметическая взвешенная.

Постепенное изменение средних Тема 9. Статистические методы измерения связей - student2.ru от одной группы к другой свидетельствует о наличии корреляционной связи между признаками.

Характеристикой корреляционного связи является линия регрессии, которая рассматривается в двух моделях: аналитической группировки и регрессионного анализа. В модели аналитической группировки – это эмпирическая линия регрессии, которая образовывается из групповых средних значений результативного признака Тема 9. Статистические методы измерения связей - student2.ru ,для каждого значения (интервала) хj.

Эффекты воздействия х на yопределяются как отношение приростов средних групповых значений Тема 9. Статистические методы измерения связей - student2.ru , где Тема 9. Статистические методы измерения связей - student2.ru .По данным табл. 9.1 приросты Тема 9. Статистические методы измерения связей - student2.ru во всех группах одинаковые – 5 м2, а средняя стоимость проданных квартир увеличивается по группам таким образом: Тема 9. Статистические методы измерения связей - student2.ru =13,2-10,8=2,4 тыс. грн.; Тема 9. Статистические методы измерения связей - student2.ru =2,0; Тема 9. Статистические методы измерения связей - student2.ru =2,8. Следовательно, с увеличением размера общей площади квартир на 1 м2 их стоимость в среднем растет соответственно на: Тема 9. Статистические методы измерения связей - student2.ru = 2,4 : 5 =0,48 тыс. грн. и на 0,4 и 0,56.

Оценка плотности связи основывается на правиле сложения дисперсий. В модели аналитической группировки мерой плотности связи есть отношение межгрупповой дисперсии к общей, которое называют корреляционным отношением:

Тема 9. Статистические методы измерения связей - student2.ru ,

где: Тема 9. Статистические методы измерения связей - student2.ru – общая дисперсия, которая измеряет вариацию результативного признака y,обусловленную воздействием всех возможных факторов; межгрупповая дисперсия Тема 9. Статистические методы измерения связей - student2.ru – измеряет вариацию результативного признака yза счет воздействия только группировочного признака х. Корреляционное отношение колеблется от 0 до 1, а если выразить в процентах, то от 0 до 100%. При отсутствии связи Тема 9. Статистические методы измерения связей - student2.ru =0, а при условии функциональной – Тема 9. Статистические методы измерения связей - student2.ru =1. Чем большее Тема 9. Статистические методы измерения связей - student2.ru приближается к единице, тем более плотная связь.

По данным табл. 9.1 общая дисперсия стоимости проданных квартир составляет:

Тема 9. Статистические методы измерения связей - student2.ru =

=(102 • 30+122 • 25+142 • 20+162 • 15+182 • 10):100-132= =176-169=7.

В табл. 9.2 приведена аналитическая группировка проданных квартир, которая описывает зависимость их стоимости от общей площади. Там же дан расчет межгрупповой дисперсии.

Таблица 9.2

Общая площадь квартиры, м2, Тема 9. Статистические методы измерения связей - student2.ru Количество квартир, Тема 9. Статистические методы измерения связей - student2.ru Средняя стоимость квартиры, тыс. грн., Тема 9. Статистические методы измерения связей - student2.ru Тема 9. Статистические методы измерения связей - student2.ru Тема 9. Статистические методы измерения связей - student2.ru
До 25 10,8 - 2,2 193,6
25–30 13,2 0,2 1,2
30–35 15,2 2,2 116,2
35 и больше 18,0 5,0 150,0
В целом 13,0 X 461,0

Тема 9. Статистические методы измерения связей - student2.ru

Корреляционное отношение составляет:

Тема 9. Статистические методы измерения связей - student2.ru ,

следовательно, вариация стоимости проданных квартир на 66% объясняется вариацией их общей площади и на 34% – вариацией других факторов. Т.е. связь между признаками достаточно плотная.

Однако плотная связь может возникнуть случайно, поэтому необходимо проверить ее тесноту, т.е. доказать неслучайность связи. Проверка тесноты связи – это сравнение фактического значения Тема 9. Статистические методы измерения связей - student2.ru с его критическим значением Тема 9. Статистические методы измерения связей - student2.ru для определенного уровня тесноты Тема 9. Статистические методы измерения связей - student2.ru ичисла степеней свободы k1=m-1 и k2=n-m, гдеm – число групп; n – объем совокупности. Если Тема 9. Статистические методы измерения связей - student2.ru , то связь признается существенной. Критические значения корреляционного отношения для Тема 9. Статистические методы измерения связей - student2.ru =0,05 приведены в Приложении 4.

В нашем примере k1=4–1=3, k2=100–4=96. Из-за отсутствия в таблице критических значений k2=96 используем ближайшее (k2=100), тогда Тема 9. Статистические методы измерения связей - student2.ru (3, 100)=0,075.

Поскольку Тема 9. Статистические методы измерения связей - student2.ru =0,659>0,075, то связь признается существенной с вероятностью 0,95.

В модели регрессивного анализа характеристикой корреляционного связи является теоретическая линия регрессии, которая описывается функцией Y=f(x), которая называется уравнением регрессии. В зависимости от характера связи используют:

линейные уравнения Y=a+bx, когда с изменением хпризнак yизменяется более-менее равномерно;

нелинейные уравнения, когда изменение взаимосвязанных признаков происходит неравномерно (с ускорением, замедлением или с переменным направлением связи), в частности: степенной Y=axb, гиперболическое Y=a+b/x, параболическое Y=a+bx+cx2и тому подобное.

Чаще применяются линейные уравнения или приведенные к линейному виду. В линейном уравнении параметр b – коэффициентрегрессии указывает, на сколько единиц в среднем изменится yс изменением хна единицу. Он имеет единицу измерения результативного признака. В случае прямой связи b – величина положительная, а при обратной – отрицательная. Параметр a – свободный член уравнения регрессии, т.е. это значение Y при x=0. Если xне приобретает нулевые значения, то данный параметр имеет только расчетное назначение. Параметры определяются методом наименьших квадратов, согласно которому сумма квадратов отклонений эмпирических значений y от теоретических Y минимальная Тема 9. Статистические методы измерения связей - student2.ru . В соответствии с условием минимизации параметры линейного уравнения регрессии вычисляются на основании системы нормальных уравнений:

Тема 9. Статистические методы измерения связей - student2.ru

Отсюда

Тема 9. Статистические методы измерения связей - student2.ru

Для расчета параметров уравнения параболы второго порядка методом наименьших квадратов система нормальных уравнений имеет следующий вид:

Тема 9. Статистические методы измерения связей - student2.ru

Пример. Расчет параметров линейного уравнения регрессии рассматривается на примере связи между суточной стоимостью туристических путевок в одном из турагентств и длительностью отдыха (дней).

Таблица 9.3.

Номер путевки Длительность отдыха, дней Суточная стоимость путевки, грн. xy x2 Y (y-Y)2 y2
78 91,6 185,0
52,5 6,2
82,9 146,4
35,1 126,0
52,5 0,2
26,4 0,2
82,9 4,4
48,1 3,6
Всего 472,0 372,0

Величины, на основании которых вычисляются параметры, равняются: Тема 9. Статистические методы измерения связей - student2.ru =100; Тема 9. Статистические методы измерения связей - student2.ru =472; Тема 9. Статистические методы измерения связей - student2.ru =4972; Тема 9. Статистические методы измерения связей - student2.ru =1464; n=8; Тема 9. Статистические методы измерения связей - student2.ru =100:8=12,5; Тема 9. Статистические методы измерения связей - student2.ru =472:8=59. Следовательно, параметры составляют:

Тема 9. Статистические методы измерения связей - student2.ru грн.,

а=59–(–4,34) • 12,5=113,25.

Тогда уравнение регрессии имеет вид: Y=113,25–4,34x, т.е. с увеличением длительности отдыха на один день суточная стоимость туристической путевки дешевеет в среднем на 4,34 грн.

Коэффициент регрессии в небольших по объему совокупностях подвержен случайным колебаниям. Поэтому осуществляется проверка его существенности при помощи t-критерия (Стьюдента):

Тема 9. Статистические методы измерения связей - student2.ru

где b – коэффициент регрессии; Тема 9. Статистические методы измерения связей - student2.ru – собственно стандартная погрешность, которая рассчитывается по формуле

Тема 9. Статистические методы измерения связей - student2.ru

где Тема 9. Статистические методы измерения связей - student2.ru – соответственно остаточная и факторная дисперсии; n – объем совокупности.

По данным таблицы 9.3 Тема 9. Статистические методы измерения связей - student2.ru =26,75, Тема 9. Статистические методы измерения связей - student2.ru =46,5, n =8, тогда

Тема 9. Статистические методы измерения связей - student2.ru грн., а Тема 9. Статистические методы измерения связей - student2.ru ,

что значительно превышает критическое значение t0.95(6)=2,54.

Таким образом, с вероятностью 0,95 воздействие длительности отдыха на суточную стоимость путевок признается существенным. Для коэффициента регрессии определяются также доверительные границы Тема 9. Статистические методы измерения связей - student2.ru . С вероятностью 0,95 доверительные границы коэффициента регрессии составляют: - 4,34±2,54 • 0,54 или -4,34±1,37 грн.

Характеристикой относительного изменения yза счет хесть коэффициент эластичности

Тема 9. Статистические методы измерения связей - student2.ru

который показывает, на сколько процентов в среднем меняется результативный признак с изменением факторного на 1%. По данным табл. 9.3,

Тема 9. Статистические методы измерения связей - student2.ru

следовательно, с увеличением длительности отдыха на 1% суточная стоимость путевок уменьшается в среднем на 0,9%.

На основании уравнения регрессии определяются теоретические значения Y, т.е. значение результативного признака при условии воздействия только фактора х при неизменном уровне других факторов. В приведенном примере Y – это ожидаемая стоимость путевок за счет воздействия только длительности отдыха. Так, для х=5 дней суточная стоимость путевки будет составлять Y=113,2–54,34 • 5=91,6 грн., что несколько отклоняется от эмпирического значения.

Отклонение эмпирических значений yот теоретических Y называют остаточными. Они характеризуют воздействие на результативный признак всех других факторов, кроме х. Средний размер этих отклонений определяет остаточная дисперсия

Тема 9. Статистические методы измерения связей - student2.ru

Вариацию y, обусловленную воздействием только фактора х,измеряет факторная дисперсия:

Тема 9. Статистические методы измерения связей - student2.ru

Доля факторной дисперсии в общей характеризует плотность связи и называется коэффициентом детерминации:

Тема 9. Статистические методы измерения связей - student2.ru

Он имеет такой же смысл, интерпретацию и цифровые границы, как и Тема 9. Статистические методы измерения связей - student2.ru . По данным табл. 9.3

Тема 9. Статистические методы измерения связей - student2.ru

следовательно, по правилу сложения дисперсий

Тема 9. Статистические методы измерения связей - student2.ru

или по другой формуле:

Тема 9. Статистические методы измерения связей - student2.ru

Тогда R2=503:549,5=0,915, т.е. 91,5% вариации суточной стоимости путевок линейно связано с вариацией длительности отдыха, а 8,5% вариации приходится на остальные факторы. Поэтому связь очень плотная.

Плотность связи оценивается также индексом корреляции Тема 9. Статистические методы измерения связей - student2.ru , однако интерпретируется только R2. Для линейной связи используется линейный коэффициент корреляции (Пирсона) r:

Тема 9. Статистические методы измерения связей - student2.ru

который принимает значения в границах ±1, поэтому характеризует не только плотность, но и направление связи. Положительное значение свидетельствует о прямой связи, а отрицательное – об обратной.

По приведенному примеру,

Тема 9. Статистические методы измерения связей - student2.ru

Следовательно, связь между суточной стоимостью турпутевок и сроком отдыха есть плотной и обратной. Абсолютное значение r равно индексу корреляции:

Тема 9. Статистические методы измерения связей - student2.ru

Однако для интерпретации r необходимо перейти R2=r2.

Проверка существенности связи осуществляется таким же образом, как и в модели аналитической группировки, путем сравнения Тема 9. Статистические методы измерения связей - student2.ru Отличия касаются только определения k1 и k2, в которых m – число параметров уравнения регрессии. В нашем примере k1=2–1=1, а k2=8–2=6, критическое значение Тема 9. Статистические методы измерения связей - student2.ru (1,6) = 0,5 значительно меньше фактического R2=0,915.

Связь между суточной стоимостью путевок и длительностью отдыха признается существенной с вероятностью 0,95.

Проверка существенности связи в обеих моделях может осуществляться также по критерию Фишера, который функционально связан с R2 и Тема 9. Статистические методы измерения связей - student2.ru :

Тема 9. Статистические методы измерения связей - student2.ru

поэтому процедура проверки и выводы идентичны.

Для оценки плотности связи между признаками порядковой (ранговой) шкалы используют коэффициент ранговой корреляции Тема 9. Статистические методы измерения связей - student2.ru , который по содержанию идентичный линейному коэффициенту корреляции. Наиболее распространена формула Спирмена

Тема 9. Статистические методы измерения связей - student2.ru

где dj – отклонения рангов факторного (Rx)и результативного (Ry) признаков; n – количество рангов.

Коэффициент ранговой корреляции меняется в границах от -1 до +1, т.е. одновременно оценивает плотность связи и указывает ее направление.

Пример. По данным табл. 9.4 оценим плотность связи между уровнем эффективности экономики и надежностью делового партнерства для семи стран Восточной Европы. Поскольку информация представлена в форме интегральных показателей (балльной оценки), необходимо провести ранжирование стран. Наименьшему значению интегрального показателя представляется ранг 1, наибольшему – ранг n=7. Сумма квадратов отклонений рангов составляет

Тема 9. Статистические методы измерения связей - student2.ru

а коэффициент ранговой корреляции:

Тема 9. Статистические методы измерения связей - student2.ru

Таблица 9.4

Страна Интегральные показатели Ранги показателей Отклонение рангов, dj  
эффективности экономики (mах=10) надежности делового партнерства (mах=100) Rx Ry Тема 9. Статистические методы измерения связей - student2.ru
А 5,9 54,9 - 1
В 7,1 54,8
С 4,2 45,3 - 1
3,4 36,9 - 1
К 4,9 35,8
М 2,7 26,4 - 1
Р 2,9 24,8
Всего X X X X

Значение коэффициента ранговой корреляции свидетельствует о наличии прямой и достаточно заметной связи между указанными параметрами риска иностранного инвестирования экономики. По приложению 6 критическое значение коэффициента ранговой корреляции для Тема 9. Статистические методы измерения связей - student2.ru =0,05 и n=7 составляет Тема 9. Статистические методы измерения связей - student2.ru (7)=0,71, что значительно меньше фактического. Следовательно, существенность связи доказана с вероятностью 0,95.

Анализ взаимосвязей между атрибутивными признаками проводится на основании таблиц взаимной сопряженности (взаимозависимости), которые описывают комбинационные распределения совокупностей по двум признакам – факторному х ирезультативному y. Приналичии стохастической связи условные распределения меняются от группы к группе. Оценка плотности стохастической связи основывается на отклонениях частот (долей) условных распределений от безусловного, т.е. на отклонениях фактических частот fi j от теоретических Fi j, пропорциональных итоговым частотам безусловного распределения:

Тема 9. Статистические методы измерения связей - student2.ru

где fi 0 – итоговые частоты по признаку х; f0 j – итоговые частоты по признаку y; n –объем совокупности.

Очевидно, что

Тема 9. Статистические методы измерения связей - student2.ru

Абсолютную величину отклонений (fi j – Fi j) характеризует квадратичная сопряженность Пирсона Тема 9. Статистические методы измерения связей - student2.ru :

Тема 9. Статистические методы измерения связей - student2.ru

При отсутствии стохастической связи Тема 9. Статистические методы измерения связей - student2.ru =0. Для заключения о существенности связи фактическое значение Тема 9. Статистические методы измерения связей - student2.ru сравнивается с критическим для заданной вероятности 1- Тема 9. Статистические методы измерения связей - student2.ru и числа степеней свободы k=(mx–1)(my–1), где mx и my – соответственно количество групп по признакам x и y.Критические значения Тема 9. Статистические методы измерения связей - student2.ru приведены в Приложении 3.

Относительной мерой плотности стохастической связи служат коэффициенты взаимной сопряженности С, которые по содержанию идентичны коэффициентам корреляции. Если mx=my,используют коэффициент сопряженности Чупрова:

Тема 9. Статистические методы измерения связей - student2.ru

если mx≠my, преимущество отдают коэффициенту сопряженности Крамера:

Тема 9. Статистические методы измерения связей - student2.ru

где mmin – минимальное количество групп по признаку x или y.

Значения коэффициента С колеблются в границах от 0 до 1.

Пример. В табл. 9.5 приведено комбинационное распределение респондентов по возрасту и склонности к риску. К группе рисковых отнесены респонденты, которые намереваются приобрести ценные бумаги, невзирая на риск, осторожные не представляют риска без гарантий, нерисковые избегают риска вообще. Концентрация частот вокруг диагонали из верхнего левого угла в правый нижний свидетельствует о наличии стохастической связи.

Таблица 9.5

Возраст, лет Тип инвестора Всего
рисковый осторожный нерисковый
До 30
30–50
50 и старше
Всего

Фактическое значение Тема 9. Статистические методы измерения связей - student2.ru составляет

Тема 9. Статистические методы измерения связей - student2.ru ,

что значительно превышает критическое Тема 9. Статистические методы измерения связей - student2.ru (4) = 9,49. Следовательно, существенность связи между возрастом респондентов и их склонностью к риску доказана с вероятностью 0,95.

Поскольку mx=my=3,для оценки плотности связи используем коэффициент взаимной сопряженности Чупрова:

Тема 9. Статистические методы измерения связей - student2.ru

т.е. связь между признаками умеренная.

В случае, когда mx=my=2, расчет коэффициента взаимной сопряженности упрощается:

Тема 9. Статистические методы измерения связей - student2.ru

В статистической литературе коэффициент С для 4-клеточной таблицы называют коэффициентом контингенции (ассоциации). Очевидно, Тема 9. Статистические методы измерения связей - student2.ru .

Для анализа такого типа таблиц используют также отношение перекрестных произведений или отношение шансов:

Тема 9. Статистические методы измерения связей - student2.ru

Отношение шансов характеризует меру относительного риска фактора хна результат y.

Пример. По данным табл. 9.6 оценим плотность связи между восприятием рекламы и приобретением рекламируемого товара, а также результативность рекламы.

Таблица 9.6

Восприятие рекламы Количество респондентов Всего
приобрели товар не приобрели товара
Запомнили рекламу Не запомнили рекламу
Всего

Коэффициент контингенции свидетельствует о наличии стохастической связи

Тема 9. Статистические методы измерения связей - student2.ru

Фактическое значение Тема 9. Статистические методы измерения связей - student2.ru =80•0,2542=5,16, что превышает критическое значение Тема 9. Статистические методы измерения связей - student2.ru (1)=3,84. Следовательно, существенность связи доказана.

Отношение шансов составляет

Тема 9. Статистические методы измерения связей - student2.ru

т.е. шансы реализовать рекламируемый товар в 5,5 раза больше по сравнению с нерекламируемым.

Методы анализа таблиц взаимной сопряженности можно использовать и для количественных признаков, как например комбинационное распределение табл. 9.1, однако следует заметить, что меры плотности корреляционного связи – коэффициент детерминации и корреляционное отношения – более мощные.

Наши рекомендации