Глава 9.Статистическое изучение взаимосвязи социально- экономических явлений
Статистика разработала множество методов изучения связей, выбор которых зависит от цели исследования. Связи между признаками и явлениями классифицируется по ряду оснований. Признаки делятся на 2 класса:
Факторные – признаки, обуславливающие изменения других, связанных с ними признаками.
Результативные признаки изменяются под воздействием факторных признаков.
В статистике различают функциональную связь и стохастическую.
Функциональной называют связь, при которой определенным значениям фактического признака соответствует одно и только одно значение результативного признака.
Если зависимость проявляется не в каждом случае, а в общем, среднем или большом числе наблюдений, то такая связь называется стохастической.
Связь бывает прямая и обратная. При прямой связи уменьшение (увеличение) фактического признака ведет к уменьшению (увеличению) результативного. При обратной связи увеличение (уменьшение) фактического признака ведет к уменьшению (увеличению) результативного.
По аналитическому выражению связь бывает линейной и нелинейной.
Если статистическая связь между явлениями выражена прямой, то ее называет линейной.
Если она выражается уравнением кривой линии (парабола, гипербола, степенная и т.д.), то ее называют нелинейной.
Для выявления связи используются методы приведения параллельных данных аналитических группировок, графической, корреляции и регрессии.
Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических данных. Такое сопоставление позволяет установить наличие связи и получить представление о ее характере.
Сравним изменения двух величин.
x | |||||||||
y |
Мы видим, что с увеличением x, y увеличивается, следовательно, между ними прямая связь.
Связь между признаками можно изобразить графически.
Связь прямолинейная.
Парная регрессия характеризует связи между результативными и факторными признаками. Аналитически эта связь описывается уравнениями:
прямой:
параболой:
гиперболой: и т.д.
Определить тип уравнения можно, исследуя зависимость графически.
Если результативные и фактические признаки возрастают в арифметической прогрессии, то говорят о линейной связи, а при обратной – о гиперболической связи.
Если результативный признак увеличивается в арифметической прогрессии, а фактический значительно быстрее, то используется параболическая функция.
Оценка параметров a0, a1, a2 осуществляется методом наименьших квадратов.
Система уравнений для нахождения параметров парной регрессии методом наименьших квадратов имеет следующий вид:
,
где n- объем исследуемой совокупности (число единиц),
a0 – показывает усредненное влияние на результативный признак неучтенных факторов,
a1, a2 – коэффициент регрессии показывает на сколько при изменении фактического измерения изменяется результативный.
Модель регрессии может быть построена как по индивидуальным значениям признака, так и по сгруппированным.
Для выявления связи между признаками используется корреляционная таблица. Здесь отображается только парная связь, т.е. связь результативного признака с одним фактором.
Для составления корреляционной таблицы статистические данные необходимо сгруппировать по обоим признакам (x и y), затем построить таблицу по строкам, в которых отложить результативный признак, по столбцам значения фактического признака.
Если x и y в возрастающем порядке, а частоты по диагонали сверху вниз направо – прямая связь. В противном случае – обратная. О тесноте связи между x и y можно судить по кучности частот вокруг диагонали. Если клетки заполнены большими цифрами, то связь слабая, чем теснее частоты, fxy располагаются к одной из диагоналей, тем теснее связь.
Если системности нет, то связь отсутствует.
Методы изучения связи социальных явлений. Важнойзадачей статистики является разработка методики статистической оценки социальных явлений, которая осложняется тем, что многие социальные явления не имеют количественной оценки. Количественная оценка связей социальных явлений осуществляется на основе расчета и анализа целого ряда коэффициентов.
Коэффициент ассоциации и контингенции. Для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. Для их вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, т.е. состоящим из двух качественно отличных друг от друга значений признака (например, хороший, плохой) (таблица 2).
Таблица 2
Таблица для вычисления коэффициентов
ассоциации и контингенции
a | b | a + b |
c | d | c + d |
a + c | b + d | a + b + c + d |
Коэффициенты вычисляются по формулам:
ассоциации: ;
контингенции: .
Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если Ка>0.5 или Кк>0,3.
Когда каждый из качественных признаков состоит более чем из двух групп, то для определения тесноты связи возможно применение коэффициентов взаимной сопряженности Пирсона и Чупрова,которые вычисляются по следующим формулам:
; ,
где φ2 – показатель взаимной сопряженности;
φ2 – определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответствующего столбца и строки минус 1:
,
K1 – число значений (групп) первого признака;
K2 – число значений (групп) второго признака.
Чем ближе величины и к 1, тем связь теснее.
Рассмотрим вспомогательную таблицу для расчета коэффициента взаимной сопряженности.
Вспомогательная таблица
для расчета коэффициента взаимной сопряженности
Y X | I | II | III | Всего |
I | … | … | ||
II | … | … | ||
III | … | … | ||
Итого | n |
.
В статистике существуют модификации коэффициента Пирсона, например через расчет χ2– критерия. Коэффициент взаимной сопряженности ( ) вычисляется по формуле
,
где - наиболее распространенный критерий согласия, используемый для проверки статистической гипотезы о виде распределения. Коэффициент Чупрова изменяется в пределах 0< <1.
Особое значение для оценки связи имеет биссериальный коэффициент корреляции,который дает возможность оценить связь между качественным альтернативным и количественным варьирующим признаками. Данный коэффициент вычисляется по формуле
.
где и - средние в группах;
- среднее квадратическое отклонение фактических значений признака от среднего уровня;
p – доля первой группы;
q – доля второй группы;
z – табулированные (табличные) значения Z – распределения в зависимости от p.