Методы изучения связи социальных явлений
Важной задачей статистики является разработка методики статистической оценки социальных явлений, которая осложняется тем, что многие социальные явления не имеют количественной оценки.
Для определения тесноты связи двух качественных признаков, каждый из которых состоит только из двух групп, применяются коэффициенты ассоциации и контингенции. При исследовании связи числовой материал располагают в виде таблиц сопряженности. Для вычисления строится таблица, которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, т. е. состоящим из двух качественно отличных друг от друга значений признака (например: хороший – плохой). Расчетные данные для вычисления коэффициентов ассоциации и контингенции приведены в табл. 8.3.
Таблица 8.3
a | b | a+b |
c | d | c+d |
a +c | b+d | a+b+c+d |
Коэффициенты определяются по формулам:
ассоциации (8.19)
контингенции (8.20)
Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если или
Если каждый из качественных признаков состоит более чем из двух групп, то для определения тесноты связи возможно применение коэффициента взаимной сопряженности Пирсона–Чупрова.
Этот коэффициент вычисляется по следующим формулам:
(8.21)
(8.22)
где φ2 – показатель взаимной сопряженности;
φ – определяется как сумма отношений квадратов частот каждой клетки таблицы к произведению итоговых частот соответсвующего столбца и строки (вычитая из этой суммы 1, получим величину φ2);
К1 – число значений (групп) первого признака;
К2 – число значений (групп) второго признака.
Чем ближе величины и Кч к 1, тем связь теснее.
В анализе социально-экономических явлений часто приходится прибегать к различным условным оценкам, например, рангам, а взаимосвязь между отдельными признаками измерять с помощью непараметрических коэффициентов связи. Данные коэффициенты исчисляются при условии, что иследуемые признаки подчиняются различным законам распределения.
Ранжирование – это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения.
Ранг– это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической от соответствующих номеров мест, которые определяют. Данные ранги называются связными.
Коэффициент корреляции рангов(коэффициентСпирмена) рассчитываетсяпо формуле(для случая, когда нет связных рангов):
(8.23)
где – квадрат разности рангов;
n – число наблюдений (число пар рангов).
Коэффициент Спирмена принимает любые значения в интервале Значимость коэффициента корреляции рангов Спирмена проверяется на основе t-критерия Стьюдента. Расчетное значение критерия определяется по формуле:
(8.24)
Значение коэффициента корреляции считается статистически существенным, если .
Ранговый коэффициент корреляции Кендалла(τ) может также использоваться для измерения взаимосвязи между качественными и количественными признаками, характеризующими однородные объекты, ранжированные по одному принципу. Расчет рангового коэффициента Кендалла осуществляется по формуле:
(8.25)
где n – число наблюдений;
S – сумма разностей между числом последовательностей и числом инверсий по второму признаку.
Коэффициент Кендалла должен стремиться к единице в случае сильной связи.
Как правило, коэффициент Кендалла меньше коэффициента Спирмена. При достаточно большом объеме совокупности значения данных коэффициентов имеют следующую зависимость:
.
Связь между признаками можно признать статистически значимой, если значения коэффициентов ранговой корреляции Спирмена и Кендалла больше 0,5.
Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации – W), который вычисляется по формуле:
(8.26)
где m – количество факторов;
n – число наблюдений;
S – отклонение суммы квадратов рангов от средней квадратов рангов.
Коэффициент конкордации принимает любые значения в интервале (–1 до +1) [1, 3–7].
8.4. Регрессионный анализ в изучении взаимосвязей
социально-экономических явлений
Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком) обусловлено влиянием одной или нескольких независимых величин (факторов), а множество всех прочих факторов, также оказывающих влияние на зависимую величину, принимается за постоянное и среднее значение. Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака (у) от факторных . Регрессия может быть однофакторной (парной) и многофакторной (множественной).
По форме зависимости различают:
1) линейную регрессию, которая выражается уравнением прямой (линейной функцией) вида
; (8.27)
2) нелинейную регрессию, которая выражается уравнениями вида:
параболы
(8.28)
гиперболы
. (8.29)
Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о том, что связь между ними линейная, а при обратной связи – гиперболическая.
Если результативный признак увеличивается в арифметической прогрессии, а факторный – значительно быстрее, то используется параболическая или степенная регрессия.
По направлению связи различают:
1) прямую (положительную) регрессию, появляющуюся при условии, если с увеличением или уменьшением независимой величины значения зависимой также, соответственно, увеличиваются или уменьшаются;
2) обратную (отрицательную) регрессию, появляющуюся при условии, что с увеличением или уменьшением независимой величины зависимая, соответственно, уменьшается или увеличивается.
Основной предпосылкой регрессионного анализа является то, что только результативный признак (у) подчиняется нормальному закону распределения, а факторные признаки могут иметь произвольный закон распределения. При этом заранее подразумевается наличие причинно-следственных связей между результативным (у) и факторными признаками . Число факторных признаков должно быть в 5–6 раз меньше объема изучаемой совокупности [1, 7–1].
8.5. Парная регрессия на основе метода наименьших
квадратов (МНК)
Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Оценка параметров уравнений регрессии осуществляется методом наименьших квадратов (МНК), в основе которого лежит предположение о независимости наблюдений исследуемой совокупности.
Сущность метода МНК заключается в нахождении параметров модели ( ), при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии:
. (8.30)
Для прямой зависимости
.
Рассматривая S в качестве функции параметров и проводя математические преобразования (дифференцирование), получаем
Откуда система нормальных уравнений для нахождения параметров линейной парной регрессии МНК имеет вид:
где n – объем исследуемой совокупности (число единиц наблюдения).
Число уравнений в системе равно числу искомых параметров.
В уравнениях регрессии параметр показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр (а в уравнении параболы и ) – коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при увеличении факторного на единицу собственного измерения.
Пример. Имеются следующие данные по 10 однородным предприятиям (табл. 8.4). Найти зависимость между электровооруженностью труда и продукцией на одного работника.
Решение. По данным табл. 8.4 зависимость между электровооруженностью труда и продукцией на одного работника выражается уравнением прямой:
,
где – выпуск готовой продукции;
– параметры уравнения регрессии;
– электровооруженность.
Таблица 8.4
Номер завода | Электровоор-ть труда на 1 раб., Квт. ч., х | Выпуск готовой продукции на 1 раб., тыс. руб., у | ху | ||
3,61 | |||||
6,0 | |||||
4,41 | |||||
7,59 | |||||
3,61 | |||||
6,80 | |||||
5,20 | |||||
9,19 | |||||
8,38 | |||||
5,20 | |||||
Итого | 50,0 | 60,0 | |||
В среднем | 5,0 | 6,0 | 34,3 | 30,4 | 6,0 |
Подставим в систему нормальных уравнений фактические данные из табл. 8.4.
Домножаем на 5 первое уравнение:
Параметры уравнения регрессии можно определить по формулам:
После определения параметров уравнения регрессии рассчитываем теоретическую линию регрессии путем подстановки значений х в уравнение связи:
Если параметры уравнения связи определены правильно, то , т. е. 60 = 60.
Окончательная проверка правильности расчета параметров уравнения связи производится подстановкой и в систему уравнений.
Используя уравнение связи , можно определить теоретическое значение для любой промежуточной точки.
Коэффициент регрессии уточняет связь между х и у. Он показывает на сколько единиц увеличится результативный признак при увеличении факторного признака на единицу.
Если значения признаков х и у заданы в определенном интервале (а-b), то для каждого интервала сначала определяют середину интервала , а затем строят уравнение регрессии между ними.
Если связь между признаками у и х нелинейная и описывается уравнением параболы второго порядка, то
В данном случае задача сводится к определению неизвестных параметров: . Параметры находят по МНК, и система уравнений имеет вид:
Решая систему нормальных уравнений, определяют параметры параболы второго порядка.
Пример. В табл. 8.5 приведены данные о стаже рабочего и его выработке. Определить связь между стажем и выработкой рабочего.
Решение. Связь между стажем рабочего и выработкой криволинейная и выражается параболой второго порядка . Составляем систему нормальных уравнений по данным табл. 8.5.
Домножим первое уравнение на 5 и вычтем первое уравнение из второго:
|
Домножим второе на 6,08 и вычтем его из третьего уравнения.
|
Таблица 8.5
№ п/п | Стаж, лет х | Выработка, шт. в час у | ||||||
6 561 | 9,0 | |||||||
4 096 | 8,3 | |||||||
5,3 | ||||||||
3,5 | ||||||||
6,1 | ||||||||
4,4 | ||||||||
2 401 | 7,7 | |||||||
1 296 | 6,9 | |||||||
5,3 | ||||||||
Итого | 2 096 | 15 604 | 2 277 |
Уравнение А домножим на 4,5876 и вычтем из уравнения В.
|
Подставим и в первое уравнение, вычислим параметр .
Уравнение связи тогда будет
.
Теоретическая линия регрессии:
и т. д.
Уравнение гиперболы. Если результативный признак с увеличением факторного признака возрастает (или убывает) не бесконечно, а стремится к конечному пределу, то применяется уравнение гиперболы:
Чтобы определить параметры уравнения гиперболы методом наименьших квадратов, необходимо привести его к линейному виду. Для этого производится замена переменных получается система уравнений:
Решая систему уравнений, определяются параметры уравнения гиперболы.
Уравнение степенной функции. Степенная функция
(8.31)
применяется в экономических исследованиях для характеристики слабо нелинейной связи между результативными и факторными признаками. Параметр имеет экономический смысл – это коэффициент эластичности. Он показывает, что с увеличением признака фактора на 1 % результативный признак увеличивается на %.
Для определения параметров степенной функции методом наименьших квадратов степенную функцию необходимо привести к линейному виду путем логарифмирования. В результате логарифмирования получим уравнение вида
Заменим
Запишем уравнение:
Строим систему нормальных уравнений:
Решая систему нормальных уравнений, определяем параметры и Переходя к первоначальным обозначениям , определяем параметр