Социально-экономических явлений (версия 2)
Социально-экономические явления представляют собой результат одновременного воздействия большого числа причин. При изучении этих явлений необходимо выявить основные причины, абстрагируясь от второстепенных.
Следует обратить внимание на этапы статистического изучения связей:
1 этап – качественный анализ явления, т.е. анализ природы явления методами экономической теории, социологии, конкретной экономики;
2 этап – построение модели связи;
3 этап – интерпретация результатов.
Связи между признаками и явлениями, ввиду их большого разнообразия, классифицируются по ряду оснований. Признаки по их значению для изучения взаимосвязи делятся на 2 класса:
1) признаки, обуславливающие изменение других связанных с ними признаков, называются факторными;
2) результативные, изменяющиеся под действием факторных признаков.
Связи между явлениями и их признаками классифицируются по степени тесноты, по направлению и по аналитическому выражению.
В статистике различают функциональную связь и стохастическую зависимость. Функциональной называют такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака. Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем при большом числе наблюдений, то такая зависимость называется стохастической. Частым случаем такой связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.
По направлению выделяют связь прямую и обратную. По аналитическому выражению выделяют связи прямолинейные (линейные) и нелинейные (криволинейные).
Следует обратить внимание на основные методы выявления наличия связи, ее характера и направления.
Метод приведения параллельных данных основан на сопоставлении двух или нескольких рядов статистических величин. Допустим, имеются данные о двух величинах:
Х – 1 2 3 4 5 6 7 8 9
У – 5 6 9 10 14 17 15 20 23
Мы видим, что с увеличением величины Х величина У также возрастает. Можно сделать предположение, что связь между ними прямая и что ее можно описать или уравнением прямой, или уравнением параболы второго порядка.
Статистическую связь между двумя признаками можно изобразить графически и по графику судить о наличии, направлении и форме связи. На оси абсцисс откладываются значения факторного признака, а на оси ординат – результативного. Соединив полученные точки нанесенных на график значений Х и У прямыми линиями, получается ломаная, которая называется «ломаная регрессии». Число точек ломаной регрессии должно строго соответствовать числу единиц наблюдения, по которым даны значения обоих признаков. Кривая позволит судить о форме связи, об аналитическом ее выражении.
Парная регрессия характеризует связь между двумя признаками: результативным и факторным. Аналитически связь между ними описывается уравнениями прямой, параболы, гиперболы. Если результативный и факторный признаки возрастают одинаково, примерно в арифметической прогрессии, то это свидетельствует о наличии линейной связи между ними, а при обратной связи – гиперболической. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или степенная функция.
Модель регрессии может быть построена как по индивидуальным значениям признака, так и по сгруппированным данным.
Для выявления связи между признаками по достаточно большому числу наблюдений используется корреляционная таблица. В ней можно отобразить только парную связь, т.е. связь результативного признака с одним фактором, и на ее основе построить уравнение регрессии и определить показатели тесноты связи. Само уравнение регрессии может иметь линейную, параболическую и другие формы. Для составления корреляционной таблицы парной связи статистические данные необходимо предварительно сгруппировать по обоим признакам (Х и У), затем построить таблицу, по строкам в которой отложить группы результативного, а по столбцам – группы факторного признаков.
Корреляционная таблица дает общее представление о направлении связи. Если оба признака (Х и У) располагаются в возрастающем порядке, а частоты (fxy) сосредоточены по диагонали сверху вниз направо, то можно судить о прямой связи между признаками, в противном случае – об обратной.
О тесноте связи между признаками Х и У по корреляционной таблице можно судить по кучности расположения частот вокруг диагонали (насколько заполнены клетки таблицы в стороне от нее). Если клетки заполнены большими цифрами, то связь слабая. Чем ближе частоты (fxy) располагаются к одной из диагоналей, тем теснее связь. Если в расположении частот (fxy) нет системности, то можно судить об отсутствии связи.
Рассмотрим анализ статистических данных по корреляционной таблице, используя следующие данные (см. табл. 1).
Т а б л и ц а 1
Исходные и расчетные данные для определения коэффициента корреляции
Годы | Энерговооруженность труда, кВт·ч/чел.ч Х | Средняя выработка, тыс. руб. У | Х2 | У2 | ХУ |
4,0 | 8,43 | 16,00 | 71,06 | 33,72 | |
4,3 | 9,79 | 18,49 | 95,84 | 42,09 | |
6,7 | 9,06 | 44,89 | 82,08 | 60,70 | |
7,4 | 11,01 | 54,76 | 121,22 | 81,47 | |
7,7 | 11,69 | 59,29 | 136,66 | 90,01 | |
8,3 | 12,55 | 68,89 | 157,50 | 104,17 | |
9,6 | 10,12 | 92,16 | 102,41 | 97,15 | |
12,1 | 14,58 | 146,41 | 212,58 | 176,42 | |
15,0 | 14,18 | 225,00 | 201,07 | 212,70 | |
16,0 | 20,22 | 256,00 | 408,85 | 323,52 | |
Итого | 91,1 | 121,63 | 981,89 | 1589,27 | 1221,95 |
Вначале сгруппируем единицы наблюдения по значениям факторного и результативного признаков, образовав 4 группы. Величина интервала:
.
Группы для факторного признака:
I – 4–7 II – 7–10 III – 10–13 IV – 13–16
Группы для результативного признака:
I – 8,43–11,38 III – 14,33–17,28 II – 11,38–14,33 IV – 17,28–20,23
Т а б л и ц а 2
Корреляционная таблица
Средняя выработка, тыс. руб./чел. у | Энерговооруженность труда, кВт·ч/чел·ч, х | |||||||
fу | ||||||||
8,43–11,38 | 9,905 | -- | -- | 49,53 | 272,39 | |||
11,38–14,33 | 12,855 | -- | -- | 38,57 | 327,80 | |||
14,33–17,28 | 15,805 | -- | -- | -- | 15,81 | 181,76 | ||
17,28–20,23 | 18,755 | -- | -- | -- | 18,76 | 271,95 | ||
Fх | -- | 122,6 | 1053,9 | |||||
-- | 16,5 | 34,0 | 11,5 | 29,0 | 91,0 | -- | -- | |
-- | 90,75 | 289,0 | 132,25 | 420,5 | 932,5 | -- | -- | |
-- | 5,08 | 9,22 | 13,36 | 17,5 | --- | --- | --- |
Анализ таблицы показывает, что частоты (fxy) расположены по диагонали сверху вниз, что свидетельствует о наличии прямой связи между энерговооруженностью труда и выработкой. Наблюдается концентрация частот вокруг главной диагонали и незаполненность оставшихся клеток, поэтому можно предположить достаточно тесную связь между рассматриваемыми признаками.
Расчет и анализ средних значений по группам факторных признаков х подтверждает наличие прямолинейной зависимости между х и у.
Считая, что зависимость описывается уравнением прямой (ух=ао+а1х), коэффициенты ао, а1 определим из системы нормальных уравнений вида:
Отсюда: а0 = - 2,51; а1 = 1,38.
Следовательно,
Изучение связи между тремя и более связанными между собой признаками носит название множественной (многофакторной) регрессии. Построение моделей множественной регрессии следует осуществлять по этапам:
1) выбор формы связи (уравнения регрессии);
2) отбор факторных признаков;
3) обеспечение достаточного объема совокупности для получения несмещенных оценок.
Практика построения многофакторных моделей взаимосвязи показывает, что все реально существующие зависимости между социально-экономическими явлениями можно описать, используя пять типов моделей:
1) линейная: ;
2) степенная: ;
3) показательная: ;
4) параболическая: ;
5) гиперболическая: .
Надо иметь в виду, что основное значение имеют линейные модели в силу простоты и логичности их экономической интерпретации.
При построении моделей регрессии можно столкнуться с проблемой мультиколлинеарности, под которой понимается тесная зависимость между факторными признаками, включенными в модель. Мультиколлинеарность существенно искажает результаты исследования; ее устранение может реализоваться через исключение из корреляционной модели одного или нескольких линейно-связанных факторных признаков. А о наличии мультиколлинеарности можно судить по величине парного коэффициента корреляции ( ).
В уравнениях регрессии параметр а0 показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов; параметр а1 (а2) – коэффициент регрессии показывает, насколько изменяется в среднем значение результативного признака при изменении факторного на единицу его собственного измерения.
Проверка адекватности моделей, построенных на основе уравнений регрессии, начинается с анализа значимости каждого коэффициента регрессии. Значимость коэффициента регрессии осуществляется с помощью t-критерия Стьюдента:
, (1)
где ai2 – дисперсия коэффициента регрессии, которая может быть определена по выражению:
, (2)
где у2 – дисперсия результативного признака; к – число факторных признаков.
Параметр модели признается статистически значимым, если tp>tкр (табличное).
Проверка адекватности всей модели осуществляется с помощью величины средней ошибки аппроксимации (Е):
. (3)
Значение Е не должно превышать 12–15 %.
Важной задачей изучения и количественного измерения взаимосвязи социально-экономических явлений является измерение тесноты и направления связи.
Теснота связи при линейной зависимости измеряется с помощью линейного коэффициента корреляции. В статистической теории разработаны и на практике применяются различные модификации формул расчета данного коэффициента:
, (4)
, (5)
. (6)
Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость:
, (7)
где аi – коэффициент регрессии в уравнении связи; – среднее квадратическое отклонение соответствующего факторного признака.
Линейный коэффициент корреляции изменяется в пределах от -1 до 1: -1< <1. Знаки коэффициентов регрессии и корреляции совпадают. При этом интерпретацию выходных значений коэффициента корреляции можно представить в таблице 3.
Значимость линейного коэффициента корреляции проверяется на основе t-критерия Стьюдента:
. (8)
Если расчетное значение tp>tкр (табличное), то гипотеза об отсутствии связи отвергается, что свидетельствует о значимости линейного коэффициента корреляции, а следовательно, и о статистической существенности зависимости между х и у.
Т а б л и ц а 3