Причинность, регрессия, корреляция

Исследование объективно существующих связей между социально-экономически­ми явлениями и процессами является важнейшей задачей теории статистики. В процессе статистического исследования зависимостей вскрываются причинно-следственные отно­шения между явлениями, что позволяет выявлять факторы (признаки), оказывающие ос­новное влияние на вариацию изучаемых явлений и процессов. Причинно-следственные отношения ‑ это такая связь явлений и процессов, когда изменение одного из них ‑ при­чины ведет к изменению другого ‑ следствия.

Финансово-экономические процессы представляют собой результат одновременно­го воздействия большого числа причин. Следовательно, при изучении этих процессов не­обходимо выявлять главные, основные причины, абстрагируясь от второстепенных.

В основе первого этапа статистического изучения связи лежит качественный ана­лиз, связанный с анализом природы социального или экономического явления методами экономической теории, социологии, конкретной экономики. Второй этап - построение модели связи, базируется на методах статистики: группировках, средних величинах, и так далее. Третий, последний этап ‑ интерпретация результатов, вновь связан с качественны­ми особенностями изучаемого явления. Статистика разработала множество методов изу­чения связей. Выбор метода изучения связи зависит от познавательной цели и задач ис­следования.

Признаки по их сущности и значению для изучения взаимосвязи делятся на два класса. Признаки, обуславливающие изменения других, связанных с ними признаков, на­зываются факторными,или просто факторами. Признаки, изменяющиеся под действием факторных признаков, называются результативными.

В статистике различают функциональную и стохастическую зависимости. Функ­циональнойназывают такую связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака.

Если причинная зависимость проявляется не в каждом отдельном случае, а в общем, среднем, при большом числе наблюдений, то такая зависимость называется стохастической. Частным случаем стохастической связи является корреляционная связь, при которой изменение среднего значения результативного признака обусловлено изменением факторных признаков.

Связи между явлениями и их признаками классифицируются по степени тесноты, направлению и аналитическому выражению.

Таблица 11.1. ‑ Количественные критерии оценки тесноты связи

Величина показателя связи Характер связи
До ±0,3 практически отсутствует
±0.3 - ±0,5 слабая
±0,5 - ±0,7 умеренная
±0,7 -±1,0 сильная

По направлению выделяют связь прямую и обратную. Прямая‑ это связь, при которой с увеличением или с уменьшением значений факторного признака происходит увеличение или уменьшение значений результативного признака. Так, рост объемов про­изводства способствует увеличению прибыли предприятия. В случае обратной связи зна­чения результативного признака изменяются под воздействием факторного, но в противо­положном направлении по сравнению с изменением факторного признака, то есть обрат­ная ‑ это связь, при которой с увеличением или с уменьшением значений одного признака происходит уменьшение или увеличение значений другого признака. Так, снижение себе­стоимости единицы производимой продукции влечет за собой рост рентабельности.

По аналитическому выражению выделяют связи прямолинейные(или просто ли­нейные)и нелинейные.Если статистическая связь между явлениями может быть при­близительно выражена уравнением прямой линии, то ее называют линейнойсвязью вида:

Причинность, регрессия, корреляция - student2.ru (11.1)

Если же связь может быть выражена уравнением какой-либо кривой, то такую связь называют нелинейной или криволинейной, например:

параболы Причинность, регрессия, корреляция - student2.ru (11.2)

гиперболы Причинность, регрессия, корреляция - student2.ru и т.д. (11.3)

Для выявления наличия связи, ее характера и направления в статистике использу­ются методы: приведения параллельных данных; графический; аналитических группиро­вок; корреляции, регрессии.

Метод приведения параллельных данныхоснован на сопоставлении двух или нескольких рядов статистических величин. Такое сопоставление позволяет установить на­личие связи и получить представление о ее характере.

Графически взаимосвязь двух признаков изображается с помощью поля корреля­ции. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат ‑ результативного. Каждое пересечение линий, проводимых через эти оси, обозначаются точкой. При отсутствии тесных связей имеет место беспорядочное распо­ложение точек на графике. Чем сильнее связь между признаками, тем теснее будут груп­пироваться точки вокруг определенной линии, выражающей форму связи.

В статистике принято различать следующие виды зависимостей:

1. Парная корреляция ‑ связь между двумя признаками (результативным и фактор­ным, или двумя факторными).

2. Частная корреляция ‑ зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков.

3. Множественная корреляция ‑ зависимость результативного и двух или более факторных признаков, включенных в исследование.

Корреляционный анализимеет своей задачей количественное определение тес­ноты и направления связи между двумя признаками (при парной связи) и между результа­тивным и множеством факторных признаков (при многофакторной связи).

Теснота связи количественно выражается величиной коэффициентов корреляции, которые, давая количественную характеристику тесноты связи между признаками, позво­ляют определять «полезность» факторных признаков при построении уравнения множест­венной регрессии. Знаки при коэффициентах корреляции характеризуют направление свя­зи между признаками.

Регрессия тесно связана с корреляцией и позволяет исследовать аналитическое вы­ражение взаимосвязи между признаками.

Регрессионный анализзаключается в определении аналитического выражения связи, в котором изменение одной величины (называемой зависимой или результативным признаком), обусловлено влиянием одной или нескольких независимых величин (фактор­ных признаков).

Одной из проблем построения уравнений регрессии является их размерность, то есть определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным. Сокращение размерности за счет исключения второстепенных, несущественных факторов позволяет получить модель, быстрее и качественнее реализуемую. В то же время, построение модели малой размерности может привести к тому, что она бу­дет недостаточно полно описывать исследуемое явление или процесс.

При построении моделей регрессии должны соблюдаться требования:

1. Совокупность исследуемых исходных данных должна быть однородной и математически описываться непрерывными функциями.

2. Возможность описания моделируемого явления одним или несколькими уравне­ниями причинно-следственных связей.

3. Все факторные признаки должны иметь количественное (числовое) выражение.

4. Наличие достаточно большого объема исследуемой совокупности (в последующих примерах в целях упрощения изложения материала это условие нарушено, т.е. объем очень мал).

5. Причинно-следственные связи между явлениями и процессами должны описываться линейной или приводимой к линейной форме зависимостью.

6. Отсутствие количественных ограничений на параметры модели связи.

7. Постоянство территориальной и временной структуры изучаемой совокупности.

Соблюдение данных требований позволяет построить модель, наилучшим образом описывающую реальные социально-экономические явления и процессы.

Парная регрессия на основе метода наименьших квадратовпозволяет получить аналитическое выражение связи между двумя признаками: результативным и факторным.

Определить тип уравнения можно, исследуя зависимость графически, однако су­ществуют более общие указания, позволяющие выявить уравнение связи, не прибегая к графическому изображению. Если результативный и факторный признаки возрастают одинаково, то это свидетельствует о том, что связь между ними линейная, а при обратной связи ‑ гиперболическая. Если результативный признак увеличивается в арифметической прогрессии, а факторный значительно быстрее, то используется параболическая или сте­пенная регрессия.

Оценка параметров уравнений регрессии ( Причинность, регрессия, корреляция - student2.ru и Причинность, регрессия, корреляция - student2.ru — в уравнении параболы вто­рого порядка) осуществляется методом наименьших квадратов, в основе которого лежит предположение о независимости наблюдений исследуемой совокупности и нахождении параметров модели Причинность, регрессия, корреляция - student2.ru , при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полу­ченных по выбранному уравнению регрессии:

Система нормальных уравнений для нахождения параметров линейной парной рег­рессии методом наименьших квадратов имеет следующий вид:

Причинность, регрессия, корреляция - student2.ru (11.4)

где п ‑ объем исследуемой совокупности (число единиц наблюдения).

В уравнениях регрессии параметр ао показывает усредненное влияние на результа­тивный признак неучтенных в уравнении факторных признаков. Коэффициент регрессии а1 показывает, на сколько в среднем изменяется значение результативного признака при увеличении факторного признака на единицу собственного измерения. xi – теоретические значения результативного признака; yi – наблюдаемые значения факторного признака.

Пример. Имеются данные по 10 однотипным предприятиям о выпуске продукции (х) в тыс.ед. и о расходе условного топлива (у) в тоннах (графы 1 и 2 табл. 17).

Требуется найти уравнение зависимости расхода топлива от выпуска продукции (или уравнение регрессии у по х) и измерить тесноту зависимости между ними. Для этого представим данные в табл. 11.2 (вместе с расчетными столбцами).

Таблица 11.2 – Расчет показателей для нахождения уравнения регрессии

№ п/п Выпуск продукции, xi,тыс.ед. Расход топлива, yi, тонн x2 xy y2 Причинность, регрессия, корреляция - student2.ru
3,9
4,4
5,5
5,5
6,6
6,6
8,8
12,1
12,1
14,3
* 80

Необходимые для решения суммы рассчитаны выше в таблице. Подставим их в уравнение и решим систему.

Причинность, регрессия, корреляция - student2.ru

Причинность, регрессия, корреляция - student2.ru

Причинность, регрессия, корреляция - student2.ru

Из системы уравнений получим a1 = 0,547; а0 = 1,16.

Получив искомое уравнение регрессии Причинность, регрессия, корреляция - student2.ru можно утверждать, что с увеличение выпуска продукции на тыс. ед., расход топлива возрастет в среднем на 0,547 тонны.

*Если параметры уравнения найдены верно, то ∑y=∑yх. (11.5)

Измерение тесноты (силы) и направления связи является важной задачей изучения и количественного измерения взаимосвязи социально-экономических явлений. Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результативного признака и одного (при изучении парных зависимостей) или нескольких (множественных зависимостей) факторных признаков.

Линейный коэффициент корреляции(К. Пирсона) характеризует тесноту и на­правление связи между двумя коррелируемыми признаками в случае наличия между ними линейной зависимости.

В теории разработаны и на практике применяются различные модификации фор­мулы расчета данного коэффициента:

Для измерения тесноты зависимости между у и х применяют линейный коэффициент корреляции, который может быть рассчитан по любой из нижеприведенных формул:

Причинность, регрессия, корреляция - student2.ru (11.6)

Причинность, регрессия, корреляция - student2.ru (11.7)

Причинность, регрессия, корреляция - student2.ru (11.8)

Таблица 11.3 – Оценка линейного коэффициента корреляции

Значение линейного коэффициента связи Характеристика связи Интерпретация связи
г = 0 отсутствует -
0<г<1 прямая с увеличением х увеличивается у
-1<г<0 обратная с увеличением х уменьшается у и наоборот
г=1 функциональная каждому значению факторного признака строго соответствует одно значение резуль­тативного признака

Найдем коэффициент корреляции по данным табл. 11.2., используя формулы (11.6‑11.8):

Причинность, регрессия, корреляция - student2.ru

Причинность, регрессия, корреляция - student2.ru

Причинность, регрессия, корреляция - student2.ru

Причинность, регрессия, корреляция - student2.ru .

Причинность, регрессия, корреляция - student2.ru

Линейный коэффициент корреляции может принимать по модулю значения от 0 до 1 (знак + при прямой зависимости и знак – при обратной зависимости).

Найденный коэффициент корреляции 0 < r = 0,96 < 1; означает, что характер связи между исследуемыми признаками прямой.

По степени тесноты связи между признаками (одним из критериев оценки служит коэффициент корреляции) различают связи:

– сильную ±0,7 ≤ r ≤ ±1;

– умеренную ±0,5 ≤ r ≤ ±0,7;

– слабую ±0,3 ≤ r ≤ ±0,5;

– практически отсутствующую 0 ≤ r ≤ ±0,3.

Следовательно, 0,7≤0,96≤ 1, значит, связь в данном примере сильная (с увеличением выпуска продукции увеличивается расход топлива).

Контрольные задания.

По данным статистических сборников постройте таблицу: по 10 однотипным предприятиям с данными о численности персонала, выпуске продукции, расходах; данных о прожиточном минимуме и средней заработной плате и т.п.; найдите уравнение зависимости (или уравнение регрессии) и измерьте тесноту связи между показателями.

Наши рекомендации