Выявление взаимосвязей в социальных процессах
Вычисление линии тренда, отражающей тенденцию преступности, является базой для разработки прогноза. Но прогнозирование как бы «сам из себя» без учета влияния внешних факторов может привести к достаточно серьезной ошибке. Особенно это касается нестабильных систем, где причинно-следственные зависимости быстро меняются не только по форме и силе, но иногда и по направлению.
Поэтому необходимо идти от исследования преступности в ее «чистом» виде к исследованию тех явлений, процессов и факторов, которые влияют на нее. Главным центральным вопросом при этом выступает не только определение и изучение таких факторов, но и расчет силы их влияния на преступность. Для исследования зависимостей между анализируемыми признаками обычно используют методы корреляционного и регрессионного анализов.
Корреляционный анализ
Между социально-экономическими явлениями и процессами возможны два вида зависимости: функциональная и стохастическая. При функциональной зависимости имеется однозначное соответствие тех или иных параметров, характеризующих различные явления. Примеры такого рода зависимостей в социальной среде практически не встречаются.
При стохастической (вероятностной) зависимости конкретному значению зависимой переменной соответствует набор значений объясняющей переменной. Это связано, прежде всего, с тем, что на зависимую переменную оказывает влияние ряд неучтенных факторов. Кроме того, сказываются ошибки измерения переменных: вследствие случайного разброса их значения могут быть указаны лишь с определенной вероятностью.
В социально-экономической сфере приходится сталкиваться со многими явлениями, имеющими вероятностную природу. Так, число совершенных и раскрытых преступлений за фиксированный отрезок времени, число дорожно-транспортных происшествий в каком-либо регионе за определенное время - все это случайные величины. Для изучения стохастических взаимосвязей существуют специальные методы, в частности, корреляционный анализ («корреляция» - соотношение, связь между имеющимися явлениями и процессами).
Статистической (стохастической) зависимостью величины Y от нескольких переменных x1, x2, ..., хn называется связь, в соответствии с которой при изменением значения факторных переменных x1, x2, ..., хn результативная переменная Y может принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону. Статистическая связь между различными показателями предполагает, чтокаждый из них имеет случайную вариацию индивидуальных значений относительно средней величины.
Корреляционной связью двух переменных называют частный случай статистической связи, состоящий в том, что разным значениям факторной переменной X соответствуют различные средние значения результативной переменной Y. Слово «корреляция» ввел в употребление Ф.Гальтон в конце XIXв. обозначая им соответствие (correlation), в отличие от обычной функциональной связи (relation).
Если рассматривается взаимосвязь двух переменных, в которой случайную вариацию имеет лишь один из признаков, а значения другого являются жестко детерминированными, то говорят о регрессии, а не о статистической связи. Например, при анализе динамических рядов можно измерять регрессию уровня преступности на номера лет, но нельзя говорить о корреляции между ними и применять показатели корреляции с соответствующей им интерпретацией.
Корреляционная связь между признаками может возникать тремя путями. Во‑первых, она может проявиться как причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, признак X - уровень безработицы, признак Y - уровень преступности.
Во-вторых, она может проявиться между двумя следствиями общей причины. Известен пример[1], приведенный А.А.Чупровым: если в качестве признака X взять число пожарных команд в городе, а за признак Y - сумму убытков за год в городе от пожаров, то между признаками X и Y в совокупности городов России имеется прямая корреляция. В среднем, чем больше пожарников в городе, тем больше и убытков от пожаров! Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака - следствия общей причины - размера города.
В-третьих, корреляция возникает при взаимосвязи признаков, каждый из которых может выступать и как причина, и как следствие. Такова, например, корреляция между уровнем производительности труда и уровнем оплаты одного часа труда (тарифной ставкой). С одной стороны, чем выше производительность труда, тем выше и оплата. Но с другой стороны, установленные тарифные ставки выступают в качестве стимулирующего фактора по отношению к производительности труда. В такой системе каждый признак может выступать и в роли независимой переменной X, и в качестве зависимой переменной Y.
Первым условием возможности изучения корреляции является общее условие всякого статистического исследования: - наличие данных по достаточно большой совокупности явлений. Какое именно число явлений достаточно для анализа корреляционной связи, зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов, корреляция с которыми изучается. Обычно считают, что число наблюдений должно быть не менее чем в 5-6, а лучше - не менее чем в 10 раз больше числа факторов[2]. При большом числе наблюдений вступает в действие закон больших чисел, обеспечивающий взаимное погашение случайных отклонений от закономерного характера исследуемой связи.
Вторым условием возможности изучения корреляционной связи служит условие, обеспечивающее достоверное выражение закономерности в средней величине для чего необходима качественная однородность исследуемой совокупности. Например, не следует объединять в одну совокупность преступления, совершаемые обычными гражданами, с преступлениями, совершаемыми лицами, отбывающими наказание в исправительно-трудовых учреждениях, поскольку указанные преступления имеют существенные отличия.
Третьим условием корреляционного анализа является необходимость подчинения распределения совокупности по результативному Y и факторному X признакам нормальному закону распределения. Это условие связано с используемым при корреляционном анализе математическим аппаратом, дающим достоверную оценку параметров корреляции только при нормальном распределении. Однако на практике это условие чаще всего выполняется приближенно, но и в этом случае получаемые результаты обладают достаточной надежностью. При значительном отклонении распределений признаков от нормальных нельзя оценивать надежность корреляции, используя параметры данного распределения или распределения Стьюдента.
В статистике линейная зависимость между двумя признаками измеряется посредством простого (выборочного) коэффициента корреляции. Величина линейной зависимости одной переменной от нескольких других измеряется коэффициентом множественной корреляции. Возможно, вычисление частного коэффициента корреляции, который измеряет линейную зависимость между двумя признаками после устранения части линейной зависимости, обусловленной связью этих переменных с другими переменными.
По формекорреляционные связи могут быть линейными (прямолинейными) и нелинейными (криволинейными), а по направлению- прямыми (положительными) и обратными (отрицательными).
Прямая связь свидетельствует о том, что с увеличением (уменьшением) значений одного признака увеличиваются (уменьшаются) значения другого признака. При обратной связи увеличение (уменьшение) значений одного признака ведет к уменьшению (увеличению) значений другого признака.
Главная задача корреляционного анализа - измерение тесноты связи - решается путем вычисления различных коэффициентов корреляции и проверки их значимости.
Коэффициент корреляции может принимать значения при прямой связи от 0 до + 1, а при обратной - от - 1 до 0. При коэффициентах, близких к 0, считается, что статистическая линейная связь между признаками отсутствует; при абсолютных значениях коэффициентов, меньших 0,3, - связь слабая; при значениях 0,3...0,5 - связь умеренная; при 0,5...0,7 - связь значительная; при 0,7...0,9 - связь сильная; если значения коэффициентов больше 0,9, то связь считается очень сильной; если коэффициенты равны +1 или -1, то говорится о функциональной связи (что практически не встречается в статистических исследованиях).
Однако такая упрощенная оценка силы связи не всегда корректна, так как степень уверенности в наличии статистической связи зависит от объема исследуемой совокупности. Чем меньше объем совокупности, тем большим должно быть значение коэффициента корреляции для принятия гипотезы о существовании зависимости между признаками. С целью количественного измерения степени уверенности в существовании линейной статистической связи между признаками введены понятия уровня значимости и пороговых (критических) значений коэффициента корреляции.
Проверка значимости полученного коэффициента корреляции состоит в сравнении расчетного значения с критическим. При данном числе измерений и задаваемом уровне значимости находится критическое значение, которое сравнивается с расчетным. Если расчетное больше критического, то связь значима, если меньше, то связь или отсутствует (а такое значение коэффициента корреляции объясняется случайными отклонениями) или выборка мала для ее выявления.
Для определения существования и величины линейной зависимости между двумя переменными X и Y необходимо осуществить две процедуры. Первая заключается в графическом отображении точек [Xi, Yi, i=1,..., n] на плоскость [XY].
Рис. 2. Линейная зависимость Рис. 3. Линейная зависимость
существует. не просматривается.
Полученный график (рис. 2, 3) называется диаграммой рассеяния, анализ которой позволяет сделать вывод о допустимости предположения о линейной зависимости между переменными. Если такое предположение допустимо, то необходимо выразить в количественном виде величину линейной связи. Для этого используется выборочный коэффициент корреляции:
R = ,
где: , - среднеквадратические отклонения переменных X и Y соответственно.
Однако даже при наличии сильной статистически значимой связи между двумя переменными нельзя быть полностью уверенным в их причинно-следственной обусловленности, так как могут существовать другие причины (факторы), определяющие их совместную статистическую взаимосвязь. Статистические выводы должны быть всегда обоснованы надежной теоретической концепцией.
В то же время отсутствие статистически значимой связи не говорит об отсутствии причинно-следственных отношений, а заставляет искать другие пути и средства ее выявления, если содержательная концепция и практический опыт указывают на ее возможное существование.
Регрессионный анализ
Понятия корреляции и регрессии непосредственно связаны между собой. В корреляционном и регрессионном анализе много общих вычислительных приемов. Они используются для выявления причинно-следственных соотношений между явлениями и процессами. Однако если корреляционный анализ позволяет оценить силу и направление стохастической связи, то регрессионный анализ - еще и функцию зависимости. При этом следует отметить, что чем слабее взаимосвязь, тем больше диаграмма рассеяния похожа на облако (рис. 3) и тем труднее определить функцию зависимости.
Регрессия может быть:
а) в зависимости от числа явлений (переменных):
Рис. 4. Линейная зависимость Рис. 5. Нелинейная зависимость
- простой (регрессия между двумя переменными, рис. 4, 5);
- множественной (регрессия между зависимой переменной (y) и несколькими объясняющими ее переменными (х1, х2...хn);
б) в зависимости от формы (см. рис. 9, 10):
- линейной (отображается линейной функцией, а между изучаемыми переменными существуют линейные соотношения);
- нелинейной (отображается нелинейной функцией, между изучаемыми переменными связь носит нелинейный характер);
в) по характеру связи между включенными в рассмотрение переменными:
- положительной (увеличение значения объясняющей переменной приводит к увеличению значения зависимой переменной и наоборот);
- отрицательной (с увеличением значения объясняющей переменной значение объясняемой переменной уменьшается);
г) по типу:
- непосредственной (в этом случае причина оказывает прямое воздействие на следствие, т.е. зависимая и объясняющая переменные связаны непосредственно друг с другом);
- косвенной (объясняющая переменная оказывает опосредованное действие через третью или ряд других переменных на зависимую переменную);
- ложной (нонсенс-регрессия) - может возникнуть при поверхностном и формальном подходе к исследуемым процессам и явлениям. Например, регрессия, устанавливающая связь между уменьшением количества потребляемого алкоголя в нашей стране и уменьшением продажи стирального порошка.
При проведении регрессионного анализа решаются следующие основные задачи:
1. Определение формы зависимости.
2. Определение функции регрессии. Для этого используют математическое уравнение того или иного типа, позволяющее, во-первых, установить общую тенденцию изменения зависимой переменной, а, во-вторых, вычислить влияние объясняющей переменной (или нескольких переменных) на зависимую переменную.
3. Оценка неизвестных значений зависимой переменной. Полученная математическая зависимость (уравнение регрессии) позволяет определять значение зависимой переменной как в пределах интервала заданных значений объясняющих переменных, так и за его пределами. В последнем случае регрессионный анализ выступает в качестве полезного инструмента при прогнозировании изменений социально-экономических процессов и явлений (при условии сохранения существующих тенденций и взаимосвязей). Обычно длина временного отрезка, на который осуществляется прогнозирование, выбирается не более половины интервала времени, на котором проведены наблюдения исходных показателей. Можно осуществить как пассивный прогноз, решая задачу экстраполяции, так и активный, ведя рассуждения по известной схеме «если ..., то» и подставляя различные значения в одну или несколько объясняющих переменных регрессии.
Технология построения регрессии
Для построения регрессии используется метод, получивший название метода наименьших квадратов. Суть его заключается в нахождении по фактическим данным динамического ряда теоретической кривой (тренд), точки которой равноудалены от кривой 1 (см. рис. 6).
При выборе модели регрессии одним из существенных требований к ней является возможность обеспечения наибольшей простоты, позволяющей получить решение с достаточной точностью. Поэтому для установления статистических связей вначале, как правило, рассматривают модель из класса линейных функций, затем другие.
Существует хорошо развитая система подбора аппроксимирующих функций - методика группового учета аргументов (МГУА), достаточно удачно реализованная в программе Excel.
О правильности подобранной модели можно судить по результатам исследования остатков i, являющихся разностями между наблюдаемыми величинами yi и соответствующими прогнозируемыми с помощью регрессионного уравнения величинами yi . В этом случае для проверки адекватности модели рассчитывается средняя ошибка аппроксимации:
1 yi - yi
= n yi
Модель считается адекватной, если , находится в пределах не более 15%.