Корреляционно-регрессионный метод анализа. Уравнение регрессии как форма аналитического выражения статистической связи
Для более глубокого исследования взаимосвязи явлений рассмотренные статистические методы часто оказываются недостаточными, ибо они не позволяют выразить имеющуюся связь в виде определенного математического уравнения, характеризующего механизм взаимодействия факторных и результативного признаков. Кроме того, методы параллельных рядов и аналитических группировок эффективны лишь при малом числе факторных признаков, в то время как социально-экономические явления оказываются обычно под воздействием множества причин. Эти и другие ограничения рассмотренных ранее статистических методов анализа взаимосвязей устраняет метод корреляций и регрессий – корреляционно-регрессионный анализ, являющийся логически продолжением, углублением более элементарных методов.
Корреляционно-регрессионный анализ как общее понятие включает в себя измерение тесноты, направления связи и установление аналитического выражения (формы) связи.
Корреляционный анализ имеет своей задачей количественное определение тесноты связи между двумя признаками (при парной связи) и между результативным и множеством факторных признаков (при многофакторной связи).
Регрессионный анализ заключается в определении аналитического выражения связи, в котором изменение результативного признака у обусловлено изменением факторных признаков, а множество всех прочих факторов, также оказывающих влияние на результативный признак, принимается за постоянные и средние значения.
Целью регрессионного анализа является оценка функциональной зависимости условного среднего значения результативного признака (у) от факторных ( ).
Регрессия может быть парной (однофакторной) и множественной (многофакторной). По форме зависимости – линейной и нелинейной, по направлению – прямой (положительной) и обратной (отрицательной).
Основной предпосылкой применения корреляционного анализа является необходимость подчинения совокупности значений всех факторных ( )и результативного (у) признаков к- мерному нормальному закону распределения или близость к нему.
Это условие связано с применением метода наименьших квадратов при расчете параметров корреляционного уравнения: только при нормальном распределении метод наименьших квадратов дает оценку параметров, отвечающую принципам максимального правдоподобия. На практике эта предпосылка чаще всего выполняется приблизительно, но и тогда метод наименьших квадратов дает неплохие результаты.
Основной предпосылкой применения регрессионного анализа является то, что только результативный признак (у) подчиняется нормальному закону распределения, а факторные признаки ( ) могут иметь произвольный закон распределения.
Уравнение регрессии или модель регрессии, выражаемая функцией
( ),
будет достаточно адекватной реальному моделируемому явлению или процессу в случае соблюдения следующих требований их построения:
1. Совокупность исследуемых исходных данных должна быть однородной и описываться непрерывными функциями.
2. Моделируемые явления должны оцениваться одним или несколькими уравнениями причинно-следственных связей.
3. Все признаки должны иметь количественное (цифровое) выражение.
4. Наличие достаточно большого объема исследуемой выборочной совокупности. Обычно считают, что число наблюдений должно быть не менее чем в 5-6, а лучше – не менее чем в 10 раз больше числа факторов. Еще лучше, если число наблюдений в несколько десятков или в сотни раз больше числа факторов, тогда закон больших чисел, действует в полную силу, обеспечивает эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков.
5. Отсутствие количественных ограничений на параметры модели связи.
Теоретическая обоснованность моделей взаимосвязи, построенных на основе корреляционно-регрессионного анализа, обеспечивается соблюдением следующих основных условий:
1. Все признаки и их совместные распределения должны подчиняться нормальному закону распределения.
2. Дисперсия моделируемого признака у должна все время оставаться постоянной при изменении величины у и значений факторных признаков.
3. Отдельные наблюдения моделируемого признака у должны быть независимыми, т.е. результаты, полученные в i-ом наблюдении, не должны быть связаны с предыдущими и содержать информацию о последующих наблюдениях, а также влиять на них.
Отступление от выполнения этих условий и предпосылок приводит к тому, что модель регрессии будет неадекватно отражать реально существующие связи между анализируемыми признаками.
Одной из проблем построения модели регрессии является ее размерность, т.е. определение числа факторных признаков, включаемых в модель. Их число должно быть оптимальным.
Сокращение размерности за счет исключения второстепенных, несущественных факторов (эта задача решается в основном на базе мер тесноты связи факторов с результативным признаком) позволяет получить модель, реализуемую быстрее и качественнее. В то же время построение модели малой размерности может привести к тому, что она будет недостаточно полно описывать исследуемое явление или процесс. Практика выработала определенный критерий, позволяющий установить оптимальное соотношение между числом факторных признаков, включаемых в модель, и объемом исследуемой совокупности. Согласно данному критерию число факторных признаков х должно быть 5-6 раз меньше объема изучаемой совокупности.
Построение корреляционно-регрессионных моделей, какими бы сложными они не были, само по себе не вскрывает полностью всех причинно-следственных связей. Основой их адекватности является предварительный качественный анализ, основанный на учете специфики и особенностей сущности исследуемых социально-экономических явлений и процессов .