Описание взаимосвязей с помощью регрессионного анализа
Массовые явления и процессы социально-экономической жизни тесно взаимосвязаны между собой и взаимозависимы. Показатели, характеризующие эти явления и процессы, как правило, составляют единую систему и могут быть связаны корреляционными зависимостями различной степени тесноты, которые исследуются в статистике с помощью методов корреляционного и регрессивного анализа.
Корреляционный анализвзаимосвязи показателей позволяет решать следующие задачи:
1. Оценка тесноты связи между показателями с помощью парных и множественных коэффициентов корреляции.
2. Оценка уравнения регрессии.
Цель регрессионного анализа– получение оценки функциональной зависимости теоретического среднего значения результативного признака от факторных . При этом в регрессионном анализе заранее предполагается наличие причинно-следственных связей между результативным и факторными признаками.
Статистическая модель взаимосвязи явлений в виде уравнения регрессии
будет адекватно описывать реальное явление или процесс при выполнении следующих основных условий:
1) результативный признак должен подчиняться нормальному закону распределения относительно своих средних значений при различных значениях факторных признаков;
2) отдельные наблюдения, на основе которых строится модель регрессии, должны быть получены независимо друг от друга.
Одной из проблем построения уравнения регрессии является выбор её размерности –определение числа факторов, включаемых в модель. Число факторных признаков, входящих в модель должно быть оптимальным, т.е. необходимо учитывать существенные признаки и исключать несущественные (второстепенные).
Корреляционно-регрессионные модели, какими бы сложными они не были, не вскрывают полностью всех причинно-следственных связей, однако достаточно адекватно могут описывать влияние на результативные признаки существенных факторов, если проведён предварительный качественный анализ сущности и специфики исследуемых явлений и процессов.
В теории статистики изучаются парные и множественные корреляции. В парной корреляции рассматривается связь результативного признака с одним единственным факторным признаком, во множественной – с двумя и более факторными признаками. В соответствии с этим строящиеся регрессионные модели могут быть парные и множественные.
Например, если устанавливается зависимость уровня оплаты труда от производительности труда то такая регрессия парная. Если же изучается зависимость уровня оплаты труда не только от производительности труда но и от квалификации работников цены продукции качества продукции то такая регрессия множественная.
Парная регрессия, характеризующая связь между результативным и факторным признаками, аналитически описывается уравнениями различного типа:
прямая
гипербола
парабола
показательная функция
степенная функция
полулогарифмическая функция и др.
Определить тип уравнения можно, используя различные способы, например, исследуя зависимость между признаками графически.
Оценка параметров уравнений регрессии осуществляется методом наименьших квадратов, сущность которого состоит в нахождении параметров регрессии при которых сумма квадратов отклонений фактических значений результативного признака от теоретических, полученных по уравнению регрессии, минимальна. Т.е.
Распространенным случаем связи в общественных и экономических явлениях является прямая зависимость между результативным и факторным признаком. Для прямой зависимости
.
Минимизируя как функцию параметров и , получаем систему уравнений:
Преобразовав уравнения, получим систему обычных уравнений для нахождения параметров линейной парной регрессии методом наименьших квадратов:
Решая систему этих уравнений, находим:
где – число единиц наблюдений (пар значений ).
Используя алгоритм, аналогичный рассмотренному выше, можно определить параметры парной регрессии, описываемой другими видами уравнений – гиперболой, параболой и др.
Множественная регрессия
При исследовании зависимостей методами множественной (многофакторной) регрессиизадача формулируется так же, как и при использовании парной регрессии, только в этом случае требуется определить аналитическое выражение связи между результативным признаком и несколькими факторными признаками .
Выбор формы связи для множественной регрессии осложняется тем, что теоретически зависимость между признаками может быть выражена большим числом различных функций.
Поскольку уравнение регрессии строится главным образом для количественного выражения взаимосвязей, оно должно отражать реально сложившиеся между факторами связи с достаточной степенью точности, поэтому для определения типа исходного уравнения регрессии часто используется метод перебора различных уравнений и соответствующих им оценок соответствия фактическим данным по точности.
Практика построения многофакторных моделей связи показывает, что реально существующие зависимости между явлениями можно описать, используя следующие типы моделей:
линейная
степенная
показательная
параболическая
гиперболическая
Серьёзная сложность формирования уравнений множественной регрессии состоит в определении оптимального числа факторных признаков, а также в том, что почти все факторные признаки в реальных процессах и явлениях находятся в зависимости друг от друга.
Если аналитическая форма связи подобрана, выбраны все факторные признаки, то параметры многофакторного уравнения регрессиимогут быть определены различными методами: графическим методом, методом наименьших квадратов и т.д.
Измерение тесноты связи
Проверка практической значимости построенных в корреляционно-регрессионном анализе математических моделей осуществляется посредством показателей тесноты связи между факторным и результативным признаками.
К простейшим показателям степени тесноты связи относят коэффициент корреляции знаков, предложенный немецким учёным Г.Фехнером. Этот показатель основан на оценке степени согласованности знаков (направлений) отклонений факторного и результативного признаков от их средних значений.
Коэффициент корреляции знаков определяется формулой
где – число совпадений знаков отклонений индивидуальных величин от их средних ; – число несовпадений знаков отклонений. Коэффициент Фехнера может принимать значение в пределах от –1 до +1. Если знаки большинства пар отклонений совпадут, то тогда показатель будет близок к 1, что свидетельствует о наличии прямой связи.
Более совершенным показателем степени тесноты связи является линейный коэффициент корреляции, впервые введённый английским математиком К.Пирсоном:
.
В этом показателе учитываются не только знаки отклонений индивидуальных значений признаков от средних, но и сами величины таких отклонений.
Между линейным коэффициентом и коэффициентом регрессии в уравнении линейной парной регрессии существует зависимость, определяемая формулой
где , – среднеквадратические отклонения факторного и результативного признаков, соответственно.
Линейный коэффициент корреляции имеет большое значение при исследовании социально-экономических явлений и процессов, распределение которых близко к нормальному. Поэтому на практике часто анализ начинают с расчёта этого коэффициента. Линейный коэффициент корреляции может принимать значения в пределах от –1 до +1. Чем ближе коэффициент корреляции по абсолютной величине к 1, тем теснее связь между признаками. Знак при коэффициенте корреляции указывает на направление связи – прямой зависимости соответствует знак плюс, а обратной – знак минус. Условие является необходимым и достаточным, чтобы признаки и были линейно независимы. При этом условии соответствующие коэффициенты регрессии обращаются в нуль, а прямые регрессии по и по оказываются взаимно перпендикулярными в прямоугольной системе координат.
Линейный коэффициент корреляции достаточно точно оценивает степень тесноты связи лишь в случае наличия линейной зависимости между признаками. При наличии же криволинейной зависимости линейный коэффициент корреляции недооценивает степень тесноты связи и даже может быть равен нулю. В таких случаях зависимости между признаками применяют эмпирическое корреляционное отношение и теоретическое корреляционное отношение (индекс корреляции).
Эмпирическое корреляционное отношение рассчитывается по данным, получаемым в результате группировки
где – общая дисперсия результативного признака; – межгрупповая дисперсия результативного признака; – средняя внутригрупповых дисперсий результативного признака.
Теоретическое корреляционное отношение определяется по формуле
где – факторная дисперсия или дисперсия выровненных значений результативного признака (т.е. рассчитанных по уравнению регрессии)
– остаточная дисперсия, отображающая вариацию результативного признака от всех прочих, кроме , факторов
Соотношение между факторной и общей дисперсиями
называется индексом детерминациии характеризует часть общей вариации результативного признака , описываемую фактором в регрессионной модели. Корень квадратный из индекса детерминации определяет индекс корреляции .
Необходимо заметить, что правило сложения дисперсий в виде
выполняется всегда для определённой совокупности наблюдений. Заметим также, что по абсолютной величине линейный коэффициент корреляции равен индексу корреляции только при прямолинейной связи.
Представленные выше показатели тесноты связи, исчисленные по данным сравнительно небольшой статистической совокупности (при ), могут искажаться действием случайных причин. Это вызывает необходимость проверки их существенности.
Для оценки значимости коэффициента корреляции (или коэффициентов регрессии) применяется t –критерий Стьюдента. Вычисленное значение критерия
сравнивается с критическим , которое берётся из таблицы значений Стьюдента с учётом заданного уровня значимости и числа степеней свободы . Если величина , то величина коэффициента корреляции признаётся значимой.
Для оценки значимости индекса корреляции (или адекватности построенной регрессионной модели в целом) применяется F-критерий Фишера. Фактическое значение критерия вычисляется по формуле
и сравнивается с критическим значением , которое определяется по таблице F-критерия с учётом принятого уровня значимости и числа степеней свободы и - число параметров уравнения регрессии). При величина индекса корреляции признаётся значимой.
В случаях, если изучаются совокупности достаточно большого объёма, применяют другие методы оценки значимости описанных выше показателей (например, пользуются таблицей интеграла вероятностей Лапласа).
В заключение настоящей темы следует подчеркнуть, что интерпретация моделей регрессии должна осуществляться методами той отрасли знаний, к которой относятся исследуемые явления и процессы. Но всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель параметров.
При анализе адекватности уравнения регрессии описываемому процессу возможны следующие варианты:
1) построенная модель на основе её проверки по F-критерию в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и прогнозов;
2) модель по F-критерию адекватна, но часть коэффициентов регрессии незначима. В этом случае модель пригодна для принятия некоторых решений, но не для производства прогнозов;
3) модель по F-критерию адекватна, но все коэффициенты регрессии незначимы. Такая модель непригодна для принятия решений и осуществления прогнозов.
Контрольные вопросы
1. Что представляет собой корреляционный анализ?
2. Что такое регрессионный анализ? Какова его цель?
3. Приведите пример уравнения регрессии. Поясните смысл коэффициента регрессии
4. Какими показателями можно охарактеризовать тесноту корреляционных связей между признаками?
5. Какими способами можно рассчитать коэффициенты прямолинейной парной корреляции?
6. Что представляет собой коэффициент множественной корреляции? Каковы условия его использования?
7. Что такое индекс корреляции и что он характеризует?
8. Какие виды уравнений регрессии могут быть использованы в статистике?
9. Каковы условия применения уравнения множественной регрессии?
10. Что представляет собой уравнение гиперболической регрессии и в каких случаях его применяют?
11. Что представляет собой уравнение параболической регрессии?
12. Что представляет собой уравнение прямолинейной регрессии, каковы его преимущества и недостатки?