Статистическое моделирование связи методом корреляционного и регрессионного анализа. Однофакторная линейная модель
В общем виде задача статистики в области изучения взаимосвязей состоит не только в количественной оценке их наличия, направления и силы связи, но и в определении формы (аналитического выражения) влияния факторных признаков на результативный. Для ее решения применяют методы корреляционного и регрессионного анализа.
Задачикорреляционного анализасводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак.
Задачамирегрессионного анализа являются выбор типа модели (формы связи), установление степени влияния независимых переменных на зависимую и определение расчетных значений зависимой переменной (функции регрессии).
По количеству включаемых факторов модели могут быть однофакторными и многофакторными (два и более факторов).
Наиболее разработанной в теории статистики является методология так называемой парной корреляции,рассматривающая влияние вариации факторного признака х на результативный признак у и представляющая собой однофакторный корреляционный и регрессионный анализ.
Важнейшим этапом построения регрессионной модели (уравнения регрессии) является установление в анализе исходной информации математической функции. Сложность заключается в том, что из множества функций необходимо найти такую, которая лучше других выражает реально существующие связи между анализируемыми признаками. Выбор типа функции может опираться на теоретические знания об изучаемом явлении, опыт предыдущих аналогичных исследований или осуществляться эмпирически _ перебором и оценкой функций разных типов и т.п.
При изучении связи экономических показателей производства (деятельности) используют различного вида уравнения прямолинейной и криволинейной связи. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связи для выполнения расчетов преобразуют (путем логарифмирования или замены переменных) в линейную форму. Уравнение однофакторной (парной) линейной корреляционной связи имеет вид:
(8.1)
где _ теоретические значения результативного признака, полученные по уравнению регрессии;
a0, a1 _ коэффициенты (параметры) уравнения регрессии.
Поскольку a0 является средним значением у в точке x=0, экономическая интерпретация часто затруднена или вообще невозможна.
Коэффициент парной линейной регрессии a1 имеет смысл показателя силы связи между вариацией факторного признака х и вариацией результативного признака у. Уравнение (8.1) показывает среднее значение изменения результативного признака у при изменении факторного признака x на одну единицу его измерения, т.е. вариацию у, приходящуюся на единицу вариации x. Знак a1 указывает направление этого изменения.
Параметры уравнения a0, a1 находят методом наименьших квадратов (метод решения систем уравнений, при котором в качестве решения принимается точка минимума суммы квадратов отклонений), т.е. в основу этого метода положено требование минимальности сумм квадратов отклонений эмпирических данных yi от выравненных :
Для нахождения минимума данной функции приравняем к нулю ее частные производные и получим систему двух линейных уравнений, которая называется
системой нормальных уравнений:
(8.2)
Определив значения a0, a1 и подставив их в уравнение связи находим значения , зависящие только от заданного значения x.
Для оценки тесноты связи при линейной форме уравнения применяется такой показатель как линейный коэффициент корреляции . Он был предложен английским математиком К.Пирсоном и рассчитывается по формуле:
(8.3)
где n _ число наблюдений.
Для практических вычислений при малом числе наблюдений линейный коэффициент корреляции удобнее исчислять по следующей формуле:
(8.4)
Значение линейного коэффициента корреляции важно для исследования социально-экономических явлений и процессов, распределение которых близко к нормальному. Он принимает значения в интервале : _1 £ r £ 1.
Отрицательные значения указывают на обратную связь, Положительные _ на прямую. При r = 0 линейная связь отсутствует. Чем ближе коэффициент корреляции по абсолютной величине к единице, тем теснее связь между признаками. И, наконец, при r = ±1 связь _ функциональная.
Квадрат линейного коэффициента корреляции называется линейным коэффициентом детерминации. Из определения коэффициента детерминации очевидно, что его числовое значение всегда заключено в пределах от 0 до 1, т.е. 0 £ r2 £ 1.