Линейная модель парной регрессии и корреляции
Ввиду четкой экономической интерпретации параметров линейной регрессии, она нашла широкое применение при статистических методах обработки данных.
Построение линейной регрессии сводится к нахождению уравнения вида:
или
.
Уравнение вида позволяет по заданным значениям фактора
определять теоретические значения результативного признака
, при подставлении в него фактических значений фактора
.
Построение линейной регрессии сводится к оценке двух параметров и
.
Классическим подходом к оценке параметров линейной регрессии является метод наименьших квадратов (МНК), позволяющий получать такие оценки параметров и
, при которых сумма квадратов отклонений фактических значений результативного признака
от теоретических
становится минимальной
.
Чтобы определить минимум функции, необходимо вначале вычислить частные производные по каждому из параметров и
, а затем приравнять их к нулю. Если обозначить
через
, тогда получают:
.
После проведения несложных преобразований, получают нормальную систему линейных уравнений для оценки параметров и
:
(1.59)
При решении системы уравнений (1.59) определяют искомые оценки параметров и
. Из решения системы (1.59) непосредственно получают следующие формулы:
,
(1.60)
где ,
,
,
.
Параметр - коэффициент регрессии, величина которого показывает среднее изменение признака-результата с изменением признака-фактора на одну единицу.
Параметр - это значение
при
. Если факторный признак
не может иметь нулевого значения, то параметр
не может иметь экономического содержания.
Нахождение уравнения регрессии всегда дополняют расчетом показателя тесноты связи. При использовании линейной регрессии в качестве такого показателя используют линейный коэффициент корреляции , который рассчитывается на основании следующей формулы:
, (1.61)
где ,
Значение линейного коэффициента корреляции может находиться в пределах: . Чем ближе абсолютное значение линейного коэффициента корреляции
к единице, тем сильнее линейная связь между двумя факторами (при
имеется строгая функциональная зависимость). Однако, следует учитывать, что близость абсолютной величины линейного коэффициента корреляции к нулю может не означать отсутствие связи между двумя признаками - при нелинейной спецификации модели связь между признаками может оказаться достаточно тесной.
Оценку тесноты линейной корреляционной связи принято определять, пользуясь данными табл. 1.11.
Таблица 1.11
Теснота связи | Величина ![]() | |
Прямая связь | Обратная связь | |
Линейной связи нет | ![]() | ![]() |
Слабая | ![]() | ![]() |
Средняя | ![]() | ![]() |
Сильная | ![]() | ![]() |
Функциональная | ![]() | ![]() |
Для оценки качества подбора линейной функции рассчитывают коэффициент детерминации, представляющий собой квадрат линейного коэффициента корреляции .
Коэффициент детерминации характеризует долю дисперсии признака-результата , объясняемую регрессией, в общей дисперсии результативного признака. Определяется на основании формулы:
, (1.62)
где ,
.
Величина дает характеристику доли дисперсии
, вызванной влиянием остальных, не учтенных в модели, факторов.
После того как найдено уравнение линейной регрессии, проводят оценку значимости уравнения и отдельных его параметров.
Проверка значимости уравнения регрессии означает установление соответствия математической модели, выражающей зависимость между переменными, экспериментальным данным и достаточность включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Качество модели из относительных отклонений по каждому наблюдению определяют на основании средней ошибки аппроксимации, которая находится по формуле:
. (1.63)
Средняя ошибка аппроксимации не должна превышать 8,0 - 10,0%.
Оценка значимости уравнения регрессии в целом проводится на основании -критерия Фишера.
Согласно принципам дисперсионного анализа, общая сумма квадратов отклонений переменной от среднего значения
раскладывается на две части – «объясненную» и «необъясненную»:
, (1.64)
где – общая сумма квадратов отклонений;
– сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);
– остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.
Схема проведения дисперсионного анализа представлена в табл. 1.12.
Таблица 1.12
Компоненты дисперсии | Сумма квадратов | Число степеней свободы | Дисперсия на одну степень свободы |
Общая | ![]() | ![]() | ![]() |
Факторная | ![]() | ![]() | ![]() |
Остаточная | ![]() | ![]() | ![]() |
Примечание: – число наблюдений,
– число параметров при переменной
.
Величину - критерия Фишера получают, сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы:
. (1.65)
Расчетное значение -критерия Фишера (1.65) сравнивают с табличным
при уровне значимости
и степенях свободы
и
(приложение 7). При этом, если фактическое значение
-критерия больше табличного, то признается статистическая значимость уравнения в целом.
Для парной линейной регрессии , поэтому:
. (1.66)
Величина - критерия связана с коэффициентом детерминации
, и ее можно рассчитать по следующей формуле:
. (1.67)
В парной линейной регрессии оценивается значимость также отдельных параметров уравнения.
Для оценки статистической значимости коэффициентов регрессии и корреляции определяют t-критерий Стьюдента и доверительные интервалы каждого из показателей. Оценку значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводят путем сопоставления их значений с величиной случайной ошибки:
(1.68)
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяют на основании формул:
(1.69)
Для проверки существенности коэффициента регрессии и для расчета его доверительного интервала совместно с -распределением Стьюдента при
степенях свободы применяют величину стандартной ошибки.
Для оценки существенности коэффициента регрессии определяют фактическое значение -критерия Стьюдента, которое затем сравнивают с табличным значением при определенном уровне значимости
и числе степеней свободы
.
Если tтабл<tфак, то a, b и rxy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если tтабл>tфак, то признается случайная природа формирования a, b или rxy.
Между -критерием Стьюдента и
-критерием Фишера существует связь, определяемая:
. (1.70)
Для расчета доверительного интервала определяется предельная ошибкаD для каждого из показателей:
Для расчета доверительных интервалов используют формулы:
(1.71)
В случае, если нижняя граница доверительного интервала отрицательна, а верхняя положительна, то оцениваемый параметр принимают равным нулю, так как он не может одновременно принимать и положительные, и отрицательные значения.