Линейная модель парной регрессии и корреляции
Ввиду четкой экономической интерпретации параметров линейной регрессии, она нашла широкое применение при статистических методах обработки данных.
Построение линейной регрессии сводится к нахождению уравнения вида:
или .
Уравнение вида позволяет по заданным значениям фактора определять теоретические значения результативного признака , при подставлении в него фактических значений фактора .
Построение линейной регрессии сводится к оценке двух параметров и .
Классическим подходом к оценке параметров линейной регрессии является метод наименьших квадратов (МНК), позволяющий получать такие оценки параметров и , при которых сумма квадратов отклонений фактических значений результативного признака от теоретических становится минимальной .
Чтобы определить минимум функции, необходимо вначале вычислить частные производные по каждому из параметров и , а затем приравнять их к нулю. Если обозначить через , тогда получают:
.
После проведения несложных преобразований, получают нормальную систему линейных уравнений для оценки параметров и :
(1.59)
При решении системы уравнений (1.59) определяют искомые оценки параметров и . Из решения системы (1.59) непосредственно получают следующие формулы:
, (1.60)
где , , , .
Параметр - коэффициент регрессии, величина которого показывает среднее изменение признака-результата с изменением признака-фактора на одну единицу.
Параметр - это значение при . Если факторный признак не может иметь нулевого значения, то параметр не может иметь экономического содержания.
Нахождение уравнения регрессии всегда дополняют расчетом показателя тесноты связи. При использовании линейной регрессии в качестве такого показателя используют линейный коэффициент корреляции , который рассчитывается на основании следующей формулы:
, (1.61)
где ,
Значение линейного коэффициента корреляции может находиться в пределах: . Чем ближе абсолютное значение линейного коэффициента корреляции к единице, тем сильнее линейная связь между двумя факторами (при имеется строгая функциональная зависимость). Однако, следует учитывать, что близость абсолютной величины линейного коэффициента корреляции к нулю может не означать отсутствие связи между двумя признаками - при нелинейной спецификации модели связь между признаками может оказаться достаточно тесной.
Оценку тесноты линейной корреляционной связи принято определять, пользуясь данными табл. 1.11.
Таблица 1.11
Теснота связи | Величина | |
Прямая связь | Обратная связь | |
Линейной связи нет | ||
Слабая | ||
Средняя | ||
Сильная | ||
Функциональная |
Для оценки качества подбора линейной функции рассчитывают коэффициент детерминации, представляющий собой квадрат линейного коэффициента корреляции .
Коэффициент детерминации характеризует долю дисперсии признака-результата , объясняемую регрессией, в общей дисперсии результативного признака. Определяется на основании формулы:
, (1.62)
где , .
Величина дает характеристику доли дисперсии , вызванной влиянием остальных, не учтенных в модели, факторов.
После того как найдено уравнение линейной регрессии, проводят оценку значимости уравнения и отдельных его параметров.
Проверка значимости уравнения регрессии означает установление соответствия математической модели, выражающей зависимость между переменными, экспериментальным данным и достаточность включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.
Качество модели из относительных отклонений по каждому наблюдению определяют на основании средней ошибки аппроксимации, которая находится по формуле:
. (1.63)
Средняя ошибка аппроксимации не должна превышать 8,0 - 10,0%.
Оценка значимости уравнения регрессии в целом проводится на основании -критерия Фишера.
Согласно принципам дисперсионного анализа, общая сумма квадратов отклонений переменной от среднего значения раскладывается на две части – «объясненную» и «необъясненную»:
, (1.64)
где – общая сумма квадратов отклонений;
– сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);
– остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.
Схема проведения дисперсионного анализа представлена в табл. 1.12.
Таблица 1.12
Компоненты дисперсии | Сумма квадратов | Число степеней свободы | Дисперсия на одну степень свободы |
Общая | |||
Факторная | |||
Остаточная |
Примечание: – число наблюдений, – число параметров при переменной .
Величину - критерия Фишера получают, сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы:
. (1.65)
Расчетное значение -критерия Фишера (1.65) сравнивают с табличным при уровне значимости и степенях свободы и (приложение 7). При этом, если фактическое значение -критерия больше табличного, то признается статистическая значимость уравнения в целом.
Для парной линейной регрессии , поэтому:
. (1.66)
Величина - критерия связана с коэффициентом детерминации , и ее можно рассчитать по следующей формуле:
. (1.67)
В парной линейной регрессии оценивается значимость также отдельных параметров уравнения.
Для оценки статистической значимости коэффициентов регрессии и корреляции определяют t-критерий Стьюдента и доверительные интервалы каждого из показателей. Оценку значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводят путем сопоставления их значений с величиной случайной ошибки:
(1.68)
Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяют на основании формул:
(1.69)
Для проверки существенности коэффициента регрессии и для расчета его доверительного интервала совместно с -распределением Стьюдента при степенях свободы применяют величину стандартной ошибки.
Для оценки существенности коэффициента регрессии определяют фактическое значение -критерия Стьюдента, которое затем сравнивают с табличным значением при определенном уровне значимости и числе степеней свободы .
Если tтабл<tфак, то a, b и rxy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если tтабл>tфак, то признается случайная природа формирования a, b или rxy.
Между -критерием Стьюдента и -критерием Фишера существует связь, определяемая:
. (1.70)
Для расчета доверительного интервала определяется предельная ошибкаD для каждого из показателей:
Для расчета доверительных интервалов используют формулы:
(1.71)
В случае, если нижняя граница доверительного интервала отрицательна, а верхняя положительна, то оцениваемый параметр принимают равным нулю, так как он не может одновременно принимать и положительные, и отрицательные значения.