Линейная модель парной регрессии и корреляции

Ввиду четкой экономической интерпретации параметров линейной регрессии, она нашла широкое применение при статистических методах обработки данных.

Построение линейной регрессии сводится к нахождению уравнения вида:

или .

Уравнение вида позволяет по заданным значениям фактора определять теоретические значения результативного признака , при подставлении в него фактических значений фактора .

Построение линейной регрессии сводится к оценке двух параметров и .

Классическим подходом к оценке параметров линейной регрессии является метод наименьших квадратов (МНК), позволяющий получать такие оценки параметров и , при которых сумма квадратов отклонений фактических значений результативного признака от теоретических становится минимальной .

Чтобы определить минимум функции, необходимо вначале вычислить частные производные по каждому из параметров и , а затем приравнять их к нулю. Если обозначить через , тогда получают:

.

После проведения несложных преобразований, получают нормальную систему линейных уравнений для оценки параметров и :

(1.59)

При решении системы уравнений (1.59) определяют искомые оценки параметров и . Из решения системы (1.59) непосредственно получают следующие формулы:

, (1.60)

где , , , .

Параметр - коэффициент регрессии, величина которого показывает среднее изменение признака-результата с изменением признака-фактора на одну единицу.

Параметр - это значение при . Если факторный признак не может иметь нулевого значения, то параметр не может иметь экономического содержания.

Нахождение уравнения регрессии всегда дополняют расчетом показателя тесноты связи. При использовании линейной регрессии в качестве такого показателя используют линейный коэффициент корреляции , который рассчитывается на основании следующей формулы:

, (1.61)

где ,

Значение линейного коэффициента корреляции может находиться в пределах: . Чем ближе абсолютное значение линейного коэффициента корреляции к единице, тем сильнее линейная связь между двумя факторами (при имеется строгая функциональная зависимость). Однако, следует учитывать, что близость абсолютной величины линейного коэффициента корреляции к нулю может не означать отсутствие связи между двумя признаками - при нелинейной спецификации модели связь между признаками может оказаться достаточно тесной.

Оценку тесноты линейной корреляционной связи принято определять, пользуясь данными табл. 1.11.

Таблица 1.11

Теснота связи Величина
Прямая связь Обратная связь
Линейной связи нет
Слабая
Средняя
Сильная
Функциональная

Для оценки качества подбора линейной функции рассчитывают коэффициент детерминации, представляющий собой квадрат линейного коэффициента корреляции .

Коэффициент детерминации характеризует долю дисперсии признака-результата , объясняемую регрессией, в общей дисперсии результативного признака. Определяется на основании формулы:

, (1.62)

где , .

Величина дает характеристику доли дисперсии , вызванной влиянием остальных, не учтенных в модели, факторов.

После того как найдено уравнение линейной регрессии, проводят оценку значимости уравнения и отдельных его параметров.

Проверка значимости уравнения регрессии означает установление соответствия математической модели, выражающей зависимость между переменными, экспериментальным данным и достаточность включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Качество модели из относительных отклонений по каждому наблюдению определяют на основании средней ошибки аппроксимации, которая находится по формуле:

. (1.63)

Средняя ошибка аппроксимации не должна превышать 8,0 - 10,0%.

Оценка значимости уравнения регрессии в целом проводится на основании -критерия Фишера.

Согласно принципам дисперсионного анализа, общая сумма квадратов отклонений переменной от среднего значения раскладывается на две части – «объясненную» и «необъясненную»:

, (1.64)

где – общая сумма квадратов отклонений;

– сумма квадратов отклонений, объясненная регрессией (или факторная сумма квадратов отклонений);

– остаточная сумма квадратов отклонений, характеризующая влияние неучтенных в модели факторов.

Схема проведения дисперсионного анализа представлена в табл. 1.12.

Таблица 1.12

Компоненты дисперсии Сумма квадратов Число степеней свободы Дисперсия на одну степень свободы
Общая
Факторная
Остаточная

Примечание: – число наблюдений, – число параметров при переменной .

Величину - критерия Фишера получают, сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы:

. (1.65)

Расчетное значение -критерия Фишера (1.65) сравнивают с табличным при уровне значимости и степенях свободы и (приложение 7). При этом, если фактическое значение -критерия больше табличного, то признается статистическая значимость уравнения в целом.

Для парной линейной регрессии , поэтому:

. (1.66)

Величина - критерия связана с коэффициентом детерминации , и ее можно рассчитать по следующей формуле:

. (1.67)

В парной линейной регрессии оценивается значимость также отдельных параметров уравнения.

Для оценки статистической значимости коэффициентов регрессии и корреляции определяют t-критерий Стьюдента и доверительные интервалы каждого из показателей. Оценку значимости коэффициентов регрессии и корреляции с помощью t-критерия Стьюдента проводят путем сопоставления их значений с величиной случайной ошибки:

(1.68)

Случайные ошибки параметров линейной регрессии и коэффициента корреляции определяют на основании формул:

(1.69)

Для проверки существенности коэффициента регрессии и для расчета его доверительного интервала совместно с -распределением Стьюдента при степенях свободы применяют величину стандартной ошибки.

Для оценки существенности коэффициента регрессии определяют фактическое значение -критерия Стьюдента, которое затем сравнивают с табличным значением при определенном уровне значимости и числе степеней свободы .

Если tтабл<tфак, то a, b и rxy не случайно отличаются от нуля и сформировались под влиянием систематически действующего фактора x. Если tтабл>tфак, то признается случайная природа формирования a, b или rxy.

Между -критерием Стьюдента и -критерием Фишера существует связь, определяемая:

. (1.70)

Для расчета доверительного интервала определяется предельная ошибкаD для каждого из показателей:

Для расчета доверительных интервалов используют формулы:

(1.71)

В случае, если нижняя граница доверительного интервала отрицательна, а верхняя положительна, то оцениваемый параметр принимают равным нулю, так как он не может одновременно принимать и положительные, и отрицательные значения.

Наши рекомендации