Оценка значимости параметров уравнения парной линейной регрессии
Парная регрессия представляет собой регрессию между двумя переменными
—у и х, т.е. модель вида + Е
, где у — результативный признак,т.е зависимая переменная; х - признак-фактор.
Линейная регрессия сводится к нахождению уравнения вида или
Уравнение вида позволяет по заданным значениям фактора x иметь теоретические значения результативного признака, подставляя в него фактические значения фактора х.
Построение линейной регрессии сводится к оценке ее параметров а и в.
Оценки параметров линейной регрессии могут быть найдены разными методами.
1.
2.
Параметр b называется коэффициентом регрессии. Его величина показывает
среднее изменение результата с изменением фактора на одну единицу.
Формально а — значение у при х = 0. Если признак-фактор
не имеет и не может иметь нулевого значения, то вышеуказанная
трактовка свободного члена, а не имеет смысла. Параметр, а может
не иметь экономического содержания. Попытки экономически
интерпретировать параметр, а могут привести к абсурду, особенно при а < 0.
Интерпретировать можно лишь знак при параметре а. Если а > 0,
то относительное изменение результата происходит медленнее, чем изменение
фактора.
проверка качества найденных параметров и всей модели в целом:
-Оценка значимости коэффициента регрессии (b) и коэффициента корреляции
-Оценка значимости всего уравнения регрессии. Коэффициент детерминации
Уравнение регрессии всегда дополняется показателем тесноты связи. При
использовании линейной регрессии в качестве такого показателя выступает
линейный коэффициент корреляции rxy. Существуют разные
модификации формулы линейного коэффициента корреляции.
Линейный коэффициент корреляции находится и границах: -1≤.rxy
≤ 1. При этом чем ближе r к 0 тем слабее корреляция и наоборот чем
ближе r к 1 или -1, тем сильнее корреляция, т.е. зависимость х и у близка к
линейной. Если r в точности =1или -1 все точки лежат на одной прямой.
Если коэф. регрессии b>0 то 0 ≤.rxy ≤ 1 и
наоборот при b<0 -1≤.rxy ≤0. Коэф.
корреляции отражает степени линейной зависимости м/у величинами при наличии
ярко выраженной зависимости др. вида.
Для оценки качества подбора линейной функции рассчитывается квадрат линейного
коэффициента корреляции
, называемый коэффициентом детерминации. Коэффициент детерминации
характеризует долю дисперсии результативного признака y, объясняемую
регрессией. Соответствующая величина
характеризует долю дисперсии у, вызванную влиянием остальных не учтенных
в модели факторов.
МНК позволяет получить такие оценки параметров а и b, которых
сумма квадратов отклонений фактических значений результативного признака
(у) от расчетных (теоретических)
минимальна:
Иными словами, из
всего множества линий линия регрессии на графике выбирается так, чтобы сумма
квадратов расстояний по вертикали между точками и этой линией была бы
минимальной.
Решается система нормальных уравнений
ОЦЕНКА СУЩЕСТВЕННОСТИ ПАРАМЕТРОВ ЛИНЕЙНОЙ РЕГРЕССИИ.
Оценка значимости уравнения регрессии в целом дается с помощью F-критерия
Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен
нулю, т. е. b = 0, и следовательно, фактор х не оказывает
влияния на результат у.
Непосредственному расчету F-критерия предшествует анализ дисперсии.
Центральное место в нем занимает разложение общей суммы квадратов отклонений
переменной у от средне го значения у на две части -
«объясненную» и «необъясненную»:
- общая сумма квадратов отклонений
- сумма квадратов
отклонения объясненная регрессией
- остаточная сумма квадратов отклонения.
Любая сумма квадратов отклонений связана с числом степеней свободы, т.
е. с числом свободы независимого варьирования признака. Число степеней свободы связано с числом единиц совокупности nис числом определяемых по ней констант. Применительно к исследуемой проблеме число cтепеней свободы должно показать, сколько независимых отклонений из п возможных требуется для
образования данной суммы квадратов.
Дисперсия на одну степень свободы D.
F-отношения (F-критерий):
Ecли нулевая гипотеза справедлива, то факторная и остаточная дисперсии не
отличаются друг от друга. Для Н0 необходимо опровержение, чтобы
факторная дисперсия превышала остаточную в несколько раз. Английским
статистиком Снедекором разработаны таблицы критических значений F-отношений
при разных уровнях существенности нулевой гипотезы и различном числе степеней
свободы. Табличное значение F-критерия — это максимальная величина отношения
дисперсий, которая может иметь место при случайном их расхождении для данного
уровня вероятности наличия нулевой гипотезы. Вычисленное значение F-отношения
признается достоверным, если о больше табличного. В этом случае нулевая
гипотеза об отсутствии связи признаков отклоняется и делается вывод о
существенности этой связи: Fфакт > Fтабл Н0
отклоняется.
Если же величина окажется меньше табличной Fфакт ‹, Fтабл
, то вероятность нулевой гипотезы выше заданного уровня и она не может быть
отклонена без серьезного риска сделать неправильный вывод о наличии связи. В
этом случае уравнение регрессии считается статистически незначимым. Но
не отклоняется.