Метод наименьших квадратов для построения линии регрессии

Этап 3. Нахождение взаимосвязи между данными

Обычно при анализе связи между двумя случайными величинами желательно одну из них (скажем, Х) считать независимой, а другую (Y) – зависимой. Задача заключается в установлении такой связи между предиктором Х и предиктантом Y, которая позволила бы получить значения Метод наименьших квадратов для построения линии регрессии - student2.ru с наименьшей ошибкой.

Простейшим является случай, когда двумерное распределение или точечная диаграмма указывает на линейную связь между Х и Y. Тогда выражение Метод наименьших квадратов для построения линии регрессии - student2.ru = a + bX будет хорошо удовлетворять исходным данным и будет называться линией регрессии. Прямую регрессии можно провести на глаз так, чтобы она как можно ближе проходила около средних значений различных столбцов (при условии, что Х нанесено по горизонтали, а Y – по вертикали).

Наиболее часто для оценки коэффициентов линии регрессии используется метод наименьших квадратов. Этот метод был разработан в начале XIX в. в трудах Лежандра, Лапласа и Гаусса и применен ими для решения метрологических проблем астрономии и геодезии. Согласно определению, сумма квадратов отклонений отдельных величин Yi от значений, предсказываемых с помощью линии регрессии, является минимальной.

Пусть есть n пар значений случайных величин (Xi, Yi), n > 2. Известно, что между этими случайными величинами существует линейная зависимость Метод наименьших квадратов для построения линии регрессии - student2.ru = kX+b. Константы этой функции a и b надо определить аналитически. При этом требуется, чтобы разность между отдельными значениями случайной величины Yi и значениями Метод наименьших квадратов для построения линии регрессии - student2.ru , вычисленными из уравнения, была возможно меньше, т.е. отыскивается наиболее оптимальная функция. Следовательно, рассеяние точек относительно линии регрессии должно быть меньше, чем относительно любой другой прямой.

Коэффициенты регрессии вычисляются по формулам:

Метод наименьших квадратов для построения линии регрессии - student2.ru , (1)

Метод наименьших квадратов для построения линии регрессии - student2.ru . (2)

Иногда коэффициентом регрессии называют только угловой коэффициент k, т.к. зная его можно определить отрезок b , отсекаемый линией регрессии по оси ординат. При этом используется весьма важное свойство линии регрессии, что она проходит через среднюю точку (центр) двумерного распределения Метод наименьших квадратов для построения линии регрессии - student2.ru лежащую при значениях Метод наименьших квадратов для построения линии регрессии - student2.ru и Метод наименьших квадратов для построения линии регрессии - student2.ru .

Метод наименьших квадратов для построения линии регрессии - student2.ru , Метод наименьших квадратов для построения линии регрессии - student2.ru ,

или

Метод наименьших квадратов для построения линии регрессии - student2.ru (3)

Метод наименьших квадратов для построения линии регрессии - student2.ru

а

Величины k и b являются статистическими параметрами, полученными из выборки, а не параметрами генеральной совокупности. На практике желательно знать, насколько репрезентативна для будущих данных, взятых из генеральной совокупности, полученная из выборки линия регрессии (т.е. насколько точным будет прогноз, составленный с помощью такого уравнения регрессии). С помощью статистической теории можно показать, в какой степени величины k и b отражают соответствующие параметры генеральной совокупности. В общем, чем больше наблюдений и чем меньше разброс точек относительно линии регрессии, тем надежнее величины k и b.

Степень несогласованности (разброса) наблюдаемых значений случайных величин и линией регрессии может быть оценена с помощью величины дисперсии, определяемой по формуле:

Метод наименьших квадратов для построения линии регрессии - student2.ru . (4)

Здесь число степеней свободы f = n – 2 , т.к. две степени свободы были использованы для определения параметров прямой.

Обычно вычисление дисперсии производят, пользуясь формулой, большая часть членов в которой подсчитывается при определении параметров линии регрессии:

Метод наименьших квадратов для построения линии регрессии - student2.ru , (5)

или Метод наименьших квадратов для построения линии регрессии - student2.ru .

Мы рассмотрели примеры аппроксимации дискретных рядов случайных величин. Можно аппроксимировать и интервальные (сгруппированные) ряды случайных величин. Исходные данные в этом случай группируются с частотами mx,y . На их основе, используя центральные значения каждой градации, рассчитываются групповые параметры SY, SX, SX2, SXY, которые затем используются в формулах (1)-(2) для определения коэффициентов регрессии методом наименьших квадратов. Линия регрессии в этом случае конечно будет хуже отражать закономерности связи по сравнению с дискретными измерениями.

Наши рекомендации