Метод наименьших квадратов

Лабораторная работа №1

Тема: Регрессионный анализ.

Уравнение линейной парной регрессии.

Уравнение линейной парной регрессии выглядит следующим образом: Y=a01X

При помощи этого уравнения переменная Y выражается через константу a0 и угол наклона прямой (или угловой коэффициент) а1, умноженный на значение переменной X. Константу a0 также называют свободным членом, а угловой коэффициент - коэффициентом регрессии. Параметры уравнения могут быть определены с помощью метода наименьших квадратов (МНК)

Метод наименьших квадратов

(в справочных системах англоязычных программ - Least Squares Мethod, LS) является одним из основных методов определения параметров регрессионных уравнений, дающий наилучшие линейные несмещенные оценки. Именно он используется в MS Excel. Линейные – относится к характеру взаимосвязи переменных. Несмещенные значит, что ожидаемые значения коэффициентов регрессии должны быть истинными коэффициентами. То есть точки, построенные по исходным данным Метод наименьших квадратов - student2.ru , должны лежать как можно ближе к точкам линии регрессии. Сущность данного метода заключается в нахождении параметров модели, при которых сумма квадратов отклонений эмпирических (фактических) значений результирующего признака от теоретических, полученных по выбранному уравнению регрессии, то есть:

Метод наименьших квадратов - student2.ru ,

где Метод наименьших квадратов - student2.ru – значение, вычисленное по уравнению регрессии; Метод наименьших квадратов - student2.ru – отклонение Метод наименьших квадратов - student2.ru (ошибка, остаток) (рис. 1); n – количество пар исходных данных.

Метод наименьших квадратов - student2.ru

Рис. 1 Понятие отклонения Метод наименьших квадратов - student2.ru для случая линейной регрессии

В регрессионном анализе предполагается, что математическое ожидание случайной величины Метод наименьших квадратов - student2.ru равно нулю и ее дисперсия одинакова для всех наблюдаемых значений Y. Отсюда следует, что рассеяние данных возле линии регрессии должно быть одинаково при всех значениях параметра X. В случае, показанном на рис. 2 данные распределяются вдоль линии регрессии неравномерно, поэтому метод наименьших квадратов в этом случае неприменим.

Метод наименьших квадратов - student2.ru

Рис.2. Неравномерное распределение исходных точек вдоль линии регрессии

Проведя необходимые преобразования, получим систему двух уравнений с двумя неизвестными а0 и а1, которые найдем решив систему.

Метод наименьших квадратов - student2.ru (1)

Метод наименьших квадратов - student2.ru (2)

Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициента регрессии (коэффициента а1).

Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.

Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

Для анализа общего качества уравнения уравнения регрессии используют обычно множественный коэффициент детерминации R2, называемый также квадратом коэффициента множественной корреляции R. R2 (мера определенности) всегда находится в пределах интервала [0;1].

Если значение R2 близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата, близкое к нулю, означает плохое качество построенной модели.

Коэффициент детерминации R2 показывает, на сколько процентов ( Метод наименьших квадратов - student2.ru ) найденная функция регрессии описывает связь между исходными значениями факторов X и Y

Метод наименьших квадратов - student2.ru

где Метод наименьших квадратов - student2.ru – объясненная вариация; Метод наименьших квадратов - student2.ru – общая вариация (рис.3).

Метод наименьших квадратов - student2.ru

Рис. 3 Графическая интерпретация коэффициента детерминации для случая линейной регрессии

Соответственно, величина Метод наименьших квадратов - student2.ru показывает, сколько процентов вариации параметра Y обусловлены факторами, не включенными в регрессионную модель. При высоком ( Метод наименьших квадратов - student2.ru ) значении коэффициента детерминации можно делать прогноз Метод наименьших квадратов - student2.ru для конкретного значения Метод наименьших квадратов - student2.ru .

Нелинейная регрессия

Рассмотрим наиболее простые случаи нелинейной регрессии: гиперболу, экспоненту и параболу. При нахождении коэффициентов гиперболы и экспоненты используют прием приведения нелинейной регрессионной зависимости к линейному виду. Это позволяет использовать для вычисления коэффициентов функций регрессии выше приведенные формулы.

Гипербола. Для приведения уравнения вида Метод наименьших квадратов - student2.ru к линейному виду вводят новую переменную Метод наименьших квадратов - student2.ru , тогда уравнение гиперболы принимает линейный вид Метод наименьших квадратов - student2.ru . После этого используют формулы (1) и (2) для нахождений линейной функции, но вместо значений Метод наименьших квадратов - student2.ru используются значения Метод наименьших квадратов - student2.ru :

Метод наименьших квадратов - student2.ru ; Метод наименьших квадратов - student2.ru . (3)

Экспонента. Для приведения к линейному виду уравнения экспоненты Метод наименьших квадратов - student2.ru проведем логарифмирование:

Метод наименьших квадратов - student2.ru ;

Метод наименьших квадратов - student2.ru ;

Метод наименьших квадратов - student2.ru .

Введем переменные Метод наименьших квадратов - student2.ru и Метод наименьших квадратов - student2.ru , тогда Метод наименьших квадратов - student2.ru , откуда следует, что можно применять формулы (1) и (2), в которых вместо значений Метод наименьших квадратов - student2.ru надо использовать Метод наименьших квадратов - student2.ru :

Метод наименьших квадратов - student2.ru ; Метод наименьших квадратов - student2.ru (4)

При этом мы получим численные значения коэффициентов Метод наименьших квадратов - student2.ru и Метод наименьших квадратов - student2.ru , от которых надо перейти к Метод наименьших квадратов - student2.ru и Метод наименьших квадратов - student2.ru , используемых в модели экспоненты. Исходя из введенных обозначений и определения логарифма, получаем

Метод наименьших квадратов - student2.ru , Метод наименьших квадратов - student2.ru .

Парабола. Для нахождения коэффициентов уравнения параболы Метод наименьших квадратов - student2.ru необходимо решить линейную систему из трех уравнений:

Метод наименьших квадратов - student2.ru

Сила регрессионной связи для гиперболы и параболы определяется непосредственно по той же формуле что и для линейной модели. При вычислении коэффициента детерминации для экспоненты все значения параметра Y (исходные, регрессионные, среднее) необходимо заменить на их логарифмы, например, Метод наименьших квадратов - student2.ru – на Метод наименьших квадратов - student2.ru и т.д.

Если функция регрессии определена, интерпретирована и обоснована, и оценка точности регрессионного анализа соответствует требованиям, можно считать, что построенная модель и прогнозные значения обладают достаточной надежностью.

Прогнозные значения, полученные таким способом, являются средними значениями, которые можно ожидать.

Методические рекомендации

Для проведения регрессионного анализа и прогнозирования необходимо:

1) построить график исходных данных и попытаться зрительно, приближенно определить характер зависимости;

2) выбрать вид функции регрессии, которая может описывать связь исходных данных;

3) определить численные коэффициенты функции регрессии методом наименьших квадратов;

4) оценить силу найденной регрессионной зависимости на основе коэффициента детерминации Метод наименьших квадратов - student2.ru ;

5) сделать прогноз (при Метод наименьших квадратов - student2.ru ) или сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. При этом не рекомендуется использовать модель регрессии для тех значений независимого параметра X, которые не принадлежат интервалу, заданному в исходных данных.

Наши рекомендации