Построение уравнений регрессии
Линейная регрессия
В регрессионном анализе изучается связь и определяется количественная зависимость между зависимой переменной и одной или несколькими независимыми переменными. Пусть переменная Yзависит от одной переменной X. При этом предполагается, что переменная X принимает заданные фиксированные значения, а зависимая переменная Yимеет случайный разброс из-за ошибок измерения, влияния неучтенных факторов и т.д. Каждому значению X соответствует некоторый закон распределения вероятностей случайной величины Y. Предположим, что Yв «среднем» линейно зависит от значений переменной X. Это означает, что условное математическое ожидание случайной величины Y при заданном значении X имеет вид
. (1)
Данная функция называется линейной теоретической функцией регрессии Y на X, а параметры a0 и a1 – параметрами линейной регрессии (коэффициенты регрессии). На практике параметры регрессии определяются по результатам наблюдений переменных Y и X, связь, между которыми, можно записать в виде
,
где e - случайная ошибка наблюдений. В регрессионном анализе полагают, что случайные ошибки наблюдений имеют нормальный закон распределения, то есть
.
Также считают, что отсутствует автокорреляция между ошибками, т.е. последовательные значения ошибок в каждом опыте ei не зависят друг от друга
Точность аппроксимации с помощью прямой (y = m^x + b), вычисленной по функции ЛИНЕЙН, зависит от степени разброса данных. Чем ближе данные к прямой, тем более точной является модель (уравнение), полученная по функции. Функция ЛИНЕЙН использует метод наименьших квадратов для определения наилучшей аппроксимации данных. Когда имеется только одна независимая переменная x, то m и b вычисляются по следующим формулам:
Формат функции: ЛИНЕЙН(известные_значения_y;известные_значения_x;конст;статистика)
Конст - это логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0. Если конст. имеет значение ИСТИНА или опущено, то b вычисляется обычным образом. Если конст имеет значение ЛОЖЬ, то b полагается равным 0 и значения m подбираются так, чтобы выполнялось соотношение y = mx.
Статистика - это логическое значение, которое указывает, требуется ли рассчитать дополнительную статистику по регрессии. Если статистика имеет значение ИСТИНА, то функция ЛИНЕЙН расчитывает дополнительную регрессионную статистику, так что возвращаемый массив будет иметь вид: {mn;mn-1;...;m1;b:sen; sen- b*...; se1; seb:r2;sey:F; df:ssreg;ssresid}. Если статистика имеет значение ЛОЖЬ или опущена, то функция ЛИНЕЙН расчитывает только коэффициенты m и постоянную b.
На рис1. показано определение уравнения регрессии по двум переменным Xi и Yi.
Рис.1
Для расчета и вывода значений m и bзависимостей выделяются 2 ячейки, вызывают функцию, вводят исходные данные X и Y, указывают КОНСТ- истинаи СТАТИС – истина, нажимают Ctrl + Shift +Enter, и с полученными коэффициентами m и b записывают уравнение.
На рисунке 2 показан расчет линейной регрессии при задании одной (определяемой) переменной Yi. Независимые переменные Хi при этом берутся в виде натурального ряда чисел.
Рис. 2.