Понятие о регрессионном анализе
Взаимосвязь между переменными величинами может быть описана разными способами. Например, эту связь можно описать с помощью различных коэффициентов корреляции (линейных, частных, корреляционного отношения и т.п.). В то же время эту связь можно выразить по-другому: как зависимость между аргументом (величиной) X и функцией Y. В этом случае задача будет состоять в нахождении зависимости вида Y=F(X) или, напротив, в нахождении зависимости вида X=F(Y). При этом изменение функции в зависимости от изменений одного или нескольких аргументов называется регрессией [4, с. 255].
Графическое выражение регрессионного уравнения называют линией регрессии. Линия регрессии - это прямая, построенная методом наименьших квадратов: сумма квадратов расстояний (вычисленных по оси Y) от каждой точки графика рассеивания до прямой является минимальной. Линия регрессии выражает наилучшее предсказание зависимой переменной (Y) по независимым переменным (X). Эти независимые переменные носят название предикторов.
Регрессию выражают с помощью двух уравнений регрессии, которые в самом простом случае выглядят как уравнения прямой:
Y=a0 + a^X, Х=Ь0 + biY.
В первом уравнении: Y - зависимая переменная, а X - независимая переменная, а0- свободный член, a-i - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.
Во втором уравнении: X - зависимая переменная, Y - независимая переменная, b0 - свободный член, b1 - коэффициент регрессии, или угловой коэффициент, определяющий наклон линии регрессии по отношению к осям координат.
Таким образом, если на некоторой выборке измерены две переменные, которые коррелируют друг с другом, то, вычислив коэффициенты регрессии, мы получаем принципиальную возможность предсказания неизвестных значений одной переменной (Y - «зависимая переменная») по известным значениям другой переменной (X - «независимая переменная»). Например, предсказываемой «зависимой переменной» может быть успешность обучения, а предиктором, «независимой переменной», - результаты вступительного теста.
Наиболее точным предсказание будет, если |гху|=1. Тогда каждому значению X будет соответствовать только одно значение Y, а все ошибки оценки будут равны 0.
Особое значение для оценки точности предсказания имеет дисперсия оценок зависимой переменной. По сути, дисперсия оценок зависимой переменной Y - это та часть ее полной дисперсии, которая обусловлена влиянием независимой переменной X. Отношение дисперсии оценок зависимой переменной к ее истинной дисперсии равно квадрату коэффициента корреляции.
Таким образом, квадрат коэффициента корреляции зависимой и независимой переменной представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерминации. Данный коэффициент показывает, в какой степени изменчивость одной переменной обусловлена (детерминирована) влиянием другой переменной.
Коэффициент детерминации обладает важным преимуществом по сравнению с коэффициентом корреляции. Корреляция не является линейной функцией связи между двумя переменными. Поэтому, в частности, среднее арифметическое коэффициентов корреляции для нескольких выборок не совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок. Коэффициент детерминации отражает связь линейно и поэтому допускается его усреднение для нескольких выборок.
Для применения метода линейного регрессионного анализа необходимо соблюдать следующие условия:
• Сравниваемые переменные X и Y должны быть измерены в шкале интервалов или равных отношений.
• Предполагается, что переменные X и Y имеют нормальный закон распределения.
• Число варьирующих признаков в сравниваемых переменных должно быть одинаковым.