Отыскание параметров уравнения прямой регрессии
Рассмотрим корреляционную таблицу в общем виде.
Таблица 6. Общий вид корреляционной таблицы
xi yi | x1 | x2 | ..... | xi | ....... | xs | итого nyj |
y1 | n11 | n12 | ..... | n1i | ...... | n1s | ny1 |
y2 | n21 | n22 | ..... | n2i | ...... | n2s | ny2 |
....... | ........ | ......... | ........ | ........... | .......... | ............ | ......... |
yj | nj1 | nj2 | ....... | nji | ....... | njs | nyj |
............. | .......... | .......... | ......... | ........... | .......... | .......... | ........... |
yt | nt1 | nt2 | ....... | nti | ........ | nts | nyt |
Итого nxi Средние | nx1 | nx2 | …… …… | nxi ….. | …… …… | nxs |
Как видно из примеров , некоторые клетки таблицы могут оказаться пустыми, - в таких случаях считаем, что соответствующие частоты равны нулю. В таблице 6. - частоты соответствующих пар переменных . Сумма всех частот дает объем совокупности n:
(9)
при этом
(10)
Из корреляционной таблицы видно, что признак Х принимает значение с частотой , значение с частотой и т.д., следовательно, общая средняя признака Х вычисляется по формуле:
(11)
Аналогично вычисляется общая средняя признака Y:
. (12)
Условные средние находятся следующим образом:
. (13)
Ранее уже было сказано о построении корреляционного поля, т.е. точек с координатами . Предположим, что мы по виду корреляционного поля пришли к выводу о существовании между значениями признаков Х и Y линейной корреляционной зависимости:
. (14)
Естественное желание состоит в том, чтобы параметры и этой функции подобрать так, чтобы суммарное отклонение точек корреляционного поля от прямой было наименьшим. Действительно, если в уравнение (14) последовательно подставлять значения признака Х, то будем получать значения признака Y, которые назовем теоретическими: . Разумеется, теоретические значения , как правило, отличаются от фактических . Математическая задача ставится следующим образом: параметры и уравнения прямой регрессии выбираются такими, чтобы функция принимала наименьшее значение. Заметим, что последняя формула учитывает «вес» каждой точки , т.е. общее число наблюдений, по которым рассчитывалась соответствующая средняя и, таким образом, каждая пара учитывается столько раз, сколько раз она наблюдается в корреляционной таблице. Указанный метод определения параметров уравнения регрессии называется методом наименьших квадратов (МНК).
Итак, функцию двух переменных требуется исследовать на экстремум (минимум). Для этого находим частные производные этой функции и приравнивая их к нулю, получаем так называемую систему нормальных уравнений для определения и :
(15)
Сокращая все члены уравнений на 2 и группируя члены, содержащие и , получим:
(16)
Поделив все члены уравнений на общее число наблюдений n, преобразуем систему к виду:
(17)
Систему (17) можно записать в более компактном виде, если учесть некоторые соотношения, вытекающие из корреляционной таблицы 6. Действительно, соотношения 9 - 13 показывают, что коэффициент при во втором уравнении равен единице. Кроме этого, коэффициент при в первом уравнении и коэффициент при во втором равны . Коэффициент при в первом уравнении представляет собой среднюю арифметическую квадратов значений признака Х, и поэтому обозначается . Преобразуем свободный член второго уравнения и получим, что свободный член второго уравнения равен .
Наконец, доказывается, что свободный член первого уравнения системы равен средней арифметической произведений значений признаков Х и Y которую обозначим . В результате этих преобразований и обозначений система (17) принимает вид
. (18)
Из второго уравнения этой системы находим и подставляем в уравнение регрессии . В результате этого уравнение прямой регрессии получаем в виде: , который показывает, что прямая регрессии проходит через точку . Коэффициент обычно обозначают и назы -вают коэффициентом регрессии на , поэтому уравнение будем писать в виде
(19)
Коэффициент регрессии находим, решая до конца систему (18).
Например, умножим второе уравнение на и сложим с первым. Получим , откуда . Итак, окончательные итоги таковы: уравнение прямой регрессии на имеет вид:
,
коэффициент регрессии находится по формуле
,
где: