Тема 3. Метод наименьших квадратов (МНК) для парной линейной регрессии
Рассмотрим задачу регрессионного анализа: будем восстанавливать линейную регрессионную зависимость величины Y от величины X в форме
Y=a+b·X+ε,
где ε-случайная величина, соответствующая ожидаемой ошибке, погрешности. Воспользуемся данными {Y i,X i, i=1,…,n} по проявлениям выявляемой зависимости в аналогичных условиях (при n ≥ 2). Например, по данным m предыдущих периодов о ценах, объемах сбыта {cj,kj, j=1,…,m} подберем регрессионную зависимость k = a×c+b+ε. Значения параметров функции a, b, найдем, минимизируя «видимые» ошибки-отклонения «прогнозов по функции» от «факта»– по методу наименьших квадратов (МНК):
min ∑ (a+b·X i – Y i)2
a,b i=1,…,n
(для указанного выше примера о ценах, объемах сбыта, в частности, МНК примет вид
min ∑ (kj – (a×cj+b))2).
a,b j=1,…,m
Согласно необходимому условию экстремума приравняем частные производные нулю, получим два уравнения:
∑ [2×(a+b·X i – Y i)×X i] = 0, ∑ [2×(a+b·X i – Y i)] = 0
i=1,…, n i=1,…, n
(∑ [2×(a×cj+b – kj)×cj ] = 0, ∑ [2×(a×cj+b – kj)] = 0).
j=1,…,m j=1,…,m
Откуда следует в общем случае, что
b = (n×∑ X i×Y i – (∑ X i) × (∑Y i)) / (n×∑ X i2-(∑ X i)2),
a = Y 0 – b × X 0,
где
X 0=(1/ n) ×∑ X j, Y 0=(1/ n) ×∑ Y i.
Второе уравнение означает, что регрессионная прямая проходит через точку со средними значениями.
Если рассмотреть отклонения от средних хi= Xi-X 0, уi= Y i-Y0, то нетрудно убедиться, что средние величины для новых величин равны нулю. Тангенс угла наклона при этом не меняется, а значит можно пользоваться следующими формулами для расчета коэффициентов (параметров парной линейной регрессионной модели)
b = ∑ (X j – X 0) × (Y j – Y 0) / ∑ (X j – X 0)2, a = Y 0 – b × X 0
j=1,…,n j=1,…,n
(а = ∑ (cj – c0) × (k j – k 0) / ∑ (cj – c0)2, b = k0 – а × с0).
j=1,…,m j=1,…,m
Обозначим в общем случае
X 1 Y 11 e 1
X=[ …], Y =[ …], s=[ …], e=[ …], Y^ = a·s + b·X, e = Y - Y^
X n Y n1 e n
Y^-вектор, натянутый на единичный вектор s, и вектор детерминированных величин X.
Геометрически экстремальное условие становится условием «ортогональности» вектора e векторам s, X (здесь и ниже, ’-признак транспонированности):
s’ e=0, X’ e=0.
Рассмотрим матрицу размерности (nX2)
1 X 1 Y 1
X=[ …… ]; Y =[ …], β=[a,b]’-векторы «фактов» и искомых параметров
1 X n Y n
зависимости. Тогда условие «ортогональности» примет еще более компактный вид:
X’ e=0
или
X’ (Y - X β)=0.
Откуда получим:
X’ Y - X’ X β=0.
или (здесь, А-1-обратная матрица к матрице А)
β = (X’ X)-1 X’ Y.
Обобщаемая на многомерный случай форма примет в двумерном случае следующий вид
N ∑ X i ∑ Y i
β = (X’ X)-1 X’ Y =[ ] -1[ ].
∑ X i ∑ X i2 ∑ X i Y i
Упражнение (контрольное задание) № 1 (см.[3, с.41, Упр. 2.9]).
Пусть имеется таблица данных двух показателей (Y,X), требуется восстановить зависимость между ними в форме линейной модели регрессии 4-мя способами. Интерпретируя Y,X как «объем сбыта» и «цена», соответственно, выявить оптимальную цену для максимизации дохода, оценить границы варьирования опосредованно управляемого сбыта (оценить ожидаемые вариации и дохода при оптимальной цене).
№ п/п | (Y) | (X) |
5+N1 | ||
32-N2 |
Здесь и ниже, N1,N2 - параметры контрольных заданий, соответствующие номеру по списку в журнале группы (цифры, равные количеству десятков и количеству единиц в номере, соответственно).
РЕШЕНИЕ(при N1=N2=0).
В электронной таблице Excel выполним действия, иллюстрируемые следующим образом.
Если раздел меню «Сервис/Анализ данных…» не нашёлся, то открываем (инициируем выполнение команды меню) «Сервис/Надстройки…»…
…и подключаем «Пакет анализа» (устанавливаем соответствующую «галочку»)…
После этого раздел меню «Сервис/Анализ данных…» должен найтись…
Заметим, что соответствующую эконометрическую модель принято записывать, в частности, следующим образом (применяя одинаковый способ округления):
Y = 79,95 – 1,63 X, R2=0,86.
(5,20) (0,23)
Вопросы по 3-ей теме:
3.1. Что собой представляет МНК для задачи регрессионного анализа применительно к восстановлению связи между двумя величинами? Какую форму МНК принимает применительно к выявлению зависимости спроса от цены, в частности?
3.2. Как необходимое условие экстремума позволяет найти параметры модели парной линейной регрессии в связи с применением МНК?
3.3. Почему регрессионная прямая проходит через точку со средними значениями?
3.4. Как регрессионное уравнение в отклонениях упрощает расчет коэффициента при неизвестной в искомой линейной зависимости?
3.5. Какова векторная форма «видимых» ошибок-отклонений «прогнозов» и «фактов»?
3.6. Какую форму принимает условие экстремальности по МНК для парной линейной регрессии в геометрической интерпретации?
3.7. Каков матричный вид условия ортогональности векторов отклонений прогноза и факта описываемой переменной, единичного вектора и вектора детерминированных величин (и почему этот вид таков)?