Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ.

Лекция №4. Корреляционный и регрессионный анализ.

Временные ряды.

Метод наименьших квадратов

Представим, что выполняя лабораторную работу по физике, например, изучая зависимость некоторой физической величины Y от физической величины X, вы получили следующие экспериментальные данные.

X x1 x2 x3 …xi xn
Y y1 y2 y3 …yi yn

Для того чтобы наглядно представить зависимость Y от X, нанесли экспериментальные точки на координатную плоскость и ... заметили, что экспериментальные точки не лежат на одной прямой. Причина такого «плачевного» результата – случайные погрешности эксперимента, вызванные действием большого числа факторов, учесть которые невозможно. Как же правильно построить график зависимости Y=Y(X)? Как найти функцию Y=Y(X), которая наилучшим образом соответствовала экспериментальным точкам?

Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru

Предположим, что функция Y(Х) линейная – Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru , но конкретный вид её не известен. Но если вы выбрали (сознательно или наугад) предполагаемый вид функций, то следующим шагом нужно подобрать параметры (а, b) так, чтобы функция располагалась как можно ближе к экспериментальным точкам. Что значит «располагалась как можно ближе»? Ответить на этот вопрос — значит предложить метод вычисления параметров функции.

Такой метод был предложен в XVIII веке немецким математиком К. Гауссом. Он называется методом наименьших квадратов (МНК). С помощью этого метода Гаусс рассчитал орбиту «потерянной» астрономами малой планеты. Известный немецкий астроном Ольберс, прочитав, опубликованные в печати результаты расчетов Гаусса, буквально ближайшей ночью нашел «потерю» на небе, эту планету назвали Церерой.

.

Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru

Иоганн Карл Фри́дрих Га́усс (нем. Johann Carl Friedrich Gauß; 30 апреля 1777, Брауншвейг — 23 февраля 1855, Гёттинген) — немецкий математик, астроном и физик, считается одним из величайших математиков всех времён, «королём математиков».

Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru

Суть метода наименьших квадратов (МНК) заключается в следующем:

искомая функция должна быть построена так, чтобы сумма квадратов отклонений уi - ординат всех экспериментальных точек от Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru - ординат графика функции была бы минимальной.

Иными словами нужно свести к минимуму функцию S:

S Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru

Может возникнуть вопрос, а именно почему сумма квадратов? Дело в том, что, во-первых, квадрат любого числа всегда неотрицателен, и, следовательно, сумма квадратов всегда не отрицательна, т.е. ограничена снизу, и, следовательно, у нее есть минимум.

Ведь иметь в двух точках отклонение в 5 единиц, лучше, чем в первой точке иметь нулевое отклонение, зато во второй точке иметь отклонение 10. Сумма отклонений в обоих случаях будет одинаковой, а вот сумма квадратов отклонений в первом случае будет меньше.

Для отыскания минимума функции S приравняем нулю соответствующие частные производные:

Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru

Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru .

Выполнив элементарные преобразования, получим систему двух линейных уравнений относительно а и b:

Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru

Решения этой системы уравнений можно записать в следующем, удобном для расчетов виде:

Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru     (1)

Получив значения a и b, можно составить уравнение линейной зависимости вида

Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru и построить график этой зависимости:

Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru

Как видно из рисунка, прямая довольно неплохо вписывается в набор экспериментальных точек.

Данные рисунки получены с помощью MS Excel. Полученный график называется трендом. Английское слово trend можно перевести как общее направление, или тенденция.

(Кстати, обычно b называют коэффициентом регрессии. Коэффициент регрессии показывает, на сколько единиц в среднем изменяется переменная Y при увеличении переменной Х на одну единицу.)

Пример. Построить график зависимости по данным n=8 наблюдений, которые получены при изучении зависимости количества продаж лекарственного средства «Амбробене» у от затрат на рекламу этого товара х( в млн. руб):

х 1,5 4,0 5,0 7,0 8,5 10,0 11,0 12,5
y 5,0 4,5 7,0 6,5 9,5 9,0 11,0 9,0

Решение. Экспериментальные данные изобразим в виде точек на координатной плоскости. Соединим полученные точки. По виду ломанной можно предположить наличие линейной зависимости между двумя рассматриваемыми переменными, которая графически выражается тем точнее, чем больше объем выборки Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru
Для построения линии тренда составим расчетную таблицу:

хi yi x i2 xiyi
1 2 3 4 5 6 7 8 1,5 4,0 5,0 7,0 8,5 10,0 11,0 12,5 5,0 4,5 7,0 6,5 9,5 9,0 11,0 9,0 2,25 16,00 25,00 49,00 72,25 100,00 121,00 156,25 7,50 18,00 35,00 45,50 80,75 90,00 121,00 112,50
Σ 59,5 61,5 541,75 510,25

Найдем искомые параметры, для чего подставим вычисленные по таблице суммы в соотношения (1):

а = (61,5 × 541,75 – 510,25 ×59,50)/ (8 ×541,75 – 3540,25) = 3,73,
b = (8 × 510,25 – 59,50 × 61,50)/ (8 ×541,75 – 3540,25) = 0,53.
Таким образом, уравнение тренда имеет вид

. Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru

Метод наименьших квадратов. Лекция №4. Корреляционный и регрессионный анализ. - student2.ru
Построенная линия тренда позволяет с некоторой вероятностью не только предсказать в интервале от х=1,5 до х=12,5 любые значения функции у при отсутствующих в таблице значениях фактора х, но и за пределами данного интервала.

Наши рекомендации