Часть iv. методы прогнозирования

РЕГРЕССИОННЫЙ И КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Теоретическое введение

Регрессионный и корреляционный анализ позволяет установить и оценить зависимость изучаемой случайной величины Y от одной или нескольких других величин X, и делать прогнозы значений Y. Параметр Y, значение которого нужно предсказывать, является зависимой переменной. Параметр X, значения которого нам известны заранее и который влияет на значения Y, называется независимой переменной. Например, X – количество внесенных удобрений, Y – снимаемый урожай; X – величина затрат компании на рекламу своего товара, Y – объем продаж этого товара и т.д.

Корреляционная зависимость Y от X – это функциональная зависимость

часть iv. методы прогнозирования - student2.ru , (9.1)

где часть iv. методы прогнозирования - student2.ru – среднее арифметическое (условное среднее) всех возможных значений параметра Y, которые соответствуют значению часть iv. методы прогнозирования - student2.ru . Уравнение (9.1) называется уравнением регрессииY на X, функция часть iv. методы прогнозирования - student2.ru – регрессиейY на X, а ее график – линией регрессииY на X.

Основная задача регрессионного анализа – установление формы корреляционной связи, т.е. вида функции регрессии (линейная, квадратичная, показательная и т.д.).

Метод наименьших квадратов позволяет определить коэффициенты уравнения регрессии таким образом, чтобы точки, построенные по исходным данным часть iv. методы прогнозирования - student2.ru , лежали как можно ближе к точкам линии регрессии (9.1). Формально это записывается как минимизация суммы квадратов отклонений (ошибок) функции регрессии и исходных точек

часть iv. методы прогнозирования - student2.ru ,

где часть iv. методы прогнозирования - student2.ru – значение, вычисленное по уравнению регрессии; часть iv. методы прогнозирования - student2.ru – отклонение часть iv. методы прогнозирования - student2.ru (ошибка, остаток) (рис.9.1); n – количество пар исходных данных.

часть iv. методы прогнозирования - student2.ru

Рис.9.1. Понятие отклонения часть iv. методы прогнозирования - student2.ru для случая линейной регрессии

В регрессионном анализе предполагается, что математическое ожидание случайной величины часть iv. методы прогнозирования - student2.ru равно нулю и ее дисперсия одинакова для всех наблюдаемых значений Y. Отсюда следует, что рассеяние данных возле линии регрессии должно быть одинаково при всех значениях параметра X. В случае, показанном на рис.9.2 данные распределяются вдоль линии регрессии неравномерно, поэтому метод наименьших квадратов в этом случае неприменим.

часть iv. методы прогнозирования - student2.ru

Рис.9.2. Неравномерное распределение исходных точек вдоль линии регрессии

Основная задача корреляционного анализа – оценка тесноты (силы) корреляционной связи. Теснота корреляционной зависимости Y от X оценивается по величине рассеяния значений параметра Y вокруг условного среднего часть iv. методы прогнозирования - student2.ru . Большое рассеяние говорит о слабой зависимости Y от X, либо об ее отсутствии и, наоборот, малое рассеяние указывает на наличие достаточно сильной зависимости.

Коэффициент детерминации часть iv. методы прогнозирования - student2.ru показывает, на сколько процентов ( часть iv. методы прогнозирования - student2.ru ) найденная функция регрессии описывает связь между исходными значениями параметров X и Y

часть iv. методы прогнозирования - student2.ru , (9.2)

где часть iv. методы прогнозирования - student2.ru – объясненная вариация; часть iv. методы прогнозирования - student2.ru – общая вариация (рис.9.3).

часть iv. методы прогнозирования - student2.ru

Рис.9.3. Графическая интерпретация коэффициента детерминации

для случая линейной регрессии

Соответственно, величина часть iv. методы прогнозирования - student2.ru показывает, сколько процентов вариации параметра Y обусловлены факторами, не включенными в регрессионную модель. При высоком ( часть iv. методы прогнозирования - student2.ru ) значении коэффициента детерминации можно делать прогноз часть iv. методы прогнозирования - student2.ru для конкретного значения часть iv. методы прогнозирования - student2.ru .

9.2. Методические рекомендации

Для проведения регрессионного анализа и прогнозирования необходимо:

1) построить график исходных данных и попытаться зрительно, приближенно определить характер зависимости;

2) выбрать вид функции регрессии, которая может описывать связь исходных данных;

3) определить численные коэффициенты функции регрессии;

4) оценить силу найденной регрессионной зависимости на основе коэффициента детерминации часть iv. методы прогнозирования - student2.ru ;

5) сделать прогноз (при часть iv. методы прогнозирования - student2.ru ) или сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. При этом не рекомендуется использовать модель регрессии для тех значений независимого параметра X, которые не принадлежат интервалу, заданному в исходных данных.

Линейная регрессия

Коэффициенты линейнойрегрессии часть iv. методы прогнозирования - student2.ru вычисляются по следующим формулам (все суммы берутся по n парам исходных данных)

часть iv. методы прогнозирования - student2.ru (9.3)
часть iv. методы прогнозирования - student2.ru .

Для удобства вычислений используют вспомогательную таблицу (табл.9.1), в которой рассчитываются необходимые суммы.

Таблица 9.1

Вспомогательная таблица для линейной функции

Заголовки данных часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru
Промежуточные значения              
... ... ... ... ... ... ...
             
Сумма ( часть iv. методы прогнозирования - student2.ru ) по столбцу            


Задача №9.01

Некоторая фирма занимается поставками различных грузов на короткие расстояния внутри города. Перед менеджером стоит задача оценить стоимость таких услуг, зависящую от затрачиваемого на поставку времени. В качестве наиболее важного фактора, влияющего на время поставки, менеджер выбрал пройденное расстояние. Были собраны исходные данные о десяти поставках (табл.9.2).

Таблица 9.2

Исходные данные задачи №9.01

Расстояние, миль 3,5 2,4 4,9 4,2 3,0 1,3 1,0 3,0 1,5 4,1
Время, мин

Постройте график исходных данных, определите по нему характер зависимости между расстоянием и затраченным временем, проанализируйте применимость метода наименьших квадратов, постройте уравнение регрессии, проанализируйте силу регрессионной связи и сделайте прогноз времени поездки на 2 мили.

Решение

На рис.9.4 построены исходные данные по десяти поездкам.

часть iv. методы прогнозирования - student2.ru

Рис.9.4. График исходных данных задачи №9.01

Помимо расстояния на время поставки влияют пробки на дорогах, время суток, дорожные работы, погода, квалификация водителя, вид транспорта. Построенные точки не находятся точно на линии, что обусловлено описанными выше факторами. Но эти точки собраны вокруг прямой линии, поэтому можно предположить линейную связь между параметрами. Все исходные точки равномерно распределены вдоль предполагаемой прямой линии, что позволяет применить метод наименьших квадратов.

Вычислим суммы, необходимые для расчета коэффициентов линейной регрессии, коэффициента детерминации с помощью табл.9.3.

Таблица 9.3

Вспомогательная таблица задачи №9.01

часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru часть iv. методы прогнозирования - student2.ru
3,5 12,25 56,00 15,223 2,634129 5,76
2,4 5,76 31,2 12,297 1,697809 0,36
4,9 24,01 93,1 18,947 28,59041 29,16
4,2 17,64 75,60 17,085 12,14523 19,36
3,0 9,00 36,00 13,893 0,085849 2,56
1,3 1,69 14,30 9,371 17,88444 6,76
1,0 1,00 8,00 8,573 25,27073 31,36
3,0 9,00 42,00 13,893 0,085849 0,16
1,5 2,25 13,50 9,903 13,66781 21,16
4,1 16,81 65,60 16,819 10,36196 5,76
часть iv. методы прогнозирования - student2.ru 28,9 часть iv. методы прогнозирования - student2.ru 136 часть iv. методы прогнозирования - student2.ru 99,41 часть iv. методы прогнозирования - student2.ru 435,30 112,4242 122,4

часть iv. методы прогнозирования - student2.ru .

По формулам (9.3) вычислим коэффициенты линейной регрессии

часть iv. методы прогнозирования - student2.ru

часть iv. методы прогнозирования - student2.ru

Таким образом, искомая регрессионная зависимость имеет вид

часть iv. методы прогнозирования - student2.ru (9.4)

Наклон линии регрессии часть iv. методы прогнозирования - student2.ru 2,66 минут на милю – это количество минут, приходящееся на одну милю расстояния. Координата точки пересечения прямой с осью Y часть iv. методы прогнозирования - student2.ru 5,913 минут – это время, которое не зависит от пройденного расстояния, а обуславливается всеми остальными возможными факторами, явно не учтенными при анализе.

По формуле (9.2) вычислим коэффициент детерминации

часть iv. методы прогнозирования - student2.ru или 91,8%.

Таким образом, линейная модель объясняет 91,8% вариации времени доставки. Не объясняется часть iv. методы прогнозирования - student2.ru вариации времени поездки, которые обусловлены остальными факторами, влияющими на время поставки, но не включенными в линейную модель регрессии.

Поскольку коэффициент детерминации имеет достаточно высокое значение и расстояние 2 мили, для которого надо сделать прогноз, находится в пределах диапазона исходных данных (см. табл.9.2), то мы можем использовать полученное уравнение линейной регрессии (9.4) для прогнозирования

часть iv. методы прогнозирования - student2.ru минут.

При прогнозах на расстояния, не входящие в диапазон исходных данных, нельзя гарантировать справедливость модели (9.4). Это объясняется тем, что связь между временем и расстоянием может изменяться по мере увеличения расстояния. На время дальних перевозок могут влиять новые факторы такие, как использование скоростных шоссе, остановки на отдых, обед и т.п.

Приблизительным, но самым простым и наглядным способом проверки удовлетворительности регрессионной модели является графическое представление отклонений (рис.9.5).

часть iv. методы прогнозирования - student2.ru

Рис.9.5. График отклонений в задаче №9.01

Отложим отклонения часть iv. методы прогнозирования - student2.ru по оси Y, для каждого значения часть iv. методы прогнозирования - student2.ru . Если регрессионная модель близка к реальной зависимости, то отклонения будут носить случайный характер и их сумма будет близка к нулю. В рассмотренном примере часть iv. методы прогнозирования - student2.ru .

Нелинейная регрессия

Рассмотрим наиболее простые случаи нелинейной регрессии: гиперболу, экспоненту и параболу. При нахождении коэффициентов гиперболы и экспоненты используют прием приведения нелинейной регрессионной зависимости к линейному виду. Это позволяет использовать для вычисления коэффициентов функций регрессии формулы (9.3).

Гипербола

При нахождении гиперболы часть iv. методы прогнозирования - student2.ru вводят новую переменную часть iv. методы прогнозирования - student2.ru , тогда уравнение гиперболы принимает линейный вид часть iv. методы прогнозирования - student2.ru . После этого используют формулы (9.3) для нахождений линейной функции, но вместо значений часть iv. методы прогнозирования - student2.ru используются значения часть iv. методы прогнозирования - student2.ru

часть iv. методы прогнозирования - student2.ru ; часть iv. методы прогнозирования - student2.ru .

При проведении вычислений во вспомогательную таблицу вносятся соответствующие колонки.

Экспонента

Для приведения к линейному виду экспоненты часть iv. методы прогнозирования - student2.ru проведем логарифмирование

часть iv. методы прогнозирования - student2.ru ;

часть iv. методы прогнозирования - student2.ru ;

часть iv. методы прогнозирования - student2.ru .

Введем переменные часть iv. методы прогнозирования - student2.ru и часть iv. методы прогнозирования - student2.ru , тогда часть iv. методы прогнозирования - student2.ru , откуда следует, что можно применять формулы (9.3), в которых вместо значений часть iv. методы прогнозирования - student2.ru надо использовать часть iv. методы прогнозирования - student2.ru

часть iv. методы прогнозирования - student2.ru ; часть iv. методы прогнозирования - student2.ru .

При этом мы получим численные значения коэффициентов часть iv. методы прогнозирования - student2.ru и часть iv. методы прогнозирования - student2.ru , от которых надо перейти к часть iv. методы прогнозирования - student2.ru и часть iv. методы прогнозирования - student2.ru , используемых в модели экспоненты. Исходя из введенных обозначений и определения логарифма, получаем

часть iv. методы прогнозирования - student2.ru , часть iv. методы прогнозирования - student2.ru .

Парабола

Длянахождения коэффициентов параболы часть iv. методы прогнозирования - student2.ru необходимо решить линейную систему из трех уравнений

часть iv. методы прогнозирования - student2.ru

Оценка силы нелинейной регрессионной связи

Сила регрессионной связи для гиперболы и параболы определяется непосредственно по формуле (9.2). При вычислении коэффициента детерминации экспоненты все значения параметра Y (исходные, регрессионные, среднее) необходимо заменить на их логарифмы, например, часть iv. методы прогнозирования - student2.ru – на часть iv. методы прогнозирования - student2.ru и т.д.

9.3. Варианты задач для самостоятельного решения

Задача №9.1

Постройте регрессионные модели (линейную, гиперболу, экспоненту, параболу) для следующих исходных данных (табл.9.4). Для облегчения расчетов исходные данные содержат только четыре пары значений часть iv. методы прогнозирования - student2.ru .

Таблица 9.4

Исходные данные задачи №9.1

X
Y

Проверьте расчетным способом удовлетворительность моделей и сделайте прогноз для часть iv. методы прогнозирования - student2.ru .

Задача №9.2

Постройте регрессионные модели (линейную, гиперболу, экспоненту, параболу) для следующих исходных данных (табл.9.5). Для облегчения расчетов исходные данные содержат только четыре пары значений часть iv. методы прогнозирования - student2.ru .

Таблица 9.5

Исходные данные задачи №9.2

X
Y

Проверьте расчетным способом удовлетворительность моделей и сделайте прогноз для часть iv. методы прогнозирования - student2.ru .

Задача №9.3

Для исходных данных, представленных в табл.9.6, были построены следующие регрессионные модели:

· часть iv. методы прогнозирования - student2.ru ;

· часть iv. методы прогнозирования - student2.ru ;

· часть iv. методы прогнозирования - student2.ru ;

· часть iv. методы прогнозирования - student2.ru .

Таблица 9.6

Исходные данные задачи №9.3

X
Y

С помощью графика отклонений выберите удовлетворительную модель и проверьте свой выбор с помощью соответствующего расчета.

Задача №9.4

В табл.9.7 представлены данные о ценах на комплектующие для ПЭВМ. Комплектующие производятся различными компаниями-производителями и разбиты на группы по своим функциональным возможностям.

Таблица 9.7

Исходные данные задачи №9.4

Группа
Цена, $
Цена, $

Постройте график исходных данных и с его помощью проанализируйте применимость метода наименьших квадратов. Подтвердите свои выводы с помощью расчета (для линейной модели). Прокомментируйте экономические причины полученного результата.

Задача №9.5

Санаторный комплекс ежемесячно заключает с пекарней договор на выпечку хлеба сорта часть iv. методы прогнозирования - student2.ru . Чтобы полностью использовать свои производственные мощности пекарня выпекает также хлеб сорта часть iv. методы прогнозирования - student2.ru , который пускает в свободную продажу. В табл.9.8 приведены данные об объемах выпуска хлеба пекарней за последний год. Для облегчения расчетов числовые данные – условные.

Таблица 9.8

Объемы выпуска хлеба [тыс.шт.] в задаче №9.5

Месяц
часть iv. методы прогнозирования - student2.ru 2,3 1,5 0,5 3,5 4,5 2,5 1,5
часть iv. методы прогнозирования - student2.ru 6,5 8,1 8,7 0,2 7,6 8,7 8,4

Проанализируйте график исходных данных и постройте регрессионную модель функции производственных возможностей пекарни. Проверьте удовлетворительность модели и сделайте прогноз объема выпуска хлеба часть iv. методы прогнозирования - student2.ru , если санаторный комплекс сделает заказ хлеба часть iv. методы прогнозирования - student2.ru – 3 тысячи булок.

Примечание 9.1.Функция производственных возможностей показывает зависимость объемов выпуска товаров 1 и 2 при фиксированном значении труда и капитала.

Наши рекомендации