LRM - Линейная регрессионная модель
Линейный регрессионный анализ - это самый распространенный инструмент для описания связи между факторами и какой-то зависимой величиной. Как ВВП страны зависит от средней заработной платы, мировых цен на нефть и курса рубля? Такой пример из макроэкономики можно попробовать решить с помощью линейного регрессионного анализа. Как определить зависимость между погодой и количеством посетителей? Как спрогнозировать приток клиентов в зависимости от размера рекламного бюджета? Сколько времени нужно производить обжиг, чтобы достигнуть наилучшего качества?
Все эти задачи первоначально пытаются решить с помощью линейного регрессионного анализа. Покажем на конкретном примере возможности линейного оценивания.
Допустим, Вы задаетесь вопросом: как влияет рекламный бюджет на привлечение новых клиентов. Покажем на примере этой задачи возможности линейного оценивания:
Пусть мы собрали статистические данные по нашей фирме за три последних года. Обозначим за x - величину рекламного бюджета в месяц, а за y - количество новых клиентов в месяц. Последние к нам приходят иногда вне зависимости от нашей рекламы, поэтому попробуем оценить также долю таких покупателей.
Итак, наша модель имеет вид:
где а характеризует влияние на приток покупателей рекламного бюджета и b - характеризует независимый от рекламы поток клиентов. Величина включает в себя отклонения, которые не объясняются моделью, а вызваны другими факторами (сезонность, курс доллара…).
Для оценки коэффициентов регрессионного уравнения, при определенных предпосылках, мы можем использовать метод наименьших квадратов. Тогда получим следующую модель:
Как читается данная модель? При прочих равных, 3000 клиентов в месяц приходят к нам вне зависимости от наших маркетинговых акций, а каждый доллар инвестиций в рекламу дает нам в среднем 12 новых клиентов.
Однако жизнь многогранна, и в чистом виде такую модель применить можно не всегда. В таких случаях можно перейти от абсолютных значений к логарифмам. Тогда интерпретация результатов оценивания несколько меняется.
Если в результате работы с логарифмами модель будет иметь следующие оценки: а = 0.5, а b=0,02 , можно предположить, что, в среднем, количество клиентов растет на 2% в месяц (даже если мы не занимаемся рекламой), а, увеличив в два раза бюджет отдела продаж, мы добьемся 50% - го увеличения числа клиентов.
Но и такая модель не всегда хорошо описывает действительность, поскольку на количество новых клиентов оказывают воздействие целый ряд факторов. Мы можем в число факторов помимо затрат на рекламу добавить переменную "ЦЕНА ПРОДУКТА". Таким образом, мы сможем изучать зависимость притока потребителей уже от двух факторов.
Применяя модель, надо обязательно проверять выполняются ли предпосыли для использования линейной модели. Если мы перешли через границы применимости используемого метода оценивания, то интерпретация полученных результатов будет некорректной.
Сформируем основные предпосылки:
1. Нулевое математическое ожидание ошибок;
2. Диагональность ковариационной матрицы ошибок;
3. Отсутствие гетероскедастичности в модели.
Нарушение любой из этих предпосылок ведет к искажению полученных результатов. Можно не обнаружить существующую зависимость или построить ложную модель. Поэтому, за кажущейся простотой метода скрывается целый комплекс проблем, неочевидных на первый взгляд.