Этапы построения регрессионного уравнения
Этапы:
1. Определение цели исследования.
2. Определение «входов» и «выходов» модели.
3. Сбор исходных статистических данных.
4. Установление наличия статистической связи между переменными.
5. Выбор математической формы регрессионного уравнения.
6. Оценка коэффициентов регрессионного уравнения.
7. Проверка адекватности регрессионного уравнения.
8. Экспериментальная проверка модели.
9. Вывод об адекватности модели.
10. Эксплуатация модели.
1. На этом этапе определяется объект исследования и конечные прикладные цели проводимого исследования, при этом условно можно выделить два основных типа исследований:
1) проверка гипотезы о наличии связи между экономическими переменными, в этом случае задача исследований может быть сформулирована следующим образом:
а) проверка гипотезы о наличии зависимости между уровнем оплаты труда работника, уровнем его образования и стажем работы;
б) исследование динамики выпуска продукции предприятия и факторов, влияющих на эту динамику.
2) количественная оценка экономических зависимостей. Например, задача может быть сформулирована как оценка вклада технического прогресса в экономический рост. К этому же классу относятся задачи прогнозирования, в которых полученные адекватные регрессионные уравнения используются для определения неизвестных значений исследуемой зависимой переменной по заданным значениям объясняющих переменных.
2. При этом определяются несколько вопросов:
1) определение результирующего показателя и перечня факторов, включаемых в модель. Как правило, факторы и результаты определяются цепочкой «причина – следствие». При этом в общем случае регрессионное уравнение должно охватить все факторы, существенно влияющие на результат. Неучтенные факторы негативно отражаются на коэффициентах регрессии факторов, включенных в модель.
2) Устанавливается генеральная совокупность для случайных переменных, т.е. четко очерчивается объект исследования и возможная область его применения. Например, зависимости «вообще» между валовой продукцией и основными фондами не бывает. Имеется конкретная зависимость, т.е. конкретное регрессионное уравнение для какого-то предприятия или отрасли на определенный период времени. Регрессионное уравнение, построенное для одного объекта, не распространяется на другой объект или на другой период времени. Например, регрессионное уравнение, отражающее зависимость валовой продукции предприятия от ее факторов в 1990 г. нельзя использовать для анализа производства в 2000 г. Исходя из цели исследований и выбранной нами генеральной совокупности, определяются и возможные области применения регрессионной модели.
3) Определение параметров выборки. При этом определяются следующие параметры: шаг наблюдения, минимально допустимое количество наблюдений и определяется перечень качественных факторов. При определении вопросов, касающихся входов и выходов модели, решающую роль играет заказчик исследования, т.е. специалист, для которого проводится данное исследование.
3. Сбор статистических данных заключается в выборке из отчетов соответствующих числовых измерителей переменных, либо в получении экспериментальных данных. На языке теории вероятности этот этап означает получение выборки из реализации значений случайной переменной. Совокупность статистических данных считается выборкой и в том случае, когда выбрана вся имеющаяся информация. Генеральной совокупностью в этом случае считается совокупность всех мыслимых значений случайной переменной. На этом же этапе рассматриваются проблемы однородности совокупности, а также происходит обработка данных, описывающих качественные переменные (обрабатываются экспериментальные оценки) и формируются фиктивные переменные.
4. Установление наличия статистической связи производится на основе коэффициента корреляции. Необходимо помнить, что коэффициент корреляции измеряет тесноту только линейной связи, т.е. этот этап не дает окончательного ответа о зависимости переменных между собой.
5. Выбор производится с учетом нескольких аспектов:
1) графический анализ данных, т.е. строим корреляционные поля и смотрим, на что они похожи.
2) исследование различных характеристик, как правило, статистических параметров.
3) учет цели исследования.
Если выбранный тип связи между переменными имеет не линейный характер, то модель линеаризуется.
6. Для линейных и линеаризуемых уравнений оценка параметров производится, как правило, методом наименьших квадратов МНК.
7. Схема проведения проверки адекватности, как для однофакторного, так и для многофакторного регрессионного уравнения одинакова и включает 4 этапа:
1) оценка качества подгонки регрессионного уравнения.
2) проверка различных гипотез относительно параметров регрессионного уравнения.
3) проверка условий МНК для получения «хороших» оценок.
4) проверяется экономический смысл коэффициентов регрессии.
8. Для этого используется выборочная информация, не включенная в расчет параметров модели. Теоретические, т.е. расчетные значения y для этих наблюдений должны быть близкими к фактическим значениям. Последнее обстоятельство свидетельствует об адекватности регрессионного уравнения.
9. Вывод об адекватности модели. На этом этапе делается окончательный вывод о качестве регрессионного уравнения и о возможности его использования при решении поставленной задачи. В выводе об адекватности модели должны быть отражены 2 аспекта:
1) Должен быть представлен анализ показателей адекватности модели на основе статистических гипотез и значений различных коэффициентов (F критерия, статистики D-W, t-статистики, коэффициента детерминации, коэффициента корреляции). При неудовлетворительных значениях данных показателей адекватности определяется причина и регрессионное уравнение строится заново. Причинами неудовлетворительной модели могут быть:
а) неполный перечень факторов, т.е. отсутствие в модели фактора или факторов, существенно влияющих на результат;
б) неправильный выбор формы математической зависимости между переменными;
в) нарушение однородности совокупности;
г) недостаточное количество наблюдений;
д) нарушение условий МНК и т.д.
2) Этот аспект предполагает проверку соответствия параметров модели теоретическим предположениям о характере связи результата и факторов. Например, знак коэффициента регрессии должен соответствовать теоретическим представлениям о направлении влияния фактора на результат, степень влияния фактора на результат также должна соответствовать теоретическим предположениям. Причинами несоответствия параметров модели теоретическим предположениям могут быть те же, что и при плохих показателях адекватности. Во всех случаях причины должны быть устранены путем пересмотра модели.
10. Эксплуатация модели, т.е. использование ее для решения поставленных задач. В частности, возможно построение сценарных прогнозов.
Рассмотри примеры, которые являются характерными и дают общее представление об области использования регрессионного уравнения.
1. Разложение абсолютного прироста результатов по факторам. Допустим, для некоторого производства имеется регрессионное уравнение, отражающее зависимость объема производства у от его факторов
y=b0+b1x1+b2x2+…+bkxk.
Известен также прирост результата за некоторый период Δy и известны приросты факторов Δx1, Δx2, …, Δxk. Тогда прирост результата за счет n-го фактора согласно экономическому смыслу коэффициента регрессии равен Δxmbm.
Весь прирост результата Δy=b1Δx1+b2Δx2+…+bkΔxk. Таким образом, мы можем определить вклад каждого фактора в общий результат производства.
1. Принятие оптимальных управленческих решений. Примерами таких задач являются задачи минимизации издержек или максимизации прибыли. Допустим, что дано уравнение регрессии y=f(x). Частное производное по тому или иному фактору, приравненное к нулю, позволяет определить значение x, при котором достигается экстремум функции f (x)
дf/дx=0
Например при заданных ценах продукции и ценах ресурсов можно решить задачу максимизации прибыли.
Пусть цена продукта Py, цена ресурса Рx. Тогда общая величина издержек составит m+Px*x., где m – постоянные издержки. Прибыль составит:
П= РуУ-(m+PxX)
Максимальная величина прибыли достигается при условии:
дП/дх=0, которое легко решается.
Предположим, что y=b0+b1x1+b2x2, то прибыль соответственно равна, П= Ру(b0+b1x1+b2x2) –m-PxX
соответственно максимальная прибыль должна быть при
дП/дх= b1Py+2b2Pyx-Px
Если решить это уравнение относительно x, то получим:
x= (Px-b1Py)/cymm(b2Py)
2. На основе регрессионного уравнения можно определить предельную производительность факторов. Предельная производительность показывает сколько дополнительных единиц продукции приносит дополнительная единица затраченного фактора.
vi=дельтf(xi)/ дельтxi, в линейной модели y=а+bx дополнительный продукт является const и равен vi=bi- коэффициент регрессии.
В самом простом случае отношение дельт y/ дельт x зависит только от x и позволяет легко определять предельную эффективность для различных значений x.
4. Другой важный аналитический показатель, исследуемый на основе регрессионного уравнения коэффициент эластичности, который представляет собой соотношение темпа прироста продукции y того или иного фактора xm.
Коэффициент эластичности показывает насколько % изменится в среднем выход продукции при изменении данного фактора на 1% при неизменности других факторов.
Exm= (дельт y/y)/ (дельт xm/xm)= дельт y/ xm * xm/y
Например, для степенной функции y=аxb – коэффициент эластичности ЕХ=b.
Если выход продукции увеличивается в большей степени чем фактор, то коэффициент эластичности ЕХ>1.
Если продукция возрастает в меньшей степени чем фактор, то ЕХ<1.
5. Регрессионное уравнение используется для определения различных комбинаций значения факторов, при которых обеспечивается данный (фиксированный) выход продукции.
Для этого следует решить регрессионное уравнение относительно одного из факторов условно считая его зависимой переменной. Затем придавая y какое-либо фиксированное значение получаем ряд уравнений показывающих, какова должна быть величина данного фактора, чтобы при тех или иных значениях других факторов обеспечивалось заданное значение y.
Пример: Для двухфакторной параболической модели имеем
y=а+bx+cz+dx2+2ez2+fxz,
где x,z – независимые переменные;
b,c,d,e,f – коэффициенты регрессии;
а – свободный член регрессии.
,
.
Зафиксируем значение y=30, тогда получается уравнение . Подставляем в это уравнение различные значения z можно найти значения x, которое в комбинации с данными значениями обеспечивает выпуск продукции на уровне y=30.
Z | |||||||
X | 6,7 | 7,6 | 10,5 | 16,2 | 26,4 | 34,7 | 50,9 |
x
z
Полученное уравнение, характеризующее зависимость x от z при y=30 является аналитическим выражением изокванты продукта.
Изокванты показывают, что допускают различные сочетания значительных факторов, обеспечивающих одинаковый выход продукции.
Если одинаковое увеличение y может быть получено при различных значениях факторов, то можно считать эти факторы взаимозаменяемыми. В связи с возможностью замены факторов возникает вопрос о нормах замещения.
Предельная норма замещения вычисляется по формуле:
Предельная норма замещения показывает насколько нужно увеличить фактор xk, чтобы при уменьшении фактора xm выход продукции остался неизменным.
Приведенный пример не исчерпывает все возможные методы использования регрессионных уравнений.
Нелинейная регрессия.
равносторонняя гипербола , параболы второй степени и д.р. Различают два класса нелинейных регрессий:
• регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам;
• регрессии, нелинейные по оцениваемым параметрам.
Примером нелинейной регрессии по включаемым в нее объясняющим переменным могут служить следующие функции:
• полиномы разных степеней
• равносторонняя гипербола
К нелинейным регрессиям по оцениваемым параметрам относятся функции:
• степенная
• показательная
• экспоненциальная
Среди нелинейных функций, которые могут быть приведены к линейному виду, в эконометрических исследованиях очень широко используется степенная функция:
Связано это с тем, что параметр b в ней имеет четкое экономическое истолкование, т. е. он является коэффициентом эластичности. Это значит, что величина коэффициента b показывает, на сколько процентов изменится в среднем результат, если фактор изменится на 1 %.
Например, если зависимость спроса от цен характеризуется уравнением вида , то с увеличением цен на 1 % спрос снижается в среднем на 1,12 %.
В силу того, что коэффициент эластичности для нелинейной функции не является величиной постоянной, а зависит от соответствующего значения х, то обычно рассчитывается средний показатель эластичности по формуле:
Поскольку коэффициенты эластичности представляют экономический интерес, а виды моделей не ограничиваются только степенной функцией, приведем формулы расчета коэффициентов эластичности для наиболее распространенных типов уравнений регрессии.
КОЭФФИЦИЕНТЫ ЭЛАСТИЧНОСТИ ПО РАЗНЫМ ВИДАМ РЕГРЕССИОННЫХ МОДЕЛЕЙ.
1. Линейная.
2. Парабола 2 порядка
3. Гипербола
4. Показательная
5. Степенная
6. Полулогарифмическая
7. Логистическая
8. Обратная
Несмотря на широкое использование в эконометрике коэффициентов эластичности, возможны случаи, когда их расчет экономического смысла не имеет. Это происходит тогда, когда для рассматриваемых признаков бессмысленно определение изменения значений в процентах. Например, вряд ли кто будет определять, на сколько процентов может измениться заработная плата с ростом стажа работы на 1 %. Или, например, на сколько процентов изменится урожайность пшеницы, если качество почвы, измеряемое в баллах, изменится на 1 %.
Уравнение нелинейной регрессии, так же как и в линейной зависимости, дополняется показателем корреляции, а именно индексом корреляции (R): или
Величина данного показателя находится в границах: 0 ≤ R ≤ 1, чем ближе к единице, тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.
Поскольку в расчете индекса корреляции используется соотношение факторной и общей суммы квадратов отклонений, то R2 имеет тот же смысл, что и коэффициент детерминации. В специальных исследованиях величину R2 для нелинейных связей называют индексом детерминации.
Оценка существенности индекса корреляции проводится, так же как и оценка надежности коэффициента корреляции.
Индекс детерминации используется для проверки существенности в целом уравнения нелинейной регрессии по F-критерию Фишера:
где R2 - индекс детерминации; n - число наблюдений; т - число параметров при переменных х.
Величина т характеризует число степеней свободы для факторной суммы квадратов, а (n - т - 1) — число степеней свободы для остаточной суммы квадратов.
Индекс детерминации R2yx можно сравнивать с коэффициентом детерминации r2yx для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина коэффициента детерминации r2yx меньше индекса детерминации R2yx. Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически если величина (R2yx — г2yx) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различия R2yx, вычисленных по одним и тем же исходным данным, через t-критерий Стьюдента:
где m|R - r| - ошибка разности между R2yx и r2yx .
Если tфакт > tтабл., то различия между рассматриваемыми показателями корреляции существенны и замена нелинейной регрессии уравнением линейной функции невозможна. Практически если величина t < 2 , то различия между Ryx и ryx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.
Чтобы иметь общее суждение о качестве модели из относительных отклонений по каждому наблюдению, определяют среднюю ошибку аппроксимации как среднюю арифметическую простую.
Ошибка аппроксимации в пределах 5—7 % свидетельствует о хорошем подборе модели к исходным данным.