Понятие парной регрессии
Регрессией в теории вероятностей и математической статистике принятоназывать зависимость среднего значения какой-либо величины (y) от некоторой другой величины или от нескольких величин (хi).
Парной регрессией называется модель, выражающая зависимость средне-го значения зависимой переменной y от одной независимой переменной х
yˆ f (x), | (2.1) |
где у– зависимая переменная (результативный признак);х– независимая, объясняющая переменная (признак–фактор).
Парная регрессия применяется, если имеется доминирующий фактор, обу-славливающий большую долю изменения изучаемой объясняемой переменной, который и используется в качестве объясняющей переменной.
Множественной регрессией называют модель, выражающую зависимость среднего значения зависимой переменной y от нескольких независимых пере-
менных х1,х2, …,хp | |
ŷ = f (x1,x2,...,xp). | (2.2) |
Множественная регрессия применяется в ситуациях , когда из множества факторов, влияющих на результативный признак, нельзя выделить один доми-нирующий фактор и необходимо учитывать одновременное влияние несколь-ких факторов.
Используя уравнение регрессии (2.1), соотношение между значениями пе-ременными у и х(модель связи) можно записать как
y f (x) , | (2.3) |
где первое слагаемое f(x) можно интерпретировать как ту часть значения y, ко-торая объяснена уравнением регрессии (2.1), а второе слагаемое ε как необъяс-ненную часть значения y( или возмущение). Соотношение между этими частя-ми характеризует качество уравнения регрессии, его способность представлять зависимость между переменными х и y. При построении уравнения регрессии ε рассматривается как ошибка модели, представляющая собой случайную вели-чину, удовлетворяющую определенным предположениям.
Наличие составляющей ε обусловлено такими причинами, как наличие до-полнительных факторов, оказывающих влияние на переменную y, неверный вид функциональной зависимости f(x), ошибки измерения, выборочный харак-тер исходных данных.
По виду аналитической зависимости различают линейные и нелинейные регрессии.
Линейная парная регрессия описывается уравнением:
yˆ a b x . | (2.4) | ||||||
Примеры наиболее часто используемых нелинейных регрессий: | |||||||
– полиномы разных степенейyˆ | x | a b | x b | x2 b x3 | , | ||
– равносторонняя гиперболаyˆ abx ,
– степенная | yˆ a xb | |||
– экспоненциальная | yˆ ea b x, | |||
– | показательная | ŷ = a·bx, | ||
yˆ | K | |||
– | логистическая | . | ||
1 a ebt |
Построение уравнения регрессии
Постановка задачи
Постановка задачи: по имеющимся данным n наблюдений за совместным изменением двух переменных показателей x и y{(xi,yi),i=1,2,...,n} необходимо определить аналитическую зависимость ŷ=f(x), наилучшим образом описы-вающую данные наблюдений.
Результаты наблюдений удобно представлять в виде таблицы
Таблица 2.1
Данные наблюдений
x | y | |
x1 | y1 | |
x2 | y2 | |
… | … | … |
n | xn | yn |
Каждая строка таблицы представляет собой результат одного наблюдения (xi,yi). Поясним понятие зависимости ŷ=f(x), наилучшим образом описывающей данные наблюдений. Значения xi,yi из каждой строки можно рассматривать как координаты точки (xi,yi) на координатной плоскости xy. Совокупность всех то-
чек составляют, так называемое, поле корреляций (рис. 2.1).
y
x
Рис. 2.1. Поле корреляций
y
x
Рис. 2.2. Лучшая линейная регрессия
Зависимости ŷ=f(x) соответствует некоторая кривая на плоскости. Чем ближе данная кривая подходит ко всем точкам поля корреляций, тем лучше за-висимость ŷ=f(x) описывает исходные данные.
Для формализации этого понятия рассмотрим разность между еi расчетны-ми (теоретическими, модельными)ŷi=f(xi) и наблюдаемыми yi значениями
еi= ŷ i–yi.Наилучшей будем считать такую зависимость,для которой суммаквадратов отклонений принимает минимальное значение, т. е.
S yˆi yi2min . (2.5)
Построение уравнения регрессии предполагает решение двух задач (или, другими словами, осуществляется в два этапа):
1) спецификация модели (выбор вида аналитической зависимости ŷ=f(x));
2) оценка параметров выбранной модели (определение численных значе-ний параметров на основе массива наблюдений).
Спецификация модели
Парная регрессия применяется для моделирования зависимости, если име-ется доминирующий фактор, который и используется в качестве объясняющей переменной.
Для выбора вида аналитической зависимости можно использовать сле-дующие методы:
– графический (вид зависимости определяется на основе анализа полякорреляций);
– аналитический (на основе качественного анализа изучаемой взаимосвязи);
– экспериментальный (построение нескольких моделей различного вида свыбором наилучшей согласно применяемому критерию качества).
Визуальный анализ поля корреляций (рис. 2.1) позволяет определить фор-му кривой регрессии, ее особенности. Зная типичный вид графиков различных функций можно подобрать соответствующую аналитическую зависимость.
Примером применения аналитического метода может служить зависимость между затратами (y) и объемом производства (x). Считая, что затраты прямо пропорциональны объему производства, зависимость между ними можно пред-ставить в виде линейной функции
y = a + b·x,
где a– часть затрат, не зависящая от объема производства,b– дополнительные затраты на производство единицы продукции.
Разделив обе части последнего уравнения на объем производства x, полу-чим зависимость удельных затрат (z =y/x) на производство единицы продукции от объема производства
z y b a. x x
При построении модели зависимости спроса товар от его цены при выборе вида зависимости следует учитывать, что при увеличении цены спрос падает. В этом случае могут использоваться следующие зависимости:
y = a – b·x, | (b>0); | |||
y | , | (b>0); | ||
a bx | ||||
y ea bx, | (b>0). |
Если из соображений экономической теории следует, что величина изме-нения зависимой переменной y пропорциональна значению независимой пере-
менной x, то можно выбрать полиномиальную, степенную или показательную зависимости (см. п. 2.1).
Если предполагается, что значение зависимой переменной y при увеличе-нии значения независимой переменной x не может превысить некоторого пре-
дела, то можно выбрать гиперболическую yˆa | b | или логистическую | |||||
K | x | ||||||
yˆ | зависимости. | ||||||
1 a ebt |
В случае, если в рассматриваемой области изменения фактора x результа-тивная переменная y принимает минимальное или максимальное значение, в уравнение регрессии включают переменные x не только первой, но и второй степени, например
y = a + b1x + b2x2.
В качестве критерия качества модели может использоваться либо средняя
квадратическая ошибка модели | êâ | 1 | yˆi yi2 | , либо остаточная диспер- | ||||
1 | n | |||||||
сия Dîñò | yˆi yi2. | |||||||
n |
Этот подход легко реализуем при наличии соответствующих вычисли-тельных средств. Но он не является определяющим, так как в эконометрике бо-лее важным является не способность модели соответствовать имеющемуся мас-сиву данных наблюдений, а ее способность раскрывать существующие законо-мерности в экономических явлениях и процессах и интерпретация полученных с ее помощью результатов.
2.3. Оценка параметров линейной парной регрессии | |
Линейная парная регрессия описывается уравнением: | |
yˆ a b x , | (2.6) |
согласно которому изменение y переменной y прямо пропорционально изме-нению x переменной x(y=b·x).
Для оценки параметров a и b уравнения регрессии (2.6) воспользуемся методом наименьших квадратов (МНК). При определенных предположениях относительно ошибки ε МНК дает наилучшие оценки параметров линейной
модели | |
y a b x . | (2.7) |
Согласно МНК, выбираются такие значения параметров а и b, при которых сумма квадратов отклонений фактических значений результативного признака yiот теоретических значенийŷi= f(xi) (при тех же значениях фактора xi)мини-мальна, т. е.
S yˆi yi2min . (2.8)
С учетом вида линейной парной регрессии (2.6) величина S является функ-цией неизвестных параметров а и b
x 2 |
S = Σ(yia b·xi)2 = S(а,b). | (2.9) | ||||
Следовательно, оптимальные значения параметров а и b удовлетворяют | |||||
условиям | |||||
S | 0; | S | 0. | (2.10) | |
a | b | ||||
Выполняя соответствующие вычисления, получим для определения пара-метров а и b следующую систему уравнений
S = 2Σ(yia b·xi) = 0,
a
S = 2bΣ(yia b·xi) = 0,
b
откуда после некоторых преобразований получается система нормальных урав-нений метода наименьших квадратов
na b | x | i | y | , | |||||||||||||||||||
i | |||||||||||||||||||||||
x | b | x2 | y | x | . | ||||||||||||||||||
a | i | ||||||||||||||||||||||
i | i | i | |||||||||||||||||||||
Используя соотношения n | n | n | xi2, | ||||||||||||||||||||
x2 | |||||||||||||||||||||||
(2.8) получим | |||||||||||||||||||||||
a b | |||||||||||||||||||||||
yx. | |||||||||||||||||||||||
a |
(2.11)
n yx yi xiиз
(2.12)
Откуда следуют следующие выражения для определения параметров а и b
a | | . | |||||
y x | (2.13) | ||||||
Формулу для параметра b можно представить следующим образом
1 | (xi | |||||||
cov(x, y) | n | |||||||
b | i | . | (2.14) | |||||
x | x | |||||||
Рассмотрим интерпретацию параметров уравнения линейной регрессии. Коэффициент b при факторной переменной x показывает насколько изме-
нится в среднем величина y при изменении фактора x на единицу. Например, допустим, что зависимость между затратами (тыс. руб.) и объемом выпуска продукции описывается соотношением
y = 35000+0,58·x.
В этом случае увеличение объема выпуска на 1 единицу потребует дополни-тельных затрат на 580 рублей.
Что касается свободного члена a в уравнении (2.6), то в случае, когда пе-ременная x представляет собой время, он показывает уровень явления в на-чальный момент времени. В других случаях, параметр a может не иметь эконо-мической интерпретации.