Понятие о множественной регрессии. Классическая линейная модель множественной регрессии (КЛММР). Определение параметров уравнения множественной регрессии методом наименьших квадратов.
Парная регрессия используется при моделировании, если влиянием других факторов, воздействующих на объект исследования можно пренебречь.
Например, при построении модели потребления того или иного товара от дохода, исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав. Однако, уверенности в справедливости данного утверждения нет.
Прямой путь решения такой задачи состоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планированию эксперимента – метод, который используется в естественнонаучных исследованиях. Экономист лишен возможности регулировать другие факторы. Поведение отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство прочих условий для оценки влияния одного исследуемого фактора.
Как поступить в этом случае? Надо выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии.
Такого рода уравнения используется при изучении потребления.
Коэффициенты bj – частные производные у по факторами хi
при условии, что все остальные хi = const
Рассмотрим современную потребительскую функцию (впервые 30е годы предложил Кейнс Дж.М.) как модель вида С = f(y,P,M,Z)
c- потребление. у – доход
P – цена, индекс стоимости.
M – наличные деньги
Z – ликвидные активы
При этом
Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функций издержек производства, в макроэкономических вопросах и других вопросах эконометрики.
В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике.
Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого их них в отдельности, а также совокупное воздействие на моделируемый показатель.
Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели. Она включает в себя два круга вопросов:
1. Отбор факторов;
2. Выбор уравнения регрессии.
Включение в уравнение множественной регрессии того или иного набора факторов связано с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Требования к факторам, включаемым во множественную регрессию:
1. они должны быть количественно измеримы, если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости: районы должны быть проранжированы).
2. факторы не должны быть интеркоррелированы и тем более находиться в точной функциональной связи.
Включение в модель факторов с высокой интеркорреляцией, когда Rуx1<Rx1x2 для зависимости может привести к нежелательным последствиям – система нормальных уравнений может оказаться плохо обусловленной и повлечь за собой неустойчивость и ненадежность оценок коэффициентов регрессии.
Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются интерпретируемыми.
В уравнение предполагается, что факторы х1 и х2 независимы друг от друга, rх1х2 = 0, тогда параметр b1 измеряет силу влияния фактора х1 на результат у при неизменном значении фактора х2. Если rх1х2 =1, то с изменением фактора х1 фактор х2 не может оставаться неизменным. Отсюда b1 и b2 нельзя интерпретировать как показатели раздельного влияния х1 и х2 и на у.
Пример, рассмотрим регрессию себестоимости единицы продукции у (руб.) от заработной платы работника х (руб.) и производительности труда z (ед. в час).
у = 22600 - 5x - 10z + e
коэффициент b2 = -10, показывает, что с ростом производительности труда на 1 ед. себестоимость единицы продукции снижается на 10 руб. при постоянном уровне оплаты.
Вместе с тем параметр при х нельзя интерпретировать как снижение себестоимости единицы продукции за счет роста заработной платы. Отрицательное значение коэффициента регрессии при переменной х обусловлено высокой корреляцией между х и z (rхz = 0,95). Поэтому роста заработной платы при неизменности производительности труда (не учитывая инфляции) быть не может.
Включенные во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строиться модель с набором р факторов, то для нее рассчитывается показатель детерминации R2, которая фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других неучтенных в модели факторов оценивается как 1-R2 c соответствующей остаточной дисперсией S2.
При дополнительном включении в регрессию р+1 фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшается.
R2p+1≥ R2p и S2p+1 ≤ S2p.
Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включенный в анализ фактор xр+1 не улучшает модель и практически является лишним фактором.
Если для регрессии, включающей 5 факторов R2 = 0,857, и включенный 6 дало R2 = 0,858, то нецелесообразно включать в модель этот фактор.
Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической не значимости параметров регрессии по критерию t-Стьюдента.
Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости.
Отбор факторов производиться на основе теоретико-экономического анализа. Однако, он часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов осуществляется в две стадии:
на первой – подбирают факторы, исходя из сущности проблемы.
на второй – на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.
Коэффициенты интеркоррелиции (т.е. корреляция между объясняющими переменными) позволяют исключить из моделей дублирующие факторы. Считается, что две переменные явно коллинеарны, т.е. находятся между собой в линейной зависимости, если rxixj ≥0,7.
Поскольку одним из условий построения уравнения множественной регрессии является независимость действия факторов, т.е. rхixj = 0, коллинеарность факторов нарушает это условие. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому фактору, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.
Рассмотрим матрицу парных коэффициентов корреляции при изучении зависимости у = f(x, z, v)
y | x | z | V | |
Y | ||||
X | 0,8 | |||
Z | 0,7 | 0,8 | ||
V | 0,6 | 0,5 | 0,2 |
Очевидно, факторы x и z дублируют друг друга. В анализ целесообразно включит фактор z, а не х, так как корреляция z с у слабее чем корреляция фактора х с у (rуz < rух), но зато слабее межфакторная корреляция ( rzv< rхv)
Поэтому в данном случае в уравнение множественной регрессии включает факторы z и v . По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Но наиболее трудности возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга. Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой, и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарности факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК. Если рассмотренная регрессия у = a + bx + cx + dv + e, то для расчета параметров, применяется МНК:
Sy = Sфакт +Se
или = +
общая сумма = факторная + остаточная
Квадратов отклонений
В свою очередь, при независимости факторов друг от друга, выполнимо равенство:
S = Sx +Sz + Sv
Суммы квадратов отклонения, обусловленных влиянием соответствующих факторов.
Если же факторы интеркоррелированы, то данное равенство нарушается.
Включение в модель мультиколлинеарных факторов нежелательно в силу следующего:
· затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;
· оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
Для оценки мультиколлинеарных факторов будем использовать определитель матрицы парных коэффициентов корреляции между факторами. Если бы факторы не коррелировали между собой, то матрица парных коэффициентов была бы единичной.
y = a + b1x1 + b2x2 + b3x3 + e
Если же между факторами существует полная линейная зависимость, то:
Чем ближе к 0 определитель, тем сильнее межколлинеарность факторов и ненадежны результаты множественной регрессии. Чем ближе к 1, тем меньше мультиколлинеарность факторов.
Оценка значимости мультиколлинеарности факторов может быть проведена методами испытания гипотезы 0 независимости переменных H0:
Доказано, что величина имеет приближенное распределение с степенями свободы. Если фактически значение превосходит табличное (критическое) то гипотеза H0 отклоняется. Это означает, что , недиагональные коэффициенты указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.
Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение R2 к 1, тем сильнее проявляется мультиколлинеарность. Сравнивая между собой коэффициенты множественной детерминации и т.п.
Можно выделить переменные, ответственные за мультиколлинеарность, следовательно, решить проблему отбора факторов, оставляя в уравнения факторы с минимальной величиной коэффициента множественной детерминации.
Существует ряд походов преодоления сильной межфакторной корреляции. Самый простой путь устранения МК состоит в исключении из модели одного или несколько факторов.
Другой подход связан с преобразованием факторов, при котором уменьшается корреляция между ними.
Если y = f(x1, x2, x3), то возможно построение следующего совмещенного уравнения:
у = a + b1x1 + b2x2 + b3x3 + b12x1x2 + b13x1x3 + b23x2x3 + e.
Это уравнение включает взаимодействие первого порядка (взаимодействие двух факторов).
Возможно включение в уравнение взаимодействий и более высокого порядка, если будет доказано их статистически значимость по F-критерию
b123x1x2х3 – взаимодействие второго порядка.
Если анализ совмещенного уравнения показал значимость только взаимодействия факторов х1 и х3, то уравнение будет имеет вид:
у = a + b1x1 + b2x2 + b3x3 + b13x1x3 + e.
Взаимодействие факторов х1 и х3 означает, что на разных уровнях фактора х3 влияние фактора х1 на у будет неодинаково, т.е. оно зависит от значения фактора х3. На рис. 3.1 взаимодействие факторов представляет непараллельными линями связи с результатом у. И наоборот, параллельные линии влияние фактора х1 на у при разных уровнях фактора х3 означают отсутствие взаимодействия факторов х1 и х3.
(х3=В2) |
(х3=В1) |
(х3=В1) |
(х3=В2) |
у |
у |
1 |
х1 |
а |
б |
у |
у |
Х1 |
Х1 |
Рис 3.1. Графическая иллюстрация взаимодействия факторов.
а - х1 влияет на у, причем это влияние одинаково при х3=В1, так и при х3=В2 (одинаковый наклон линий регрессии), что означает отсутствие взаимодействия факторов х1 и х3;
б – с ростом х1 результативный признак у возрастает при х3=В1, с ростом х1 результативный признак у снижается при х3=В2. Между х1 и х3 существует взаимодействие.
Совмещенные уравнения регрессии строятся, например, при исследовании эффекта влияния на урожайность разных видов удобрений (комбинации азота и фосфора).
Решению проблемы устранения мультиколлинеарности факторов может помочь и переход к устранениям приведенной формы. С этой целью в уравнение регрессии производится подстановка рассматриваемого фактора через выражение его из другого уравнения.
Пусть, например, рассматривается двухфакторная регрессия вида a + b1x1 + b2x2, для которой x1 и x2 обнаруживают высокую корреляцию. Если исключить один из факторов, то мы придем к уравнению парной регрессии. Вместе с тем можно оставить факторы в модели, но исследовать данное двухфакторное уравнение регрессии совместно с другим уравнением, в котором фактор (например х2) рассматривается как зависимая переменная. Предположим, известно, что . Постановляя это уравнение в искомое вместо х2, получим:
Или
Если , то разделив обе части равенства на , получаем уравнение вида:
,
которое представляет собой приведенную форму уравнения для определения результативного признака у. Это уравнение может быть представлено в виде:
.
К нему для оценки параметров может быть применен МНК.
Отбор факторов, включаемых в регрессию, является одним из важнейших этапов практического использования методов регрессии. Походы к отбору факторов на основе показателей корреляции могут быть разные. Они приводят построение уравнения множественной регрессии соответственно разным методикам. В зависимости от того, какая методика построение уравнения регрессии принята, меняется алгоритм ее решения на ЭВМ.
Наиболее широкое применение получили следующие методы построение уравнения множественной регрессии:
· метод исключения;
· метод включения;
· шаговый регрессионный анализ.
Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты – отсев факторов из полного его отбора (метод исключение), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).
На первый взгляд может показаться, что матрица парных коэффициентов корреляции играет главную роль в отборе факторов. Вместе с тем вследствие взаимодействия факторов парные коэффициенты корреляции не могут в полной мере решать вопрос о целесообразности включения в модель того или иного фактора. Эту роль выполняют показатели частной корреляции, оценивающие в чистом виде тесноту связи фактора с результатом. Матрица частных коэффициентов корреляции наиболее широко используется процедура отсева фактора. При отборе факторов рекомендуется пользоваться следующим правилом: число включаемых факторов обычно в 6-7 раз меньше объема совокупности, по которой строит регрессии. Если это отношение нарушено, то число степеней свободы остаточной вариаций очень мало. Это приводит к тому, что параметры уравнения регрессии оказываются статистически незначимыми, а F-критерий меньше табличного значения.
Классическая линейная модель множественной регрессии (КЛММР):
где y – регрессанд; xi – регрессоры; u – случайная составляющая.
Модель множественной регрессии является обобщением модели парной регрессии на многомерный случай.
Независимые переменные (х) предполагаются не случайными (детерминированными) величинами.
Переменная х1 = xi1 = 1 называется вспомогательной переменной для свободного члена и еще в уравнениях она называется параметром сдвиги.
«y» и «u» в (2) являются реализациями случайной величины.
- называется также параметром сдвига.
Для статистической оценки параметров регрессионной модели необходим набор (множество) данных наблюдений независимых и зависимых переменных. Данные могут быть представлены в виде пространственных данных или временных рядов наблюдений. Для каждого из таких наблюдений согласно линейной модели можно записать:
Векторно-матричная запись системы (3).
Введем следующие обозначения:
вектор-столбец независимой переменной (регрессанда)
размерность матрицы (n·1)
Матрица наблюдений независимых переменных (регрессоров):
размер (n×k)
Вектор-столбец параметров:
- матричная запись системы уравнений (3). Она проще и компактнее.
Сформируем предпосылки, которые необходимы при выводе уравнении для оценок параметров модели, изучения их свойств и тестирования качества модели. Эти предпосылки обобщают и дополняют предпосылки классической модели парной линейной регрессии (условия Гаусса – Маркова).
Предпосылка 1.независимые переменныене случайны и измеряются без ошибок. Это означает, что матрица наблюдений Х – детерминированная.
Предпосылка 2. (первое условие Гаусса – Маркова): Математическое ожидание случайной составляющей в каждом наблюдении равно нулю.
Предпосылка 3. (второе условие Гаусса – Маркова): теоретическая дисперсия случайной составляющей одинакова для всех наблюдений.
(Это гомоскедастичность)
Предпосылка 4. (третье условие Гаусса – Маркова): случайные составляющие модели не коррелированны для различных наблюдений. Это означает, что теоретическая ковариация
Предпосылки (3) и (4) удобно записать, используя векторные обозначения:
матрица - симметричная матрица. - единичная матрица размерности n, верхний индекс Т – транспонирование.
Матрица называется теоретической матрицей ковариаций (или ковариационной матрицей).
Предпосылка 5. (четвертое условие Гаусса – Маркова): случайная составляющая и объясняющие переменные не коррелированны (для модели нормальной регрессии это условие означает и независимость). В предположении, что объясняющие переменные не случайные, эта предпосылка в классической регрессионной модели всегда выполняется.
Предпосылка 6. коэффициенты регрессии – постоянные величины.
Предпосылка 7. уравнение регрессии идентифицируемо. Это означает, что параметры уравнения в принципе оцениваемы, или решение задачи оценивания параметров существует и единственно.
Предпосылка 8. регрессоры не коллинеарны. В таком случае матрица наблюдений регрессоров должна быть полного ранга. (ее столбцы должны быть линейно независимы). Данная предпосылка тесно связана с предыдущей, так как при применении для оценивания коэффициентов МНК ее выполнение гарантирует идентифицируемость модели (если количество наблюдений больше количества оцениваемых параметров).
Предпосылка 9. Количество наблюдений больше количества оцениваемых параметров, т.е. n>k.
Все эти 1-9 предпосылки одинаково важны, и только при их выполнении можно применять классическую регрессионную модель на практике.
Предпосылка о нормальности случайной составляющей. При построении доверительных интервалов для коэффициентов модели и прогнозов зависимой переменной, проверки статистических гипотез относительно коэффициентов, разработке процедур для анализа адекватности (качества) модели в целом необходимо предположение о нормальном распределении случайной составляющей. С учетом этой предпосылки модель (1) называется классической многомерной линейной моделью регрессии.
Если предпосылки не выполняются, то необходимо строить так называемые обобщенные модели линейной регрессии. От того, насколько корректно (правильно) и осознанно используются возможности регрессионного анализа, зависит успех эконометрического моделирования, и, в конечном счете, обоснованность принимаемых решений.
Для построения уравнения множественной регрессии чаще используются следующие функции
1. линейная: .
2. степенная: .
3. экспоненциальная: .
4. гипербола:
В виду четкой интерпретации параметров наиболее широко используются линейная и степенная функции. В линейной множественной регрессии параметры при Х называются коэффициентами «чистой» регрессии. Они характеризуют среднее изменение результата с изменением соответствующего фактора на единицу при неизменном значении других факторов, закрепленных на среднем уровне.
Пример. Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:
где у – расходы семьи за месяц на продукты питания, тыс.руб.;
х1 – месячный доход на одного члена семьи, тыс.руб.;
х2 – размер семьи, человек.
Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при томже размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Параметр а - не имеет экономической интерпретации.
При изучении вопросов потребления коэффициенты регрессии рассматривают как характеристики предельной склонности к потреблению. Например, если функции потребления Сt имеет вид:
Сt = a+b0 Rt + b1 Rt-1 +e,
то потребление в период времени t зависит от дохода того же периода Rt и от дохода предшествующего периода Rt-1. Соответственно коэффициент b0 обычно называют краткосрочной предельной склонностью к потреблению. Общим эффектом возрастания как текущего, так и предыдущего дохода будет рост потребления на b= b0 + b1. Коэффициент b рассматривается здесь как долгосрочная склонность к потреблению. Так как коэффициенты b0 и b1 >0, то долгосрочная склонность к потреблению должна превосходить краткосрочную b0. Например, за период 1905 – 1951 гг. (за исключением военных лет) М.Фридман построил для США следующую функцию потребления: Сt = 53+0,58 Rt+0,32 Rt-1 с краткосрочной предельной склонностью к потреблению 0,58 и с долгосрочной склонностью к потреблению 0,9.
Функция потребления может рассматриваться также в зависимости от прошлых привычек потребления, т.е. от предыдущего уровня потребления
Сt-1: Сt = a+b0 Rt +b1 Сt-1 +e,
В этом уравнении параметр b0 также характеризует краткосрочную предельную склонность к потреблению, т.е. влияние на потребление единичного роста доходов того же периода Rt. Долгосрочную предельную склонность к потреблению здесь измеряет выражение b0/(1- b1).
Так, если уравнение регрессии составило:
Сt = 23,4+0,46 Rt +0,20 Сt-1 +e,
то краткосрочная склонность к потреблению равна 0,46, а долгосрочная – 0,575 (0,46/0,8).
В степенной функции коэффициенты bj являются коэффициентами эластичности. Они показывают, на сколько процентов изменяется в среднем результат с изменением соответствующего фактора на 1% при неизменности действия других факторов. Этот вид уравнения регрессии получил наибольшее распространение в производственных функциях, в исследованиях спроса и потребления.
Предположим, что при исследовании спроса на мясо получено уравнение:
где у – количество спрашиваемого мяса; х1 – его цена; х2 – доход.
Следовательно, рост цен на 1% при том же доходе вызывает снижение спроса на мясо в среднем на 2.63%. Увеличение дохода на 1% обуславливает при неизменных ценах рост спроса на 1.11%.
В производственных функциях вида:
где P – количество продукта, изготавливаемого с помощью m производственных факторов (F1, F2, ……Fm).
b – параметр, являющийся эластичностью количества продукции по отношению к количеству соответствующих производственных факторов.
Экономический смысл имеют не только коэффициенты b каждого фактора, но и их сумма, т.е. сумма эластичностей: В = b1 +b2+……+bm. Эта величина фиксирует обобщенную характеристику эластичности производства. Производственная функция имеет вид
где Р – выпуск продукции; F1 – стоимость основных производственных фондов; F2 - отработано человеко-дней; F3 – затраты на производство.
Эластичность выпуска по отдельным факторам производства составляет в среднем 0,3% с ростом F1 на 1% при неизменном уровне других факторов; 0,2% - с ростом F2 на 1% также при неизменности других факторов производства и 0,5% с ростом F3 на 1% при неизменном уровне факторов F1 и F2. Для данного уравнения В = b1 +b2+b3 = 1. Следовательно, в целом с ростом каждого фактора производства на 1% коэффициент эластичности выпуска продукции составляет 1%, т.е. выпуск продукции увеличивается на 1%, что в микроэкономике соответствует постоянной отдаче на масштаб.
При практических расчетах не всегда . Она может быть как больше, так и меньше 1. В этом случае величина В фиксирует приближенную оценку эластичности выпуска с ростом каждого фактора производства на 1% в условиях увеличивающейся (В>1) или уменьшающейся (В<1) отдачи на масштаб.
Так, если , то с ростом значений каждого фактора производства на 1% выпуск продукции в целом возрастает приблизительно на 1.2%.
При оценке параметров модели по МНК мерой (критерием) количества подгонки эмпирической регрессионной модели к наблюдаемой выборке служит сумма квадратов ошибок (остатков).
где е = (e1,e2,…..en)T;
Для уравнения применили равенство: .
- скалярная функция;
Система нормальных уравнений (1) содержит k линейных уравнений относительно k неизвестных i = 1,2,3……k
= (2)
Перемножив (2) получим развернутую форму записи систем нормальных уравнений
Оценка коэффициентов
Стандартизированные коэффициенты регрессии, их интерпретация. Парные и частные коэффициенты корреляции. Множественный коэффициент корреляции. Множественный коэффициент корреляции и множественный коэффициент детерминации. Оценка надежности показателей корреляции.
Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). При его применении строится система нормальных уравнений, решение которой и позволяет получить оценки параметров регрессии.
Так, для уравнения система нормальных уравнений составит:
Ее решение может быть осуществлено методом определителей:
, ,…, ,
где D – главный определитель системы;
Dа, Db1, …, Dbp – частные определители.
При этом
а Dа, Db1, …, Dbp получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.
Возможен и иной подход в определении параметров множественной регрессии, когда на основе матрицы парных коэффициентов корреляции строится уравнение регрессии в стандартизованном масштабе:
где - стандартизованные переменные , для которых среднее значение равно нулю , а среднее квадратическое отклонение равно единице: ;
- стандартизованные коэффициенты регрессии.
Применяя МНК к уравнению множественной регрессии в стандартизованном масштабе, после соответствующих преобразований получим систему нормальных вида
Решая ее методом определителей, найдем параметры – стандартизованные коэффициенты регрессии (b-коэффициенты).
Стандартизованные коэффициенты регрессии показывают, на сколько сигм изменится в среднем результат, если соответствующий фактор хi изменится на одну сигму при неизменном среднем уровне других факторов. В силу того, что все переменные заданы как центрированные и нормированные, стандартизованные коэффициенты регрессии bI сравнимы между собой. Сравнивая их друг с другом, можно ранжировать факторы по силе их воздействия. В этом основное достоинство стандартизованных коэффициентов регрессии в отличие от коэффициентов «чистой» регрессии, которые несравнимы между собой.
Пример. Пусть функция издержек производства у (тыс. руб.) характеризуется уравнением вида
где х1 – основные производственные фонды;
х2 – численность занятых в производстве.
Анализируя его, мы видим, что при той же занятости дополнительный рост стоимости основных производственных фондов на 1 тыс. руб. влечет за собой увеличение затрат в среднем на 1,2 тыс. руб., а увеличение численности занятых на одного человека способствует при той же технической оснащенности предприятий росту затрат в среднем на 1,1 тыс. руб. Однако это не означает, что фактор х1 оказывает более сильное влияние на издержки производства по сравнению с фактором х2. Такое сравнение возможно, если обратиться к уравнению регрессии в стандартизованном масштабе. Предположим, оно выглядит так:
Это означает, что с ростом фактора х1 на одну сигму при неизменной численности занятых затрат на продукцию увеличиваются в среднем на 0,5 сигмы. Так как b1 < b2 (0,5 < 0,8), то можно заключить, что большее влияние оказывает на производство продукции фактор х2, а не х1, как кажется из уравнения регрессии в натуральном масштабе.
В парной зависимости стандартизованный коэффициент регрессии есть не что иное, как линейный коэффициент корреляции rxy. Подобно тому, как в парной зависимости коэффициент регрессии и корреляции связаны между собой, так и в множественной регрессии коэффициенты «чистой» регрессии bi связаны со стандартизованными коэффициентами регрессии bi, а именно:
(3.1)
Это позволяет от уравнения регрессии в стандартизованном масштабе
(3.2)
переход к уравнению регрессии в натуральном масштабе переменных:
Параметр а определяется к