Необходимость модели множественной регрессии
Парная регрессия может дать хороший результат при моделировании, если влиянием других факторов, воздействующих на объект исследования, можно пренебречь. Например, при построении модели зависимости потребления того или иного товара от дохода исследователь предполагает, что в каждой группе дохода одинаково влияние на потребление таких факторов, как цена товара, размер семьи, ее состав.
Вместе с тем исследователь никогда не может быть уверен в справедливости данного предположения. Для того чтобы иметь правильное представление о влиянии дохода на потребление, необходимо изучить их корреляцию при неизменном уровне других факторов. Прямой путь решения такой задачи состоит в отборе единиц совокупности с одинаковыми значениями всех других факторов, кроме дохода. Он приводит к планированию эксперимента — методу, который используется в химических, физических, биологических исследованиях.
Экономист, в отличие от экспериментатора-естественника, лишен возможности регулировать другие факторы. Поведение отдельных экономических переменных контролировать нельзя, т.е. не удается обеспечить равенство всех прочих условий для оценки влияния одного исследуемого фактора. В этом случае следует попытаться выявить влияние других факторов, введя их в модель, т.е. построить уравнение множественной регрессии:
(5.1)
Множественная регрессия широко используется в решении проблем спроса, доходности акций, изучении функции издержек производства, в макроэкономических расчетах и целого ряда других вопросов эконометрики. В настоящее время множественная регрессия — один из наиболее распространенных методов в эконометрике . Основная цель множественной регрессии — построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.
Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели, включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.
Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:
· должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости);
· не должны быть интеркоррелированы и, тем более, находиться в точной функциональной связи.
Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.
Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором р-факторов, то для нее рассчитывается показатель детерминации R2 , который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р-факторов. Влияние других, неучтенных в модели факторов, оценивается как 1 - R2 с соответствующей остаточной дисперсией S2 .
При дополнительном включении в регрессию фактора (р + 1) коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться:
и (5.2)
Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор xp + 1 не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по t-критерию Стьюдента .
Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой — подбирают факторы, исходя из сущности проблемы; на второй — на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.
Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными ) позволяют исключать из модели дублирующие факторы. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии . Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.
По величине парных коэффициентов корреляции может обнаруживаться лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью , т.е. имеет место совокупное воздействие факторов друг на друга.
Наличие мультиколлинеарности факторов может означать, что некоторые факторы будут всегда действовать в унисон. В результате вариация в исходных данных перестает быть полностью независимой и нельзя оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов (МНК) .
Если рассматривается регрессия для расчета параметров, применяя МНК, то предполагается, что , то равенство будет:
(5.3)
где Sy — общая сумма квадратов отклонений
SФАКТ — факторная (объясненная) сумма квадратов отклонений
— остаточная сумма квадратов отклонений
В свою очередь, при независимости факторов друг от друга выполнимо равенство:
SФАКТ = Sx + Sz + Sv (5.4)
где Sx , Sz , Sv — суммы квадратов отклонений, обусловленные влиянием соответствующих факторов.
Если же факторы интеркоррелированы, то данное равенство нарушается. Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:
· затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в чистом виде, ибо факторы коррелированы; параметры линейной регрессии теряют экономический смысл;
· оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.
Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы были бы равны нулю.
Чем ближе к нулю определитель матрицы межфакторной корреляции , тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к единице определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.
Оценка значимости мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных.
Через коэффициенты множественной детерминации можно найти переменные, ответственные за мультиколлинеарность факторов. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение коэффициента множественной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов, можно выделить переменные, ответственные за мультиколлинеарность, следовательно, можно решать проблему отбора факторов, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации.