Пример решения задачи 2 с использованием программного продукта Minitab
Для точного прогнозирования зависимой переменной часто требуется знать значения более чем одной независимой переменной. Регрессионные модели с более чем одной независимой переменной называются моделями многомерной регрессии. Большинство понятий, введенных для простой линейной регрессии, распространяется и на многомерную регрессию.
Новая независимая переменная не должна быть тесно связана с уже использованной независимой переменной. Если две независимые переменные тесно связаны, то они будут объяснять одну и ту же изменчивость, и поэтому добавление второй переменной не позволит улучшить прогнозирование.
В таких областях, как эконометрика и прикладная статистика, значительная часть возникающих проблем связана как раз с взаимной корреляцией между независимыми переменными. Подобное состояние обычно называют мультиколлинеарностью. Простое решение проблемы наличия двух тесно связанных независимых переменных состоит в том, чтобы не использовать их вместе. Проблема мультиколлинеарности будет рассмотрена ниже.
Таким образом, выделяют следующие признаки независимой переменной:
- связана с зависимой переменной;
- не имеет тесной связи с любой другой независимой переменной.
Для оценки переменных используют корреляционную матрицу. Корреляционная матрица составляется из коэффициентов корреляции, вычисленных для каждой возможной пары переменных.
Пример корреляционной матрицы приведен в табл. 8.
Таблица 8 – Пример корреляционной матрицы
Переменные | |||
r11 | r12 | r13 | |
r21 | r22 | r23 | |
r31 | r32 | r33 |
В табл. 8 через r12 обозначен коэффициент корреляции, показывающий взаимосвязь между переменными 1 и 2. Отметим, что первый индекс задает номер строки, а второй – номер столбца таблицы. Такой подход позволяет проанализировать взаимозависимость, существующую между двумя любыми переменными. Безусловно, корреляция, например, между переменными 1 и 2 точно такая же, как и между переменными 2 и 1, а значит r12 = r21. Следовательно, для анализа достаточно рассмотреть только половину корреляционной матрицы. Кроме того, корреляция каждой переменной с самой собой всегда равна 1.
Анализ корреляционной матрицы – это первый шаг при решении любой задачи, в которой имеется несколько независимых переменных.
В простой регрессии зависимая переменная обозначалась символом Y, а независимая – X. В многомерном регрессионном анализе для обозначения независимых переменных используются символы Х с индексами, зависимая переменная по-прежнему обозначается через Y. Если начальное множество независимых переменных определено, взаимосвязь между Y и множеством переменных может быть выражена в форме многомерной регрессионной модели.
В многомерной регрессионной модели математическое ожидание зависимой величины является линейной функцией всех объясняющих ее переменных.
Это выражение является многомерной регрессионной функцией генеральной совокупности. Так же, как и в случае простой линейной регрессии, мы не можем непосредственно рассматривать регрессионную функцию совокупности, поскольку наблюдаемые значения Y отклоняются от своего среднего значения. Каждая комбинация значений всех переменных X определяет математическое ожидание для части генеральной совокупности откликов Y. Предполагается, что в каждой такой части значения Y являются нормально распределенными величинами с одним и тем же стандартным отклонением .
При многомерной регрессии данные для каждого случая включают значение зависимой переменной Y и значение каждой независимой переменной.
Зависимая переменная Y – это случайная величина, которая связана с независимыми переменными следующим соотношением.
где - это компонента ошибки, соответствующая отклонению значений зависимой переменной от истинного соотношения. Это ненаблюдаемая случайная величина, в которой проявляется влияние на зависимую переменную других, неучтенных факторов. Предполагается, что ошибки независимы и имеют нормальное распределение с математическим ожиданием 0 и неизвестной дисперсией .
Для заданного набора данных оценки коэффициентов регрессии можно найти с помощью метода наименьших квадратов. Соответствующая функция регрессии будет иметь вид:
Остатки являются оценками компоненты ошибки и подобны остаткам в случае простой линейной регрессии. Вычисления по методу многомерного регрессионного анализа обычно проводят с помощью пакетов компьютерных программ, таких как Excel или Minitab.
Оценки метода наименьших квадратов минимизируют сумму квадратов ошибок среди всех возможных значений :
Интерпретация коэффициентов регрессии
Значение - это свободный член в функции Y. Теперь его следует интерпретировать как значение Y при значениях всех Х, равных нулю. Коэффициенты называются частными или чистыми коэффициентами регрессии. Каждый из них измеряет среднее изменение величины Y при единичном изменении соответствующей независимой переменной. Однако поскольку совместное влияние всех независимых переменных на величину Y измеряется регрессионной функцией в целом, частный или чистый эффект одной переменной должен измеряться отдельно от влияния других переменных. Поэтому говорят, что коэффициент измеряет среднее изменение величины Y при единичном изменении переменной и постоянных значениях других независимых переменных.
Таким образом, частный или чистый коэффициент регрессии измеряет среднее изменение зависимой переменной при единичном изменении соответствующей независимой переменной и постоянных значениях других независимых переменных.
Статистический анализ модели многомерной регрессии проводится аналогично анализу простой линейной регрессии. Стандартные пакеты статистических программ позволяют изучить оценки по методу наименьших квадратов для параметров модели, оценки их стандартных ошибок, а также значение t-статистики, используемой для проверки значимости отдельных слагаемых регрессионной модели, и величину F-статистики, служащей для проверки значимости регрессионной зависимости. Вычисление указанных значений вручную при многомерном регрессионном анализе крайне непрактично - подобные вычисления следует проводить только с помощью компьютера.
является прогнозом, вычисленным по найденному уравнению регрессии.
Форма разбиения суммы квадратов и соответствующие степени свободы здесь следующие:
Общая вариация зависимой переменной, SST, состоит из двух компонент: SSR, вариации, объясненной независимыми переменными через функцию регрессии, и SSE, необъясненной вариации. Информация из уравнения может быть получена в таблице анализа дисперсии ANOVA.
Стандартная ошибка оценки – это стандартное отклонение для значений остатков. Она измеряет рассеивание значений переменной Y относительно линии функции регрессии:
где n – количество наблюдений;
k – количество независимых переменных в функции регрессии;
- сумма квадратов остатков;
- среднее квадратов остатков.
Таким образом, стандартная ошибка оценки измеряет отклонение имеющихся данных (Y) от их оценок ( ). Для сравнительно больших выборок следует ожидать, что около 67% разностей будут иметь абсолютную величину не более чем и около 95% из этих разностей по модулю не будут превосходить 2 .
Таблица анализа дисперсии ANOVA строится на разложении общей вариации Y (SST) на объясненную (SSR) и необъясненную (SSE) части. Общий ее вид приведен в табл. 2.
Таблица 9 - Таблица анализа дисперсии ANOVA
Источник | Сумма квадратов | Степени свободы | Среднеквадратическое значение | Отношение F |
Регрессия | SSR | k | MSR=SSR/k | F=MSR/MSE |
Ошибки | SSE | n-k-1 | MSE=SSE/(n-k-1) | |
Сумма | SST | n-1 |
Рассмотрим гипотезу . Справедливость этой гипотезы означает, что величина Y не связана ни с какой из переменных X (коэффициент при каждой переменной X, равен нулю). Проверка гипотезы фактически является проверкой значимости регрессии. Если регрессионная модель справедлива и гипотеза верна, отношение F=MSR/MSE имеет F-распределение с числом степеней свободы df = k, n-k-1. Значит, величину F можно использовать для проверки значимости регрессии.
В простой линейной регрессии имеется лишь одна независимая переменная. Поэтому для нее проверка значимости регрессии, использующая величину отношения F из таблицы ANOVA, эквивалентна двухстороннему t-критерию проверки гипотезы о равенстве нулю углового коэффициента. Для многомерной регрессии t-критерий проверяет значимость каждой отдельной переменной X в функции регрессии, а F-критерий — значимость всех переменных X вместе.
При уровне значимости гипотеза отклоняется, если (расчетное значение F больше значения F-распределения при уровне значимости с числом степеней свободы ).
Коэффициент детерминации вычисляется по формуле:
Коэффициент детерминации имеет такой же вид и такую же интерпретацию, как и для простой линейной регрессии. Он представляет собой долю вариации зависимой переменной Y, которая объясняется взаимосвязью Y с переменными X.
Значение = 1 говорит о том, что наблюдаемые значения Y в точности соответствуют найденной функции регрессии. Вся вариация зависимой переменной объясняется регрессией. Значение = 0 указывает, что , а это означает, что SSR = 0, и никакая часть вариации величины Y не объясняется регрессией. На практике значение обычно лежит в диапазоне 0 < < 1 и интерпретируется в зависимости от его близости к 0 или 1.
Величина называется многомерным коэффициентом корреляции и характеризует корреляцию между зависимой переменной Y и прогнозом. Поскольку прогнозирует значение зависимой переменной, значение R всегда неотрицательно и лежит в диапазоне 0 < R < 1.
Для многомерной регрессии:
поэтому, при прочих равных показателях, значимые регрессионные зависимости соответствуют сравнительно большим значениям .
Коэффициенты при отдельно взятой переменной X в функции регрессии измеряют частичное или чистое влияние, оказываемое этой переменной X на значение переменной Y. Если регрессия в целом признана значимой, то хотелось бы проверить и значимость каждой независимой переменной в отдельности. Проблема заключается в следующем: среди всех имеющихся переменных является ли влияние данного существенным или слагаемое с этой переменной может быть в функции регрессии опущено? На этот вопрос можно ответить после изучения соответствующего значения t.
Если гипотеза справедлива, проверочная статистика t со значением имеет t-распределение с числом степеней свободы df= n-k-1. Здесь - это коэффициент при j-й независимой переменной в полученном методом наименьших квадратов уравнении регрессии, а - оценка стандартного отклонения (стандартная ошибка).
Чтобы проверить значимость j-го слагаемого (j=0,1,...,k), в функции регрессии, значение проверочной статистики t сравнивается с табличным значением t-распределения с n-k-1 степенями свободы. Для уровня значимости при выборе одной из гипотез и гипотеза отклоняется, если ( - верхний /2-квантиль t-распределения с df=n-k-1 степенями свободы).
Если переменные X взаимосвязаны (мультиколлинеарны), коэффициенты уравнения регрессии и соответствующие значения t могут измениться (иногда существенно), если отдельное X будет удалено из функции регрессии. Например, переменная X, которая раньше была незначимой, может стать значимой. Значит, если имеется несколько малых (незначимых) значений t, следует удалить лишь одну независимую переменную (имеющую наименьшее значение t), а не все их вместе. Этот процесс останавливается тогда, когда все независимые переменные будут иметь большие (значимые) значения статистики t и сама регрессия также будет значимой.
Прогноз будущего значения зависимой переменной Y для новых значений переменных Х можно получить с помощью найденной оценки функции регрессии. При доверительном уровне 1- интервал прогноза для значений Y имеет следующий вид:
(стандартная ошибка прогноза)
Стандартная ошибка прогноза имеет сложное выражение, в котором стандартная ошибка оценки является важным компонентом. Фактически, если n велико и все Х – независимые переменные, приблизительный 100(1- )%-ный доверительный интервал для нового значения Y можно вычислить по следующей формуле:
Иногда требуется определить, как зависимая переменная связана с независимой, когда на ситуацию дополнительно влияет некоторый качественный фактор. Эта зависимость отображается в создании фиктивной переменной. Существует много способов связать классы качественной переменной с количественными величинами.
Фиктивные, или индикаторные, переменные используются для определения взаимосвязи между качественными независимыми переменными и зависимой переменной.
Во многих случаях применения методов регрессии в качестве данных просто используются все доступные значения предварительно назначенных независимых переменных. В подобных ситуациях независимые переменные часто оказываются линейно зависимыми.
Если линейная зависимость не точная, для оценки коэффициентов регрессии может по-прежнему применяться метод наименьших квадратов. Однако в этом случае полученные оценки часто характеризуются неустойчивостью (значения коэффициентов могут существенно изменяться даже при относительно небольших изменениях данных) и определенной избыточностью (рассчитанные величины, как правило, оказываются больше ожидаемых). В частности, отдельные коэффициенты могут иметь неверный знак, а значения t-статистики для отдельных слагаемых могут все оказаться незначимыми, в то время как F-тест демонстрирует значимость регрессии. К тому же вычисления по методу наименьших квадратов могут оказаться чувствительными к ошибкам округления.
Линейная зависимость между двумя или более независимыми переменными называется мультиколлинеарностью. Степень мультиколлинеарности измеряется фактором роста дисперсии (VIF):
где - коэффициент детерминации из регрессии j-й независимой переменной по оставшимся (k-1) независимым переменным. Для k=2 независимых переменных это значение равно (квадрату их выборочного коэффициента корреляции).
Если j-я независимая переменная не связана с остальными X, то и . Если зависимость имеет место, то . Значение , близкое к 1, говорит о том, что для этой переменной проблемы мультиколлинеарности не существует. Оценка ее коэффициента и значение t-статистики не изменятся значительно, если другие независимые переменные будут добавлены в уравнение регрессии или удалены из него. Значение , гораздо большее 1, указывает, что оценка коэффициента при этой независимой переменной неустойчива. Ее величина и значение t-статистики могут сильно измениться при добавлении в уравнение регрессии или удалении из него других независимых переменных. В сущности, большая величина фактора означает, что имеется избыточная информация о независимых переменных. Информация, предоставляемая переменной с большим , уже присутствует в других независимых переменных. При наличии мультиколлинеарности интерпретировать влияние отдельной независимой переменной на зависимую гораздо сложнее
Для оценки эффекта одной, отдельно взятой независимой переменной при наличии в модели мультиколлинеарности существует несколько способов, ни один из которых не является универсальным для всех возможных случаев.
1 Создать новые переменные X, которые обозначим как , посредством масштабирования всех независимых переменных по следующей формуле:
Все новые переменные будут иметь нулевое среднее значение и одно и то же выборочное среднеквадратическое отклонение. Вычисления коэффициентов регрессии для этих новых независимых переменных будут менее чувствительны к ошибкам округления при наличии мультиколлинеарности.
2 Найти и удалить из набора данных одну или более независимых переменных, являющихся избыточными.
3 Воспользоваться методом оценки, отличным от метода наименьших квадратов.
4 Представить зависимую переменную Y как линейную комбинацию некоррелирующих между собой независимых переменных Х.
5 Отобрать независимые переменные на начальном этапе исследования (сразу отказываться от переменных, "говорящих об одном и том же").
Для получения уравнения многомерной регрессии, наилучшего для прогноза значений интересующей переменной в первую очередь требуется определить набора возможных независимых переменных. Необходимо включить в рассмотрение все переменные, которые способны улучшить точность прогноза. При выборе окончательного вида уравнения появляется дилемма обеспечения наилучшего прогноза с наименьшими затратами. Другими словами, когда исследователь выбирает независимые переменные для окончательного варианта уравнения регрессии, он должен учитывать два противоречащих друг другу требования.
1 Необходимо использовать в уравнении как можно больше независимых переменных, содержащих новую информацию о зависимой переменной.
2 Поскольку сбор и обработка информации о каждой новой переменной требуют дополнительных затрат, в уравнении должно быть как можно меньше переменных. Обычно самое простое уравнение и есть самое лучшее.
Выбор наилучшего уравнения регрессии обычно предусматривает поиск компромисса между этими двумя противоположными требованиями, и личная оценка исполнителя является необходимым элементом этого поиска.
После того как составлен (по возможности) полный список потенциальных независимых переменных, необходимо отобрать переменные, которые могут оказаться неадекватными данному случаю. Независимая переменная может быть исключена из рассмотрения, если она:
- не имеет существенного отношения к решению поставленной задачи (всегда должна существовать некоторая реальная взаимосвязь между зависимой и данной независимой переменными);
- характеризуется значительными ошибками измерения;
- дублирует другие независимые переменные (Мультиколлинеарность);
- имеются большие проблемы в ее измерении (точные данные недоступны или обходятся очень дорого).
Далее необходимо сократить список независимых переменных, чтобы получить "наилучший" набор независимых переменных. Никакая из известных процедур отбора не гарантирует обязательного получения "наилучшего" набора независимых переменных. В действительности, зачастую единственного "лучшего" набора переменных просто не существует. К тому же различные способы отбора переменных вовсе не обязательно приводят к одному и тому же уравнению регрессии. Поэтому реально процесс отбора переменных очень субъективен. Основным преимуществом автоматических процедур отбора переменных является то, что в результате исследователь сможет сосредоточить свое основное внимание на меньшем наборе переменных.
В данной процедуре рассматриваются все возможные уравнения регрессий, включающие потенциальные независимые переменные. Исследователь начинает с уравнения, не содержащего ни одной независимой переменной, и анализирует все их возможные комбинации, чтобы выбрать наилучший набор независимых переменных.
В этой процедуре для сравнения уравнений регрессий могут использоваться различные критерии.
Рассмотрим только метод с использованием коэффициента детерминации , включающий четыре этапа.
На первом этапе необходимо построить уравнения регрессий для данной зависимой переменной и всех возможных наборов независимых переменных. Каждая независимая переменная может присутствовать или не присутствовать в уравнении (две возможности), потому всего будет 2k уравнений (где k обозначает число независимых переменных). Так, если используется восемь независимых переменных (k=8), то потребуется рассмотреть 28 = 256 уравнений.
Второй этап процедуры - разделение уравнений на множества в соответствии с количеством параметров, которые необходимо оценить.
Третий этап состоит в выборе наилучшей независимой переменной (или переменных) из каждой группы с определенным числом параметров. Уравнение с наибольшим считается наилучшим.
На четвертом этапе осуществляется субъективный выбор - какое уравнение является наилучшим. С одной стороны, исследователю желательно иметь наибольшее из возможных значений показателя , а с другой, - необходимо использовать максимально простое уравнение регрессии. Подход, предусматривающий анализ всех возможных моделей регрессии, предполагает, что количество точек данных n превышает число параметров k.
Вообще говоря, анализ всех возможных вариантов регрессии является неоправданным. Если утверждается, что исследователь "рассмотрел все имеющиеся возможности", то это означает, что он проанализировал большое количество уравнений, которые разумнее было бы исключить из рассмотрения. Затраты компьютерного времени и физические усилия, потраченные на анализ результатов компьютерных расчетов, становятся просто непомерными, как только количество независимых переменных выходит за рамки первого десятка. Желательно использовать некоторые дополнительные процедуры отбора, позволяющие ускорить решение данной задачи.
Процедура пошаговой регрессии предусматривает поэтапное добавление в уравнение отдельных независимых переменных, по одной переменной на каждом этапе. При использовании этой процедуры компьютер позволяет обработать большое количество независимых переменных за одно выполнение программы.
Пошаговая регрессия наилучшим образом может быть описана посредством перечисления основных этапов проводимых вычислений (алгоритмом):
1 Рассматриваются все возможные простые регрессии. Независимая переменная, объясняющая наибольшую значимую долю вариации Y (имеет наибольшую корреляцию с зависимой переменной), - это первая переменная, включаемая в уравнение регрессии.
2 Следующая переменная, вводимая в уравнение, - это та (из еще не включенных в уравнение), которая привносит наибольший значимый вклад в регрессионную сумму квадратов. Является ли этот вклад значимым, определяется с помощью F-теста. Значение F-статистики, которое должно быть превышено для признания значимости некоторой переменной, часто называется значением F для включения.
3 После включения дополнительной переменной в уравнение, отдельный вклад в регрессионную сумму квадратов каждой из переменных, уже включенных в уравнение, проверяется на значимость с помощью F-теста. Если полученное значение F-статистики окажется меньше, чем величина, называемая F для исключения, данная переменная исключается из уравнения регрессии.
4 Этапы 2 и 3 повторяются, пока все возможные добавления не окажутся незначимыми, а все возможные удаления - значимыми. В этот момент процедура выбора заканчивается.
Пошаговая регрессия позволяет включать или исключать независимые переменные из уравнения регрессии на разных этапах исследования. Независимая переменная удаляется из модели, если она перестает давать значимый вклад при добавлении новой переменной.
Пользователь программы пошаговой регрессии сам указывает значения, определяющие, остается ли переменная в уравнении или удаляется. Поскольку F-статистика, используемая в пошаговой регрессии, такова, что F=t2 , где t – t-статистика для проверки значимости независимой переменной, F = 4 (соответствующее |t|=2) - это обычный выбор значения F для включения и F для исключения. Значение F для включения, равное 4, по существу, эквивалентно проверке на значимость независимой переменной на уровне 5%. Программа пошаговой регрессии в приложении Minitab предусматривает, что пользователь выбирает уровень для включения и для исключения переменных вместо значения F. Выбор значения =0,05, приблизительно эквивалентен использованию F=4.
Результат пошаговой процедуры - это регрессионная модель, содержащая только независимые переменные с величинами t, значимыми на указанном уровне. Однако поскольку процедура проводилась шаг за шагом, у нас нет гарантии, что в данную регрессию включены, к примеру, три наилучшие для составления прогноза переменные. Кроме того, метод автоматического отбора не позволяет указать на необходимость преобразования переменных и исключить проблему мультиколлинеарности. Наконец, пошаговая регрессия не может создать важные переменные, не указанные пользователем. В любом случае необходимо тщательно продумать набор независимых переменных, предлагаемых для исследования с помощью программы пошаговой регрессии.
Метод пошаговой регрессии очень прост и удобен в использовании. К несчастью, этот метод можно очень легко употребить неправильно. Зачастую, изучая модель регрессии, исследователь создает большое количество возможных независимых переменных, а затем с помощью пошаговой процедуры определяет, какие из них являются значимыми. Проблема заключается в том, что при анализе большого количества независимых переменных проводится очень много t-тестов и становится вполне возможным допустить ошибку I рода (добавить незначимую переменную). В этом случае окончательная модель будет содержать переменную, не связанную с зависимой переменной линейно и включенную в модель только по случайности.
Как было отмечено выше, еще одна проблема связана с исходным выбором возможных независимых переменных. Когда эти переменные отобраны, слагаемые высших порядков (криволинейные, нелинейные и произведения) часто пропускаются с тем, чтобы сохранить лишь переменные, удобные для исследования. Таким образом, несколько важных переменных могут быть исключены из модели изначально. Становится очевидным, что интуитивный выбор исследователем начального множества независимых переменных – весьма критический момент в получении удачной регрессионной модели.
Регрессионный анализ будет неполон, пока мы не убедимся, что выбранная модель адекватно представляет данные. Непременно следует проверить адекватность найденной модели до того, как она станет частью методики принятия решений.
Исследование остатков - это важный момент в определении адекватности модели. Несколько графиков остатков, строящихся для проверки предположений о модели регрессии, были предложены в Методических указаниях к проведению лабораторной работы №5. Кроме того, если модели регрессии используются с данными временных рядов, важно вычислить автокорреляции остатков для проверки условия их независимости. Выводы (и решения), сделанные по моделям, не соответствующим основным регрессионным предположениям, могут оказаться совершенно ошибочными. Например, можно заключить, что какие-то изменения независимой переменной приведут к нужным изменениям зависимой переменной, что на самом деле окажется не так. Может быть сделан вывод, что прогноз с большой надежностью (с доверительной вероятностью 0,95) будет не более чем на 2% отличаться от будущего значения зависимой переменной, тогда как фактически доверительная вероятность окажется намного меньше, и т.д.
Рассмотрим некоторые дополнительные способы оценки регрессионной модели. Эти способы направлены на выделение наблюдений, крайних в наборе или представляющих собой выбросы (т.е. наблюдений, заметно отличающихся по значению от остальных данных). Выбросы часто скрываются процессом подгонки и не могут быть достаточно просто определены при исследовании графика остатков. Тем не менее, они могут оказывать существенное влияние на выбор подходящей регрессионной функции. Необходимо тщательно изучать выбросы для того, чтобы принять обоснованное решение, следует ли их оставить в наборе данных или удалить из него. И если их оставлять, то следует определить, как лучше поступить - или влияние выбросов на функцию регрессии должно быть уменьшено, или функция регрессии должна быть подправлена.
Мера влияния i-й точки данных на положение функции регрессии измеряется значением рычага . Значение рычага зависит только от независимых переменных и не зависит от зависимой переменной Y. Для простой линейной регрессии с одной независимой переменной X:
Для k независимых переменных выражение для i-го рычага сложнее; однако, можно показать, что 0 < < 1 и его среднее значение равно .
Если i-я точка данных имеет большое значение рычага ( близко к 1), прогноз, для этого значения X почти полностью определяется величиной Y, при очень малом влиянии других данных. Точка с большим значением рычага также размещается на графике на удалении от остальных X (и от их комбинаций). Эмпирически установленное правило утверждает, что может считаться достаточно большим, если .
Определение выбросов или крайних значений Y основывается на размерах остатков . Большие остатки показывают, что значение Y находится далеко от его прогноза, вычисленного по уравнению регрессии. Большая величина остатка будет выделяться на гистограмме остатков как значение, удаленное от нуля (в любом направлении). На графике зависимости остатков от значений прогноза большой остаток будет выделяться как точка, удаленная вверх или вниз от горизонтальной оси.
Пакеты программ, подобные приложению Minitab, отмечают флажком точки данных с крайними значениями Y, вычисляя "стандартизованные" остатки и выделяя точки с большими значениями стандартизованных остатков.
Один метод стандартизации основан на том, что оценки стандартных отклонений остатков равны:
где - стандартная ошибка оценки, a - значение рычага, связанное i-й точкой данных. Тогда стандартизованный остаток равен:
Все стандартизованные остатки имеют дисперсию 1. Стандартизованный остаток считается большим (а значение соответствующей зависимой переменной - крайним), если
Значения Y, соответствующие точкам данных с большими стандартизованными остатками, могут очень сильно повлиять на расположение прямой регрессии.
Для построения уравнения регрессии:
а) Ввести данные в Minitab for Windows
б) Для проведения корреляционного анализа выбрать команду
StartàBasic StatisticàCorrelation
в) На экране раскроется диалоговое окно Correlation (Корреляция), представленное на рис. 21
Рис. 21. Диалоговое окно Correlation приложения Minitab
- в поле Variables ввести значения Y, X1, X2, X3, X4, X5.
- щелкнуть на кнопке ОК, и на экран будут выведены результаты, представленные в листинге (рис. 22).
Correlations: Y; X1; X2; X3; X4; X5 Y X1 X2 X3 X4 X1 0,676 0,000 X2 0,798 0,228 0,000 0,226 X3 -0,296 -0,222 -0,287 0,112 0,238 0,124 X4 0,550 0,350 0,540 -0,279 0,002 0,058 0,002 0,136 X5 0,618 0,309 0,693 -0,243 0,314 0,000 0,097 0,000 0,195 0,091 |
Рис.22 Листинг результата корреляционного анализа в системе Minitab
Корреляционная матрица показывает наличие достаточно тесной связи между зависимой переменной Y и независимыми переменными.
г) Для запуска процедуры анализа регрессии выбрать команду StartàRegressionàRegression
д) На экране раскроется диалоговое окно Regression (регрессия)
- в поле Response в качестве зависимой переменной выбрать величину Y
- в поле Predictors в качестве независимых переменных выбрать величины X1, X2, X3, X4, X5
- для продолжения работы щелкнуть на кнопке Options. В появившемся окне выбрать Variance inflation factor для расчета степени мультиколлинеарности (фактор роста дисперсии (VIF)).
- щелкнуть на кнопке ОК, и на экран будут выведены результаты, представленные в листинге (рис. 23).
Regression Analysis: Y versus X1; X2; X3; X4; X5 The regression equation is Y = - 89,7 + 0,202 X1 + 6,12 X2 + 0,113 X3 - 0,005 X4 - 0,50 X5 Predictor Coef SE Coef T P VIF Constant -89,70 17,01 -5,27 0,000 X1 0,20245 0,02813 7,20 0,000 1,237 X2 6,1248 0,9178 6,67 0,000 2,536 X3 0,1135 0,5034 0,23 0,824 1,139 X4 -0,0047 0,7850 -0,01 0,995 1,596 X5 -0,500 1,744 -0,29 0,777 2,082 S = 3,96972 R-Sq = 89,5% R-Sq(adj) = 87,4% Analysis of Variance Source DF SS MS F P Regression 5 3238,09 647,62 41,10 0,000 Residual Error 24 378,21 15,76 Total 29 3616,30 Source DF Seq SS X1 1 1653,15 X2 1 1582,73 X3 1 0,88 X4 1 0,03 X5 1 1,30 |
Рис.23. Листинг результатов регрессионного анализа
Ниже объясняется используемая в приложении Minitab терминология, даются необходимые определения и описываются выполняемые вычисления. Все эти пояснения относятся к содержимому листинга, представленного на рис. 23.
- Coef - коэффициенты регрессии. Найденное уравнение регрессии является следующим:
Y = - 89,7 + 0,202 X1 + 6,12 X2 + 0,113 X3 - 0,005 X4 - 0,50 X5
- R-Sq - уравнение регрессии объясняет 89,5% вариации объема продаж.
- s - стандартная ошибка оценки равна 3,97 ед.. Эта величина является мерой отклонения полученных значений от величин прогноза.
- Т – значение t-статистики. В этом случае большое значение статистики для переменных X1, X2, и малое значение р указывают, что коэффициент при этих переменных значимо отличаются от нуля. Таким образом, коэффициенты при обеих независимых переменных значимо отличаются от нуля.
- Р - значение р = 0,000 равно вероятности получить значение t с абсолютной величиной, не меньшей 7,20, если гипотеза справедлива. Поскольку эта вероятность весьма мала, то гипотеза отклоняется. Коэффициент при переменных X1, X2 значимо отличны от нуля. Коэффициенты же при переменных X3, X4, X5 незначимы
- SS - разложение суммы квадратов, SST=SSR + SSE (общая сумма квадратов = сумма квадратов регрессии + сумма квадратов ошибок).
- F - вычисленное значение F (41,10) используется для проверки значимости регрессии. Табличное значение F-статистики с числом степеней свободы df=5, 24 при уровне значимости 5% равно 2,62. Следовательно, регрессия значима. Функция регрессии объясняет значительную часть изменчивости Y.
- R-Sq(adj) - скорректированный коэффициент детерминации.
- Значение VIF для переменных Х2 и Х5 говорит о наличии мультиколлинеарности.
Последовательно избавляясь от незначимых переменных в уравнении регрессии (повторяя шаг 3 для оставшихся переменных) получим итоговое уравнение (листинг представлен на рис. 24)
Таким образом, полученное уравнение регрессии объясняет 89,5% вариации параметра Y. Мультиколлинеарность переменных отсутствует. По t-статистике коэффициенты уравнения регрессии значимы, по F-статистике уравнение также значимо.
е) Чтобы получить графики остатков, выбрать команду Stats àRegression àResidual plots. Графики остатков представлены на рисунке 25.
Анализ графиков также свидетельствует, что уравнение регрессии адекватно описывает взаимосвязь между объемами продаж за месяц (Y), результатами теста способностей (X1) и возрастом продавцов (X2).
Рост результатов теста способностей на единицу приводит к росту объема продаж на 0,2 единицы, увеличение возраста исполнителя на единицу (внутри исследуемого интервала значений Х2) приводит к росту объема продаж на 5,93 единицы.
Regression Analysis: Y versus X1; X2 The regression equation is Y = - 86,8 + 0,200 X1 + 5,93 X2 Predictor Coef SE Coef T P VIF Constant -86,79 12,35 -7,03 0,000 X1 0,19973 0,02456 8,13 0,000 1,055 X2 5,9314 0,5596 10,60 0,000 1,055 S = 3,75361 R-Sq = 89,5% R-Sq(adj) = 88,7% Analysis of Variance Source DF SS MS F P Regression 2 3235,9 1617,9 114,83 0,000 Residual Error 27 380,4 14,1 Total 29 3616,3 Source DF Seq SS X1 1 1653,2 X2 1 1582,7 |
Рис.24 Листинг результатов регрессионного анализа (итоговый)
ж) Результат автокорреляционного анализа остатков представлен на рис. 26
Так как все значения автокорреляции близки к нулю и находятся в доверительном интервале, можно сделать вывод о случайности (независимости) остатков. Следовательно, уравнение регрессии можно использовать для интерпретации имеющихся данных.
з) Для определения прогнозного объема продаж необходимо подставить требуемые значения в уравнение регрессии:
Y = - 86,8 + 0,200 X1 + 5,93 X2 =-86,8+0,200*83+5,93*25 = 78,05 ед.
Т.е. при найме на работу сотрудника прошедшего тест на способности на 83 балла возрастом 25 лет, можно ожидать, что ежемесячный объем продаж составит 78,05 ед.
|
|
Рис.25 Графики остатков
Рис.26 Автокорреляционный анализ остатков
Интервальный прогноз можно получить, воспользовавшись теоретическими положениями.
и) Для запуска процедуры пошаговой регрессии выбрать команду StatàRegressionàStepwise.
к) На экране появится диалоговое окно Stepwise Regression, показанное на рис. 27
Puc. 27 Диалоговое окно Stepwise Regression приложения Minitab
- зависимая переменная (Response) содержится в столбце С1, озаглавленном Y;
- независимые переменные содержатся в столбцах С2-С6, озаглавленных X1, X2, X3, X4, X5
- чтобы ввести значение уровня значимости, щелкнуть на кнопке Methods
л) На экране раскроется диалоговое окно Stepwise-Methods, показанное на рис. 28.
Рис. 28. Диалоговое окно Stepwise-Method приложения Minitab
- поскольку в расчетах используется уровень значимости 0,05, изменить значения в полях Alpha to enter и Alpha to remove с 0,15 на 0,05
- щелкнуть на кнопке ОК, а затем еще раз на кнопке ОК в диалоговом окне Stepwise Regression. На экран будут выведены результаты, представленные на рис. 29.
По рис. 29 видно, что переменная возраста вводится в уравнение регрессии первой и объясняет 63,7% дисперсии значений объема продаж. Поскольку значение р, равное 0,0000, меньше величины , переменная возраста добавляется в модель. На втором этапе в уравнение регрессии вводится переменная, характеризующая результаты теста способностей. В этом случае уравнение регрессии объясняет 89,48% вариации продаж. Коэффициенты регрессий при переменных значительно отличаются от нуля, и вероятность того, что это происходит лишь в результате случайного отклонения почти нулевая.
Stepwise Regression: Y versus X1; X2; X3; X4; X5 Alpha-to-Enter: 0,05 Alpha-to-Remove: 0,05 Response is Y on 5 predictors, with N = 30 Step 1 2 Constant -100,85 -86,79 X2 6,97 5,93 T-Value 7,01 10,60 P-Value 0,000 0,000 X1 0,200 T-Value 8,13 P-Value 0,000 S 6,85 3,75 R-Sq 63,70 89,48 R-Sq(adj) 62,41 88,70 Mallows Cp 57,3 0,1 |
Рис. 29 Листинг результатов пошаговой регрессии в приложении Minitab
Следовательно, уравнение регрессии примет вид:
Y = - 86,8 + 5,93 X2 + 0,200 X1
Вопросы к зачету
1 Сущность процесса прогнозирования и его необходимость для решения экономических задач.
2 Методы экономического прогнозирования как учебной и научной дисциплины.
3 Типология прогнозов
4 Прогнозирование в системе планирования производством
5 Прогнозирование и экономический анализ
6 Оценка качества прогноза в процессе принятия решений1
7 Альтернативы прогнозирования
8 Понятие и проверка наличия тенденции
9 Экстраполяция на основе аналитических показателей рядов динамики
10 Экстраполяция на основе средних величин
11 Экстраполяция на основе индекса сезонности
12 Сущность метода экстраполяция тренда
13 Выбор вида уравнения тренда
14 Оценка качества прогноза. Интервалы доверия
15 Сущность метода экпоненциального сглаживания
16 Расчетные формулы
17 Понятие и сущность моделирования как инструментария прогнозирование
18 Классификация моделей
19 Процесс построения экономико-статистических моделей
20 Отбор системы показателей модели
21 Выбор и обоснование формы связи
22 Расчет и интерпретация параметров и характеристик модели.
23 Оценка статистической надежности модели
24 Методы предания моделям статистической надежности
25 Сущность и разновидности экспертных методов
26 Метод экспертных оценок «Дельфи»
27 Подбор экспертов
28 Организация и проведения экспертного опроса
29 Определение количественных параметров и показателей экспертного опроса
30 Оценка степени согласованности мнений экспертов
31 Анализ результатов опроса экспертов
32 Прогнозирование по обводным кривым
33 Построение сценариев
34 Таблица « затраты-выпуск»
35 Экономические индикаторы и индексы
36 Метод анкетных обследований
37 Метод «мозговой атаки»
38 Метод морфологического анализа
39 Метод «синектика»
40 Методы генерирования идей
Библиографический список
1 Вишнев С.М. Основы комплексного прогнозирования. - М.: Наука, 1997,-287с.
2 Економічний словник-довідник / За ред. д. економ, наук, проф. С.В.Мочерного. - К.: Феміна, 1995.- 368 с.
3 Емельянов А.С.Эконометрия и прогнозирование.- М.: Экономика, 1985.-208с.
4 Тейл Г. Прикладное экономическое прогнозирование: Пер. с англ.-М.: Прогресс, 1970.-504 с.
5 Тейл Г. Экономические прогнозы и принятие решений. Пер. с англ.- М.: Статистика. 1971.- 485 с.
6 Ханк Д.Э. Бизнес прогнозирование // Д.Э. Ханк, Д.У. Уичерн, А.Дж. Райтс. – М.: Издательский дом «Вильямс», 2003. – 656 с.