Пример решения задачи 2 с использованием программного продукта Minitab

Для точного прогнозирования зависимой переменной часто требуется знать значения более чем одной независимой переменной. Регрессионные модели с более чем одной независимой переменной называются моделями многомерной регрессии. Большинство понятий, введенных для простой линейной регрессии, распространяется и на многомерную регрессию.

Новая независимая переменная не должна быть тесно связана с уже использованной независимой переменной. Если две независимые переменные тесно связаны, то они будут объяснять одну и ту же изменчивость, и поэтому добавление второй переменной не позволит улучшить прогнозирование.

В таких областях, как эконометрика и прикладная статистика, значительная часть возникающих проблем связана как раз с взаимной корреляцией между независимыми переменными. Подобное состояние обычно называют мультиколлинеарностью. Простое решение проблемы наличия двух тесно связанных независимых переменных состоит в том, чтобы не использовать их вместе. Проблема мультиколлинеарности будет рассмотрена ниже.

Таким образом, выделяют следующие признаки независимой переменной:

- связана с зависимой переменной;

- не имеет тесной связи с любой другой независимой переменной.

Для оценки переменных используют корреляционную матрицу. Корреляционная матрица составляется из коэффициентов корреляции, вычисленных для каждой возможной пары переменных.

Пример корреляционной матрицы приведен в табл. 8.

Таблица 8 – Пример корреляционной матрицы

Переменные
r11 r12 r13
r21 r22 r23
r31 r32 r33

В табл. 8 через r12 обозначен коэффициент корреляции, показывающий взаимосвязь между переменными 1 и 2. Отметим, что первый индекс задает номер строки, а второй – номер столбца таблицы. Такой подход позволяет проанализировать взаимозависимость, существующую между двумя любыми переменными. Безусловно, корреляция, например, между переменными 1 и 2 точно такая же, как и между переменными 2 и 1, а значит r12 = r21. Следовательно, для анализа достаточно рассмотреть только половину корреляционной матрицы. Кроме того, корреляция каждой переменной с самой собой всегда равна 1.

Анализ корреляционной матрицы – это первый шаг при решении любой задачи, в которой имеется несколько независимых переменных.

В простой регрессии зависимая переменная обозначалась символом Y, а независимая – X. В многомерном регрессионном анализе для обозначения независимых переменных используются символы Х с индексами, зависимая переменная по-прежнему обозначается через Y. Если начальное множество независимых переменных определено, взаимосвязь между Y и множеством переменных может быть выражена в форме многомерной регрессионной модели.

В многомерной регрессионной модели математическое ожидание зависимой величины является линейной функцией всех объясняющих ее переменных.

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Это выражение является многомерной регрессионной функцией генеральной совокупности. Так же, как и в случае простой линейной регрессии, мы не можем непосредственно рассматривать регрессионную функцию совокупности, поскольку наблюдаемые значения Y отклоняются от своего среднего значения. Каждая комбинация значений всех переменных X определяет математическое ожидание для части генеральной совокупности откликов Y. Предполагается, что в каждой такой части значения Y являются нормально распределенными величинами с одним и тем же стандартным отклонением Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru .

При многомерной регрессии данные для каждого случая включают значение зависимой переменной Y и значение каждой независимой переменной.

Зависимая переменная Y – это случайная величина, которая связана с независимыми переменными следующим соотношением.

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

где Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru - это компонента ошибки, соответствующая отклонению значений зависимой переменной от истинного соотношения. Это ненаблюдаемая случайная величина, в которой проявляется влияние на зависимую переменную других, неучтенных факторов. Предполагается, что ошибки независимы и имеют нормальное распределение с математическим ожиданием 0 и неизвестной дисперсией Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru .

Для заданного набора данных оценки коэффициентов регрессии можно найти с помощью метода наименьших квадратов. Соответствующая функция регрессии будет иметь вид:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Остатки Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru являются оценками компоненты ошибки и подобны остаткам в случае простой линейной регрессии. Вычисления по методу многомерного регрессионного анализа обычно проводят с помощью пакетов компьютерных программ, таких как Excel или Minitab.

Оценки метода наименьших квадратов минимизируют сумму квадратов ошибок среди всех возможных значений Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru :

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Интерпретация коэффициентов регрессии

Значение Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru - это свободный член в функции Y. Теперь его следует интерпретировать как значение Y при значениях всех Х, равных нулю. Коэффициенты Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru называются частными или чистыми коэффициентами регрессии. Каждый из них измеряет среднее изменение величины Y при единичном изменении соответствующей независимой переменной. Однако поскольку совместное влияние всех независимых переменных на величину Y измеряется регрессионной функцией в целом, частный или чистый эффект одной переменной должен измеряться отдельно от влияния других переменных. Поэтому говорят, что коэффициент Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru измеряет среднее изменение величины Y при единичном изменении переменной Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru и постоянных значениях других независимых переменных.

Таким образом, частный или чистый коэффициент регрессии измеряет среднее изменение зависимой переменной при единичном изменении соответствующей независимой переменной и постоянных значениях других независимых переменных.

Статистический анализ модели многомерной регрессии проводится аналогично анализу простой линейной регрессии. Стандартные пакеты статистических программ позволяют изучить оценки по методу наименьших квадратов для параметров модели, оценки их стандартных ошибок, а также значение t-статистики, используемой для проверки значимости отдельных слагаемых регрессионной модели, и величину F-статистики, служащей для проверки значимости регрессионной зависимости. Вычисление указанных значений вручную при многомерном регрессионном анализе крайне непрактично - подобные вычисления следует проводить только с помощью компьютера.

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

является прогнозом, вычисленным по найденному уравнению регрессии.

Форма разбиения суммы квадратов и соответствующие степени свободы здесь следующие:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Общая вариация зависимой переменной, SST, состоит из двух компонент: SSR, вариации, объясненной независимыми переменными через функцию регрессии, и SSE, необъясненной вариации. Информация из уравнения может быть получена в таблице анализа дисперсии ANOVA.

Стандартная ошибка оценки – это стандартное отклонение для значений остатков. Она измеряет рассеивание значений переменной Y относительно линии функции регрессии:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

где n – количество наблюдений;

k – количество независимых переменных в функции регрессии;

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru - сумма квадратов остатков;

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru - среднее квадратов остатков.

Таким образом, стандартная ошибка оценки измеряет отклонение имеющихся данных (Y) от их оценок ( Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru ). Для сравнительно больших выборок следует ожидать, что около 67% разностей Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru будут иметь абсолютную величину не более чем Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru и около 95% из этих разностей по модулю не будут превосходить 2 Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru .

Таблица анализа дисперсии ANOVA строится на разложении общей вариации Y (SST) на объясненную (SSR) и необъясненную (SSE) части. Общий ее вид при­веден в табл. 2.

Таблица 9 - Таблица анализа дисперсии ANOVA

Источник Сумма квадратов Степени свободы Среднеквадратическое значение Отношение F
Регрессия SSR k MSR=SSR/k F=MSR/MSE
Ошибки SSE n-k-1 MSE=SSE/(n-k-1)
Сумма SST n-1  

Рассмотрим гипотезу Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru . Справедливость этой гипотезы означает, что величина Y не связана ни с какой из переменных X (коэффициент при каждой переменной X, равен нулю). Проверка гипотезы Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru фактически является проверкой значимости регрессии. Если регрессионная модель справедлива и гипотеза Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru верна, отношение F=MSR/MSE имеет F-распределение с числом степеней свободы df = k, n-k-1. Значит, величину F можно использовать для проверки значимости регрессии.

В простой линейной регрессии имеется лишь одна независимая переменная. Поэтому для нее проверка значимости регрессии, использующая величину отношения F из таблицы ANOVA, эквивалентна двухстороннему t-критерию проверки гипотезы о равенстве нулю углового коэффициента. Для многомерной регрессии t-критерий проверяет значимость каждой отдельной переменной X в функции регрессии, а F-критерий — значимость всех переменных X вместе.

При уровне значимости Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru гипотеза Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru отклоняется, если Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru (расчетное значение F больше значения F-распределения при уровне значимости Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru с числом степеней свободы Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru ).

Коэффициент детерминации Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru вычисляется по формуле:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Коэффициент детерминации Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru имеет такой же вид и такую же интерпретацию, как и Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru для простой линейной регрессии. Он представляет собой долю вариации зависимой переменной Y, которая объясняется взаимосвязью Y с переменными X.

Значение Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru = 1 говорит о том, что наблюдаемые значения Y в точности соответствуют найденной функции регрессии. Вся вариация зависимой переменной объясняется регрессией. Значение Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru = 0 указывает, что Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru , а это означает, что SSR = 0, и никакая часть вариации величины Y не объясняется регрессией. На практике значение Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru обычно лежит в диапазоне 0 < Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru < 1 и интерпретируется в зависимости от его близости к 0 или 1.

Величина Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru называется многомерным коэффициентом корреляции и характеризует корреляцию между зависимой переменной Y и прогнозом. Поскольку Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru прогнозирует значение зависимой переменной, значение R всегда неотрицательно и лежит в диапазоне 0 < R < 1.

Для многомерной регрессии:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

поэтому, при прочих равных показателях, значимые регрессионные зависимости соответствуют сравнительно большим значениям Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru .

Коэффициенты при отдельно взятой переменной X в функции регрессии измеряют частичное или чистое влияние, оказываемое этой переменной X на значение переменной Y. Если регрессия в целом признана значимой, то хотелось бы проверить и значимость каждой независимой переменной в отдельности. Проблема заключается в следующем: среди всех имеющихся переменных Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru является ли влияние данного Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru существенным или слагаемое с этой переменной может быть в функции регрессии опущено? На этот вопрос можно ответить после изучения соответствующего значения t.

Если гипотеза Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru справедлива, проверочная статистика t со значением Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru имеет t-распределение с числом степеней свободы df= n-k-1. Здесь Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru - это коэффициент при j-й независимой переменной в полученном методом наименьших квадратов уравнении регрессии, а Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru - оценка стандартного отклонения (стандартная ошибка).

Чтобы проверить значимость j-го слагаемого (j=0,1,...,k), в функции регрессии, значение проверочной статистики t сравнивается с табличным значением t-распределения с n-k-1 степенями свободы. Для уровня значимости Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru при выборе одной из гипотез Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru и Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru гипотеза Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru отклоняется, если Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru ( Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru - верхний Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru /2-квантиль t-распределения с df=n-k-1 степенями свободы).

Если переменные X взаимосвязаны (мультиколлинеарны), коэффициенты уравнения регрессии и соответствующие значения t могут измениться (иногда существенно), если отдельное X будет удалено из функции регрессии. Например, переменная X, которая раньше была незначимой, может стать значимой. Значит, если имеется несколько малых (незначимых) значений t, следует удалить лишь одну независимую переменную (имеющую наименьшее значение t), а не все их вместе. Этот процесс останавливается тогда, когда все независимые переменные будут иметь большие (значимые) значения статистики t и сама регрессия также будет значимой.

Прогноз будущего значения зависимой переменной Y для новых значений переменных Х можно получить с помощью найденной оценки функции регрессии. При доверительном уровне 1- Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru интервал прогноза для значений Y имеет следующий вид:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru (стандартная ошибка прогноза)

Стандартная ошибка прогноза имеет сложное выражение, в котором стандартная ошибка оценки Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru является важным компонентом. Фактически, если n велико и все Х – независимые переменные, приблизительный 100(1- Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru )%-ный доверительный интервал для нового значения Y можно вычислить по следующей формуле:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Иногда требуется определить, как зависимая переменная связана с независимой, когда на ситуацию дополнительно влияет некоторый качественный фактор. Эта зависимость отображается в создании фиктивной переменной. Существует много способов связать классы качественной переменной с количественными величинами.

Фиктивные, или индикаторные, переменные используются для определения взаимосвязи между качественными независимыми переменными и зависимой переменной.

Во многих случаях применения методов регрессии в качестве данных просто используются все доступные значения предварительно назначенных независимых переменных. В подобных ситуациях независимые переменные часто оказываются линейно зависимыми.

Если линейная зависимость не точная, для оценки коэффициентов регрессии может по-прежнему применяться метод наименьших квадратов. Однако в этом случае полученные оценки часто характеризуются неустойчивостью (значения коэффициентов могут существенно изменяться даже при относительно небольших изменениях данных) и определенной избыточностью (рассчитанные величины, как правило, оказываются больше ожидаемых). В частности, отдельные коэффициенты могут иметь неверный знак, а значения t-статистики для отдельных слагаемых могут все оказаться незначимыми, в то время как F-тест демонстрирует значимость регрессии. К тому же вычисления по методу наименьших квадратов могут оказаться чувствительными к ошибкам округления.

Линейная зависимость между двумя или более независимыми переменными называется мультиколлинеарностью. Степень мультиколлинеарности измеряется фактором роста дисперсии (VIF):

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

где Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru - коэффициент детерминации из регрессии j-й независимой переменной по оставшимся (k-1) независимым переменным. Для k=2 независимых переменных это значение равно Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru (квадрату их выборочного коэффициента корреляции).

Если j-я независимая переменная не связана с остальными X, то Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru и Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru . Если зависимость имеет место, то Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru . Значение Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru , близкое к 1, говорит о том, что для этой переменной проблемы мультиколлинеарности не существует. Оценка ее коэффициента и значение t-статистики не изменятся значительно, если другие независимые переменные будут добавлены в уравнение регрессии или удалены из него. Значение Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru , гораздо большее 1, указывает, что оценка коэффициента при этой независимой переменной неустойчива. Ее величина и значение t-статистики могут сильно измениться при добавлении в уравнение регрессии или удалении из него других независимых переменных. В сущности, большая величина фактора Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru означает, что имеется избыточная информация о независимых переменных. Информация, предоставляемая переменной с большим Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru , уже присутствует в других независимых переменных. При наличии мультиколлинеарности интерпретировать влияние отдельной независимой переменной на зависимую гораздо сложнее

Для оценки эффекта одной, отдельно взятой независимой переменной при наличии в модели мультиколлинеарности существует несколько способов, ни один из которых не является универсальным для всех возможных случаев.

1 Создать новые переменные X, которые обозначим как Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru , посредством масштабирования всех независимых переменных по следующей формуле:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Все новые переменные будут иметь нулевое среднее значение и одно и то же выборочное среднеквадратическое отклонение. Вычисления коэффициентов регрессии для этих новых независимых переменных будут менее чувствительны к ошибкам округления при наличии мультиколлинеарности.

2 Найти и удалить из набора данных одну или более независимых переменных, являющихся избыточными.

3 Воспользоваться методом оценки, отличным от метода наименьших квадратов.

4 Представить зависимую переменную Y как линейную комбинацию некоррелирующих между собой независимых переменных Х.

5 Отобрать независимые переменные на начальном этапе исследования (сразу отказываться от переменных, "говорящих об одном и том же").

Для получения уравнения многомерной регрессии, наилучшего для прогноза значений интересующей переменной в первую очередь требуется определить набора возможных независимых переменных. Необходимо включить в рассмотрение все переменные, которые способны улучшить точность прогноза. При выборе окончательного вида уравнения появляется дилемма обеспечения наилучшего прогноза с наименьшими затратами. Другими словами, когда исследователь выбирает независимые переменные для окончательного варианта уравнения регрессии, он должен учитывать два противоречащих друг другу требования.

1 Необходимо использовать в уравнении как можно больше независимых переменных, содержащих новую информацию о зависимой переменной.

2 Поскольку сбор и обработка информации о каждой новой переменной требуют дополнительных затрат, в уравнении должно быть как можно меньше переменных. Обычно самое простое уравнение и есть самое лучшее.

Выбор наилучшего уравнения регрессии обычно предусматривает поиск компромисса между этими двумя противоположными требованиями, и личная оценка исполнителя является необходимым элементом этого поиска.

После того как составлен (по возможности) полный список потенциальных независимых переменных, необходимо отобрать переменные, которые могут оказаться неадекватными данному случаю. Независимая переменная может быть исключена из рассмотрения, если она:

- не имеет существенного отношения к решению поставленной задачи (всегда должна существовать некоторая реальная взаимосвязь между зависимой и данной независимой переменными);

- характеризуется значительными ошибками измерения;

- дублирует другие независимые переменные (Мультиколлинеарность);

- имеются большие проблемы в ее измерении (точные данные недоступны или обходятся очень дорого).

Далее необходимо сократить список независимых переменных, чтобы получить "наилучший" набор независимых переменных. Никакая из известных процедур отбора не гарантирует обязательного получения "наилучшего" набора независимых переменных. В действительности, зачастую единственного "лучшего" набора переменных просто не существует. К тому же различные способы отбора переменных вовсе не обязательно приводят к одному и тому же уравнению регрессии. Поэтому реально процесс отбора переменных очень субъективен. Основным преимуществом автоматических процедур отбора переменных является то, что в результате исследователь сможет сосредоточить свое основное внимание на меньшем наборе переменных.

В данной процедуре рассматриваются все возможные уравнения регрессий, включающие потенциальные независимые переменные. Исследователь начинает с уравнения, не содержащего ни одной независимой переменной, и анализирует все их возможные комбинации, чтобы выбрать наилучший набор независимых переменных.

В этой процедуре для сравнения уравнений регрессий могут использоваться различные критерии.

Рассмотрим только метод с использованием коэффициента детерминации Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru , включающий четыре этапа.

На первом этапе необходимо построить уравнения регрессий для данной зависимой переменной и всех возможных наборов независимых переменных. Каждая независимая переменная может присутствовать или не присутствовать в уравнении (две возможности), потому всего будет 2k уравнений (где k обозначает число независимых переменных). Так, если используется восемь независимых переменных (k=8), то потребуется рассмотреть 28 = 256 уравнений.

Второй этап процедуры - разделение уравнений на множества в соответствии с количеством параметров, которые необходимо оценить.

Третий этап состоит в выборе наилучшей независимой переменной (или переменных) из каждой группы с определенным числом параметров. Уравнение с наибольшим Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru считается наилучшим.

На четвертом этапе осуществляется субъективный выбор - какое уравнение является наилучшим. С одной стороны, исследователю желательно иметь наибольшее из возможных значений показателя Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru , а с другой, - необходимо использовать максимально простое уравнение регрессии. Подход, предусматривающий анализ всех возможных моделей регрессии, предполагает, что количество точек данных n превышает число параметров k.

Вообще говоря, анализ всех возможных вариантов регрессии является неоправданным. Если утверждается, что исследователь "рассмотрел все имеющиеся возможности", то это означает, что он проанализировал большое количество уравнений, которые разумнее было бы исключить из рассмотрения. Затраты компьютерного времени и физические усилия, потраченные на анализ результатов компьютерных расчетов, становятся просто непомерными, как только количество независимых переменных выходит за рамки первого десятка. Желательно использовать некоторые дополнительные процедуры отбора, позволяющие ускорить решение данной задачи.

Процедура пошаговой регрессии предусматривает поэтапное добавление в уравнение отдельных независимых переменных, по одной переменной на каждом этапе. При использовании этой процедуры компьютер позволяет обработать большое количество независимых переменных за одно выполнение программы.

Пошаговая регрессия наилучшим образом может быть описана посредством перечисления основных этапов проводимых вычислений (алгоритмом):

1 Рассматриваются все возможные простые регрессии. Независимая переменная, объясняющая наибольшую значимую долю вариации Y (имеет наибольшую корреляцию с зависимой переменной), - это первая переменная, включаемая в уравнение регрессии.

2 Следующая переменная, вводимая в уравнение, - это та (из еще не включенных в уравнение), которая привносит наибольший значимый вклад в регрессионную сумму квадратов. Является ли этот вклад значимым, определяется с помощью F-теста. Значение F-статистики, которое должно быть превышено для признания значимости некоторой переменной, часто называется значением F для включения.

3 После включения дополнительной переменной в уравнение, отдельный вклад в регрессионную сумму квадратов каждой из переменных, уже включенных в уравнение, проверяется на значимость с помощью F-теста. Если полученное значение F-статистики окажется меньше, чем величина, называемая F для исключения, данная переменная исключается из уравнения регрессии.

4 Этапы 2 и 3 повторяются, пока все возможные добавления не окажутся незначимыми, а все возможные удаления - значимыми. В этот момент процедура выбора заканчивается.

Пошаговая регрессия позволяет включать или исключать независимые переменные из уравнения регрессии на разных этапах исследования. Независимая переменная удаляется из модели, если она перестает давать значимый вклад при добавлении новой переменной.

Пользователь программы пошаговой регрессии сам указывает значения, определяющие, остается ли переменная в уравнении или удаляется. Поскольку F-статистика, используемая в пошаговой регрессии, такова, что F=t2 , где t – t-статистика для проверки значимости независимой переменной, F = 4 (соответствующее |t|=2) - это обычный выбор значения F для включения и F для исключения. Значение F для включения, равное 4, по существу, эквивалентно проверке на значимость независимой переменной на уровне 5%. Программа пошаговой регрессии в приложении Minitab предусматривает, что пользователь выбирает уровень Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru для включения и Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru для исключения переменных вместо значения F. Выбор значения Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru =0,05, приблизительно эквивалентен использованию F=4.

Результат пошаговой процедуры - это регрессионная модель, содержащая только независимые переменные с величинами t, значимыми на указанном уровне. Однако поскольку процедура проводилась шаг за шагом, у нас нет гарантии, что в данную регрессию включены, к примеру, три наилучшие для составления прогноза переменные. Кроме того, метод автоматического отбора не позволяет указать на необходимость преобразования переменных и исключить проблему мультиколлинеарности. Наконец, пошаговая регрессия не может создать важные переменные, не указанные пользователем. В любом случае необходимо тщательно продумать набор независимых переменных, предлагаемых для исследования с помощью программы пошаговой регрессии.

Метод пошаговой регрессии очень прост и удобен в использовании. К несчастью, этот метод можно очень легко употребить неправильно. Зачастую, изучая модель регрессии, исследователь создает большое количество возможных независимых переменных, а затем с помощью пошаговой процедуры определяет, какие из них являются значимыми. Проблема заключается в том, что при анализе большого количества независимых переменных проводится очень много t-тестов и становится вполне возможным допустить ошибку I рода (добавить незначимую переменную). В этом случае окончательная модель будет содержать переменную, не связанную с зависимой переменной линейно и включенную в модель только по случайности.

Как было отмечено выше, еще одна проблема связана с исходным выбором возможных независимых переменных. Когда эти переменные отобраны, слагаемые высших порядков (криволинейные, нелинейные и произведения) часто пропускаются с тем, чтобы сохранить лишь переменные, удобные для исследования. Таким образом, несколько важных переменных могут быть исключены из модели изначально. Становится очевидным, что интуитивный выбор исследователем начального множества независимых переменных – весьма критический момент в получении удачной регрессионной модели.

Регрессионный анализ будет неполон, пока мы не убедимся, что выбранная модель адекватно представляет данные. Непременно следует проверить адекватность найденной модели до того, как она станет частью методики принятия решений.

Исследование остатков - это важный момент в определении адекватности модели. Несколько графиков остатков, строящихся для проверки предположений о модели регрессии, были предложены в Методических указаниях к проведению лабораторной работы №5. Кроме того, если модели регрессии используются с данными временных рядов, важно вычислить автокорреляции остатков для проверки условия их независимости. Выводы (и решения), сделанные по моделям, не соответствующим основным регрессионным предположениям, могут оказаться совершенно ошибочными. Например, можно заключить, что какие-то изменения независимой переменной приведут к нужным изменениям зависимой переменной, что на самом деле окажется не так. Может быть сделан вывод, что прогноз с большой надежностью (с доверительной вероятностью 0,95) будет не более чем на 2% отличаться от будущего значения зависимой переменной, тогда как фактически доверительная вероятность окажется намного меньше, и т.д.

Рассмотрим некоторые дополнительные способы оценки регрессионной модели. Эти способы направлены на выделение наблюдений, крайних в наборе или представляющих собой выбросы (т.е. наблюдений, заметно отличающихся по значению от остальных данных). Выбросы часто скрываются процессом подгонки и не могут быть достаточно просто определены при исследовании графика остатков. Тем не менее, они могут оказывать существенное влияние на выбор подходящей регрессионной функции. Необходимо тщательно изучать выбросы для того, чтобы принять обоснованное решение, следует ли их оставить в наборе данных или удалить из него. И если их оставлять, то следует определить, как лучше поступить - или влияние выбросов на функцию регрессии должно быть уменьшено, или функция регрессии должна быть подправлена.

Мера влияния i-й точки данных на положение функции регрессии измеряется значением рычага Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru . Значение рычага зависит только от независимых переменных и не зависит от зависимой переменной Y. Для простой линейной регрессии с одной независимой переменной X:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Для k независимых переменных выражение для i-го рычага сложнее; однако, можно показать, что 0 < Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru < 1 и его среднее значение равно Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru .

Если i-я точка данных имеет большое значение рычага ( Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru близко к 1), прогноз, для этого значения X почти полностью определяется величиной Y, при очень малом влиянии других данных. Точка с большим значением рычага также размещается на графике на удалении от остальных X (и от их комбинаций). Эмпирически установленное правило утверждает, что Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru может считаться достаточно большим, если Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru .

Определение выбросов или крайних значений Y основывается на размерах остатков Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru . Большие остатки показывают, что значение Y находится далеко от его прогноза, вычисленного по уравнению регрессии. Большая величина остатка будет выделяться на гистограмме остатков как значение, удаленное от нуля (в любом направлении). На графике зависимости остатков от значений прогноза большой остаток будет выделяться как точка, удаленная вверх или вниз от горизонтальной оси.

Пакеты программ, подобные приложению Minitab, отмечают флажком точки данных с крайними значениями Y, вычисляя "стандартизованные" остатки и выделяя точки с большими значениями стандартизованных остатков.

Один метод стандартизации основан на том, что оценки стандартных отклонений остатков равны:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

где Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru - стандартная ошибка оценки, a Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru - значение рычага, связанное i-й точкой данных. Тогда стандартизованный остаток равен:

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Все стандартизованные остатки имеют дисперсию 1. Стандартизованный остаток считается большим (а значение соответствующей зависимой переменной - крайним), если

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Значения Y, соответствующие точкам данных с большими стандартизованными остатками, могут очень сильно повлиять на расположение прямой регрессии.

Для построения уравнения регрессии:

а) Ввести данные в Minitab for Windows

б) Для проведения корреляционного анализа выбрать команду

StartàBasic StatisticàCorrelation

в) На экране раскроется диалоговое окно Correlation (Корреляция), представленное на рис. 21

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Рис. 21. Диалоговое окно Correlation приложения Minitab

- в поле Variables ввести значения Y, X1, X2, X3, X4, X5.

- щелкнуть на кнопке ОК, и на экран будут выведены результаты, представленные в листинге (рис. 22).


Correlations: Y; X1; X2; X3; X4; X5 Y X1 X2 X3 X4 X1 0,676 0,000   X2 0,798 0,228 0,000 0,226   X3 -0,296 -0,222 -0,287 0,112 0,238 0,124   X4 0,550 0,350 0,540 -0,279 0,002 0,058 0,002 0,136   X5 0,618 0,309 0,693 -0,243 0,314 0,000 0,097 0,000 0,195 0,091

Рис.22 Листинг результата корреляционного анализа в системе Minitab

Корреляционная матрица показывает наличие достаточно тесной связи между зависимой переменной Y и независимыми переменными.

г) Для запуска процедуры анализа регрессии выбрать команду StartàRegressionàRegression

д) На экране раскроется диалоговое окно Regression (регрессия)

- в поле Response в качестве зависимой переменной выбрать величину Y

- в поле Predictors в качестве независимых переменных выбрать величины X1, X2, X3, X4, X5

- для продолжения работы щелкнуть на кнопке Options. В появившемся окне выбрать Variance inflation factor для расчета степени мультиколлинеарности (фактор роста дисперсии (VIF)).

- щелкнуть на кнопке ОК, и на экран будут выведены результаты, представленные в листинге (рис. 23).

Regression Analysis: Y versus X1; X2; X3; X4; X5 The regression equation is Y = - 89,7 + 0,202 X1 + 6,12 X2 + 0,113 X3 - 0,005 X4 - 0,50 X5   Predictor Coef SE Coef T P VIF Constant -89,70 17,01 -5,27 0,000 X1 0,20245 0,02813 7,20 0,000 1,237 X2 6,1248 0,9178 6,67 0,000 2,536 X3 0,1135 0,5034 0,23 0,824 1,139 X4 -0,0047 0,7850 -0,01 0,995 1,596 X5 -0,500 1,744 -0,29 0,777 2,082   S = 3,96972 R-Sq = 89,5% R-Sq(adj) = 87,4%   Analysis of Variance Source DF SS MS F P Regression 5 3238,09 647,62 41,10 0,000 Residual Error 24 378,21 15,76 Total 29 3616,30   Source DF Seq SS X1 1 1653,15 X2 1 1582,73 X3 1 0,88 X4 1 0,03 X5 1 1,30

Рис.23. Листинг результатов регрессионного анализа

Ниже объясняется используемая в приложении Minitab терминология, даются необходимые определения и описываются выполняемые вычисления. Все эти пояснения относятся к содержимому листинга, представленного на рис. 23.

- Coef - коэффициенты регрессии. Найденное уравнение регрессии является следующим:

Y = - 89,7 + 0,202 X1 + 6,12 X2 + 0,113 X3 - 0,005 X4 - 0,50 X5

- R-Sq - уравнение регрессии объясняет 89,5% вариации объема продаж.

- s - стандартная ошибка оценки равна 3,97 ед.. Эта величина является мерой отклонения полученных значений от величин прогноза.

- Т – значение t-статистики. В этом случае большое значение статистики для переменных X1, X2, и малое значение р указывают, что коэффициент при этих переменных значимо отличаются от нуля. Таким образом, коэффициенты при обеих независимых переменных значимо отличаются от нуля.

- Р - значение р = 0,000 равно вероятности получить значение t с абсолютной величиной, не меньшей 7,20, если гипотеза Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru справедлива. Поскольку эта вероятность весьма мала, то гипотеза Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru отклоняется. Коэффициент при переменных X1, X2 значимо отличны от нуля. Коэффициенты же при переменных X3, X4, X5 незначимы

- SS - разложение суммы квадратов, SST=SSR + SSE (общая сумма квадратов = сумма квадратов регрессии + сумма квадратов ошибок).

- F - вычисленное значение F (41,10) используется для проверки значимости регрессии. Табличное значение F-статистики с числом степеней свободы df=5, 24 при уровне значимости 5% равно 2,62. Следовательно, регрессия значима. Функция регрессии объясняет значительную часть изменчивости Y.

- R-Sq(adj) - скорректированный коэффициент детерминации.

- Значение VIF для переменных Х2 и Х5 говорит о наличии мультиколлинеарности.

Последовательно избавляясь от незначимых переменных в уравнении регрессии (повторяя шаг 3 для оставшихся переменных) получим итоговое уравнение (листинг представлен на рис. 24)

Таким образом, полученное уравнение регрессии объясняет 89,5% вариации параметра Y. Мультиколлинеарность переменных отсутствует. По t-статистике коэффициенты уравнения регрессии значимы, по F-статистике уравнение также значимо.

е) Чтобы получить графики остатков, выбрать команду Stats àRegression àResidual plots. Графики остатков представлены на рисунке 25.

Анализ графиков также свидетельствует, что уравнение регрессии адекватно описывает взаимосвязь между объемами продаж за месяц (Y), результатами теста способностей (X1) и возрастом продавцов (X2).

Рост результатов теста способностей на единицу приводит к росту объема продаж на 0,2 единицы, увеличение возраста исполнителя на единицу (внутри исследуемого интервала значений Х2) приводит к росту объема продаж на 5,93 единицы.

Regression Analysis: Y versus X1; X2 The regression equation is Y = - 86,8 + 0,200 X1 + 5,93 X2   Predictor Coef SE Coef T P VIF Constant -86,79 12,35 -7,03 0,000 X1 0,19973 0,02456 8,13 0,000 1,055 X2 5,9314 0,5596 10,60 0,000 1,055   S = 3,75361 R-Sq = 89,5% R-Sq(adj) = 88,7%   Analysis of Variance Source DF SS MS F P Regression 2 3235,9 1617,9 114,83 0,000 Residual Error 27 380,4 14,1 Total 29 3616,3   Source DF Seq SS X1 1 1653,2 X2 1 1582,7

Рис.24 Листинг результатов регрессионного анализа (итоговый)

ж) Результат автокорреляционного анализа остатков представлен на рис. 26

Так как все значения автокорреляции близки к нулю и находятся в доверительном интервале, можно сделать вывод о случайности (независимости) остатков. Следовательно, уравнение регрессии можно использовать для интерпретации имеющихся данных.

з) Для определения прогнозного объема продаж необходимо подставить требуемые значения в уравнение регрессии:

Y = - 86,8 + 0,200 X1 + 5,93 X2 =-86,8+0,200*83+5,93*25 = 78,05 ед.

Т.е. при найме на работу сотрудника прошедшего тест на способности на 83 балла возрастом 25 лет, можно ожидать, что ежемесячный объем продаж составит 78,05 ед.

Выбросы
Выбросы
Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Рис.25 Графики остатков

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Рис.26 Автокорреляционный анализ остатков

Интервальный прогноз можно получить, воспользовавшись теоретическими положениями.

и) Для запуска процедуры пошаговой регрессии выбрать команду StatàRegressionàStepwise.

к) На экране появится диалоговое окно Stepwise Regression, показанное на рис. 27

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Puc. 27 Диалоговое окно Stepwise Regression приложения Minitab

- зависимая переменная (Response) содержится в столбце С1, озаглавленном Y;

- независимые переменные содержатся в столбцах С2-С6, озаглавленных X1, X2, X3, X4, X5

- чтобы ввести значение уровня значимости, щелкнуть на кнопке Methods

л) На экране раскроется диалоговое окно Stepwise-Methods, показанное на рис. 28.

Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru

Рис. 28. Диалоговое окно Stepwise-Method приложения Minitab

- поскольку в расчетах используется уровень значимости 0,05, изменить значения в полях Alpha to enter и Alpha to remove с 0,15 на 0,05

- щелкнуть на кнопке ОК, а затем еще раз на кнопке ОК в диалоговом окне Stepwise Regression. На экран будут выведены результаты, представленные на рис. 29.

По рис. 29 видно, что переменная возраста вводится в уравнение регрессии первой и объясняет 63,7% дисперсии значений объема продаж. Поскольку значение р, равное 0,0000, меньше величины Пример решения задачи 2 с использованием программного продукта Minitab - student2.ru , переменная возраста добавляется в модель. На втором этапе в уравнение регрессии вводится переменная, характеризующая результаты теста способностей. В этом случае уравнение регрессии объясняет 89,48% вариации продаж. Коэффициенты регрессий при переменных значительно отличаются от нуля, и вероятность того, что это происходит лишь в результате случайного отклонения почти нулевая.

Stepwise Regression: Y versus X1; X2; X3; X4; X5 Alpha-to-Enter: 0,05 Alpha-to-Remove: 0,05   Response is Y on 5 predictors, with N = 30   Step 1 2 Constant -100,85 -86,79 X2 6,97 5,93 T-Value 7,01 10,60 P-Value 0,000 0,000 X1 0,200 T-Value 8,13 P-Value 0,000 S 6,85 3,75 R-Sq 63,70 89,48 R-Sq(adj) 62,41 88,70 Mallows Cp 57,3 0,1  

Рис. 29 Листинг результатов пошаговой регрессии в приложении Minitab

Следовательно, уравнение регрессии примет вид:

Y = - 86,8 + 5,93 X2 + 0,200 X1

Вопросы к зачету

1 Сущность процесса прогнозирования и его необходимость для решения экономических задач.

2 Методы экономического прогнозирования как учебной и научной дисциплины.

3 Типология прогнозов

4 Прогнозирование в системе планирования производством

5 Прогнозирование и экономический анализ

6 Оценка качества прогноза в процессе принятия решений1

7 Альтернативы прогнозирования

8 Понятие и проверка наличия тенденции

9 Экстраполяция на основе аналитических показателей рядов динамики

10 Экстраполяция на основе средних величин

11 Экстраполяция на основе индекса сезонности

12 Сущность метода экстраполяция тренда

13 Выбор вида уравнения тренда

14 Оценка качества прогноза. Интервалы доверия

15 Сущность метода экпоненциального сглаживания

16 Расчетные формулы

17 Понятие и сущность моделирования как инструментария прогнозирование

18 Классификация моделей

19 Процесс построения экономико-статистических моделей

20 Отбор системы показателей модели

21 Выбор и обоснование формы связи

22 Расчет и интерпретация параметров и характеристик модели.

23 Оценка статистической надежности модели

24 Методы предания моделям статистической надежности

25 Сущность и разновидности экспертных методов

26 Метод экспертных оценок «Дельфи»

27 Подбор экспертов

28 Организация и проведения экспертного опроса

29 Определение количественных параметров и показателей экспертного опроса

30 Оценка степени согласованности мнений экспертов

31 Анализ результатов опроса экспертов

32 Прогнозирование по обводным кривым

33 Построение сценариев

34 Таблица « затраты-выпуск»

35 Экономические индикаторы и индексы

36 Метод анкетных обследований

37 Метод «мозговой атаки»

38 Метод морфологического анализа

39 Метод «синектика»

40 Методы генерирования идей

Библиографический список

1 Вишнев С.М. Основы комплексного прогнозирования. - М.: Наука, 1997,-287с.

2 Економічний словник-довідник / За ред. д. економ, наук, проф. С.В.Мочерного. - К.: Феміна, 1995.- 368 с.

3 Емельянов А.С.Эконометрия и прогнозирование.- М.: Экономика, 1985.-208с.

4 Тейл Г. Прикладное экономическое прогнозирование: Пер. с англ.-М.: Прогресс, 1970.-504 с.

5 Тейл Г. Экономические прогнозы и принятие решений. Пер. с англ.- М.: Статистика. 1971.- 485 с.

6 Ханк Д.Э. Бизнес прогнозирование // Д.Э. Ханк, Д.У. Уичерн, А.Дж. Райтс. – М.: Издательский дом «Вильямс», 2003. – 656 с.

Наши рекомендации