Тема: Многомерный регрессионный анализ
1. Цель и содержание лабораторной работы.
В простой линейной регрессии рассматривалась взаимосвязь между независимой и зависимой переменными. Связь между двумя переменными часто позволяет точно предсказать значение зависимой переменной, если известно значение независимой переменной. Однако для точного прогнозирования зависимой переменной обычно требуется знать значения более чем одной независимой переменной. Регрессионные модели с несколькими независимыми переменными называются моделями многомерной регрессии.
Выборуравнения многомерной регрессии с наиболее подходящими для прогноза переменными проводится следующим образом:
1. Определение набора возможных независимых переменных.
2. Исключение переменных, не имеющих существенного отно-шения к решению поставленной задачи (если переменная характеризуется значительными ошибками измерения, дублирует другие независимые переменные (мультиколлинеарность), точные данные по ней недоступны);
3. Выбор окончательного вида уравнения с «наилучшими» независимыми переменными, при этом решается задача обеспечения наилучшего прогноза с наименьшими затратами.
Области применения многомерного регрессионного анализа различны:
- отражение взаимосвязи уровня зарплаты работников с географическим расположением компаний, уровнем безработицы в регионе, темпами роста промышленности, членством в союзах, отраслью промышленности или уровнем зарплаты в конкурирующих фирмах;
- анализ изменения цены на акции исходя из получаемых дивидендов, доходов от каждой акции, дробления акций, ожидаемой процентной ставки, объемов сбережений и уровня инфляции;
- исследование влияния на изменение мнения покупателей размеров рекламного бюджета, выбора средств информации, повторения информации, частоты рекламных акций или выбора рекламирующей персоны;
- анализ зависимости объема продаж от расходов на рекламу, уровня цен, маркетинговых расходов конкурентов и разовых заработков покупателей, а также от большого числа других переменных.
Таким образом, целью лабораторной работы является приобретение практических навыков построения уравнения многомерной регрессии предлагаемой социально-экономической ситуации с помощью инструмента анализа данных Excel.
2. Методические положения построения модели многомерной регрессии на основе практического примера.
В табл. 5.1 представлены исходные данные для проведения расчетов, где, Y – выработка продукции, - коэффициент обновления основных фондов, 2 - доля рабочих высокой квалификации.
Необходимо ответить на следующие вопросы:
1. Оценить показатели вариации каждого признака и сделать вывод о возможностях применения МНК для их изучения.
2. Проанализировать линейные коэффициенты парной и частной корреляции.
3. Написать уравнение множественной регрессии, оценить значимость его параметров, пояснить их экономический смысл.
Таблица 5.1
Исходные данные для многомерной регрессии
№ предприятия | y | x1 | x2 | № предприятия | y | x1 | x2 |
3,9 | |||||||
3,9 | 6,4 | ||||||
3,7 | 6,8 | ||||||
7,2 | |||||||
3,8 | |||||||
4,8 | 8,2 | ||||||
5,4 | 8,1 | ||||||
4,4 | 8,5 | ||||||
5,3 | 9,6 | ||||||
6,8 |
4. С помощью F-критерия Фишера оценить статистическую надежность уравнения регрессии и . Сравнить значения скорректированного и нескорректированного коэффициентов множественной детерминации.
5. С помощью частных F-критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после .
6. Рассчитать средние частные коэффициенты эластичности и дать на их основе сравнительную оценку силы влияния факторов на результат.
Решение с помощьюExcel .
1.Дляоценки показателя вариации каждого признака необходимо составить сводную таблицу основных статистических характеристик для одного или нескольких массивов данных, которую можно получить с помощью инструмента анализа данных, Описательная статистика.Для этого следует выполнить следующие шаги:
1) введите исходные данные или откройте существующий файл, содержащий анализируемые данные;
в главном меню выберите последовательно пункты Сервис/Анализ данных/Описательная статистика, после чего щелкните по кнопке OK;
2) заполните диалоговое окно ввода данных и параметров вывода (рис. 5.1).
Рис. 5.1. Диалоговое окно ввода параметров инструмента
Описательная статистика
Входной интервал – диапазон, содержащий анализируемые данные, это может быть одна или несколько строк (столбцов).
Группирование – по столбцам или строкам – необходимо указать дополнительно.
Метки – флажок, который указывает, содержит ли первая строка названия столбцов или нет.
Выходной интервал – достаточно указать верхнюю левую ячейку будущего диапазона.
Новый рабочий лист - можно задать произвольное имя нового листа.
Если необходимо получить дополнительную информацию по итоговой статистике, уровню надежности, k-го наибольшего и наименьшего значений, установите соответствующие флажки в диалоговом окне. Щелкните по кнопке OK.
Результаты вычисления соответствующих показателей для каждого признака представлены на рис. 5.2.
Рис. 5.2. Результат применения инструмента Описательная статистика
Сравнивая значения средних квадратических σy, σx1, σx21 отклонений и средних величин , и определяя коэффициенты вариации, приходим к выводу о повышенном уровне варьирования признаков, хотя и в допустимых пределах, не превышающих 35%.
;
;
.
Следовательно, совокупность предприятий однородна, и для ее изучения могут использоваться метод наименьших квадратов и вероятностные методы оценки статистических гипотез.
2. Значения линейных коэффициентов парной корреляции определяют тесноту попарно связанных переменных, использованных в данном уравнении множественной регрессии. Линейные коэффициенты частной корреляции оценивают тесноту связи значений двух переменных, исключая влияние всех других переменных, представленных в уравнении множественной регрессии.
К сожалению, в ППП Excel нет специального инструмента для расчета линейных коэффициентов частной корреляции. Матрицу парных коэффициентов корреляции переменных можно рассчитать, используя инструмент анализа данных Корреляция.Для этого:
1) в главном меню последовательно выберите пункты Сервис/ Анализ данных/ Корреляция.Щелкните по кнопке OK;
2) заполните диалоговое окно ввода данных и параметров вывода (см. рис. 1.1);
3) результаты вычислений – матрица коэффициентов парной корреляции – представлены на рис. 5.3.
Значения коэффициентов парной корреляции указывают на весьма тесную связь выработки y как с коэффициентом обновления основных фондов - , так и с долей рабочих высокой квалификации - ( и ). Но в то же время, межфакторная связь весьма тесная и превышает тесноту связи с y. В связи с этим для улучшения данной модели можно исключить из нее фактор как малоинформативный, недостаточно статистически надежный.
Рис. 5.3. Матрица коэффициентов парной корреляции
Коэффициенты частной корреляции дают более точную характеристику тесноты связи двух признаков, чем коэффициенты парной корреляции.Если сравнивать коэффициенты парной и частной корреляции, можно сказать, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи, именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.
3. Вычисление параметров линейного уравнения множественной регрессии.
Эта операция проводится с помощью инструмента анализа данных Регрессия.Она аналогична расчету параметров парной линейной регрессии, а отличие от парной регрессии состоит только в том, что в диалоговом окне при заполнении параметров входной интервал Х следует указывать не один столбец, а все столбцы, содержащие значения факторных признаков. Результаты анализа представлены на рис. 5. 4.
Рис. 5.4. Результат применения инструмента Регрессия
По результатам вычислений составим уравнение множественной регрессии вида
;
.
Величина оценивает агрегированное влияние прочих (кроме учтенных в модели факторов и ) факторов на результат y. Величины и указывают, что с увеличением и на единицу результат увеличивается соответственно на 0,9459 и 0,0856 млн. руб. Сравнивать эти значения не следует, т.к. они зависят от единиц измерения каждого признака и потому несопоставимы между собой.
Значения случайных ошибок параметров , и с учетом округления составят: , , . Они показывают, какое значение данной характеристики сформировалось под влиянием случайных факторов. Эти значения используются для расчета t-критерия Стьюдента ; ; .
Если значения t - критерия больше 2 - 3, можно сделать вывод о существенности данного параметра, который формируется под воздействием неслучайных причин. Здесь статистически значимыми являются и , а величина сформировалась под воздействием случайных причин, поэтому фактор , силу влияния которого оценивает , можно исключить как несущественно влияющий, неинформативный.
На это же указывает показатель вероятности случайных значений параметров регрессии: если меньше принятого нами уровня (обычно 0,1; 0,05 или 0,01; это соответствует 10%, 5% или 1% вероятности), делают вывод о несущественной природе данного значения параметра, т.е. о том, что он статистически значим и надежен. В противном случае принимается гипотеза о случайной природе значения коэффициентов уровня. Здесь > 5%, что позволяет рассматривать как неинформативный фактор и удалить его для улучшения данного уравнения.
4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает F-критерий Фишера:
По данным таблицы дисперсионного анализа, представленной на рис. 5.4, =151,65. Вероятность случайно получить такое значение F-критерия составляет 0 (см. значимость F), что не превышает допустимый уровень значимости 5%; об этом свидетельствует величина Р - значение из этой же таблицы. Следовательно, полученное значение неслучайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи .
Значения скорректированного и нескорректированного линейных коэффициентов множественной детерминации приведены на рис. 5. 4 в рамках регрессионной статистики. Нескорректированный коэффициент множественной детерминации =0,9469 оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 94,7% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами – на весьма тесную связь факторов с результатом.
Скорректированный коэффициент множественной детерминации =0,9407 определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов в модели и потому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 90%) детерминированность результата y в модели факторами и .
5. Информация для оценки с помощью частных F- критериев Фишера целесообразности включения в модель фактора после фактора и фактора после фактора может быть получена в ППП Statgraphics. Частный F- критерий показывает статистическую значимость включения фактора после того, как в нее включен фактор .
Но по данным, вычисленным с помощью ППП Excel, можно сделать общий вывод, который состоит в том, что множественная модель с факторами и с =0,9469 содержит неинформативный фактор . Если исключить фактор , то можно ограничиться уравнением парной регрессии более простым, хорошо детерминированным, пригодным для анализа и для прогноза.
6. Средние частные коэффициенты эластичности показывают, на сколько процентов от значения своей средней изменяется результат при изменении фактора на 1% от своей средней и при фиксированном воздействии на у всех прочих факторов, включенных в уравнение регрессии. Для линейной зависимости
, (5.1)
где - коэффициент регрессии при в уравнении множественной регрессии.
Здесь ,
.
По значениям частных коэффициентов эластичности можно сделать вывод о более сильном влиянии на результат у признака фактора , чем признака фактора : 0,6% против 0,2%.
3. Задание лабораторной работы.
В предлагаемых по вариантам задачах необходимо составить прогноз социально-экономического развития анализируемого показателя по методу многомерной регрессии, используя последовательность аналитических расчетов представленного практического примера.
Вариант 1.
По исходным данным, представленным в табл. 5.2, определить возможность выбора определенного кандидата на должность менеджера по продажам на основе предлагаемых независимых переменных. В качестве зависимой переменной предлагается выбрать объем продаж за месяц рассматриваемого менеджера.
Таблица 5.2
Исходные данные
Объем продаж за месяц (в единицах) Y | Результат теста способностей X1 | Возраст X2 | Результат теста тревожности X3 | Опыт работы X4 | Средний балл школьного аттестата X5 |
22,1 | 4,9 | 2,4 | |||
22,5 | 3,0 | 2,6 | |||
23,1 | 1,5 | 2,8 | |||
0,6 | 2,7 | ||||
22,6 | 1,8 | 2,0 | |||
21,7 | 3,3 | 2,5 | |||
3,2 | 2,5 | ||||
22,4 | 2,1 | 2,3 | |||
22,6 | 6,0 | 2,8 | |||
21,1 | 1,8 | 3,4 | |||
22,5 | 3,8 | 3,0 | |||
22,2 | 4,5 | 2,7 | |||
24,8 | 4,5 | 2,8 | |||
24,8 | 0.1 | 3,8 | |||
22,6 | 0,9 | 3,7 | |||
20,5 | 4,8 | 2,1 | |||
21,9 | 2,3 | 1,8 |
Вариант 2.
Необходимо составить прогноз времени, затрачиваемого персоналом на обслуживание одного покупателя, используя такие независимые переменные, как количество приобретаемых единиц товара и общая стоимость покупок. Для составления прогноза представлены данные по выборке из 18 покупателей, представленные в табл. 5. 2.
Определите лучшее уравнение регрессии для предлагаемых данных. Составьте прогноз времени обслуживания покупателя, приобретающего 14 единиц товара общей стоимостью 70 ден. ед.
Таблица 5.3
Исходные данные
Покупатель | Время обслуживания (мин.), Y | Стоимость покупок (ден. ед.), X1 | Количество единиц товара, X2 |
3,0 | |||
1,3 | |||
0,5 | |||
7,4 | |||
5,9 | |||
8,4 | |||
5,0 | |||
8,1 | |||
1,9 | |||
6,2 | |||
0,7 | |||
1,4 | |||
9,1 | |||
0,9 | |||
5,4 | |||
3,3 | |||
4,5 | |||
2,4 |
Вариант 3.
С целью прогнозирования годового объема продаж запчастей к автомобилям в регионе собраны статистические данные, представленные в табл. 5.4. Необходимо составить прогноз, используя в качестве независимых переменных количество пунктов розничной торговли в конкретном регионе, количество автомобилей и доход населения.
Спрогнозируйте годовой объем продаж для региона 12 с 2500 пунктами обслуживания и 20,2 млн. ден. ед. зарегистрированных автомобилей и доходом населения 40 млрд. ден. ед.
Регион | Годовой объем продаж (млн. ден. ед.), Y | Количество пунктов обслуживания, X1 | Количество зарегистрированных автомобилей, X2 | Общий доход населения (млрд. ден. ед.), X2 |
52,3 | 24,6 | 98,5 | ||
26,0 | 22,1 | 31,1 | ||
20,2 | 7,9 | 34,8 | ||
16,0 | 12,5 | 32,7 | ||
30,0 | 9,0 | 68,8 | ||
46,2 | 11,5 | 94,7 | ||
35,0 | 20,5 | 67,6 | ||
3,5 | 4,1 | 19,7 | ||
33,1 | 8,9 | 67,9 | ||
25,2 | 6,1 | 61,4 | ||
38,2 | 9,5 | 75,6 |
СПИСОК ЛИТЕРАТУРЫ
1. Андронова, И.В. Социальное и экономическое прогнозирование. [Текст]: методические указания по изучению курса и самостоятельной работе студентов очной и заочной форм обучения специальностей 080502 «Экономика и управление на предприятии отраслей ТЭК»/ И.В.Андронова, Е.Г. Кульчихина, Е.Л. Чижевская – Тюмень: ТюмГНГУ, 2003.
2. Андронова, И. В. Методология формирования управленческих решений на основе экспертного оценивания [Текст]: учеб. пособие/ И.В. Андронова, И.В.Осиновская – Тюмень: ТюмГНГУ, 2004. – 122 с.
3. Андронова, И.В. Социально-экономическое прогнозирование (в схемах и таблицах) [Текст]: учебно-практическое пособие/ И.В. Андронова, В.В. Пленкина, И.В.Осиновская – Тюмень: ТюмГНГУ, 2005. – 155 с.
4. Андронова, И.В. Социально-экономическое прогнозирование: практикум (в схемах и таблицах) [Текст]: учебное пособие/ И.В. Андронова, В.В. Пленкина, И.В. Осиновская – Тюмень: ТюмГНГУ, 2007. – 105 с.
5. Дуброва, Т.А. Статистические методы прогнозирования [Текст]: учебное пособие для вузов/ Т.А. Дуброва – М.: ЮНИТИ – Дана, 2003. – 206 с.
6. Сулицкий, В.М. Методы статистического анализа в управлении [Текст]: учеб. пособие/ В. М. Сулицкий – М.: Дело, 2002. – 520 с.
7. Ханк, Д.Э. Бизнес- прогнозирование [Текст]/ Д.Э. Ханк, Д.У. Уичерн, А. Дж. Райтс; пер. с англ. – Изд. 7-е. - М.: Издательский дом «Вильямс», 2003. - 656 с.
Приложение 1
Таблица П. 1.1
Исходные данные для выполнения лабораторной работы №1
№ вариант | Показатель | Условные годы | ||||||||
Добыча нефти, тыс.т | 273,1 | 295.2 | 312,6 | 365,8 | 389,9 | 403,4 | 408,6 | 397,8 | 367,9 | |
Объем бурения, млн.м | 6,7 | 8,3 | 14,3 | 18,0 | 22,7 | 26,0 | 28,8 | 28,2 | 25,2 | |
Скорость бурения, м/ст-мес. | ||||||||||
Средняя глубина скважин, тыс. м | 2,05 | 2,25 | 2,40 | 2,48 | 2,52 | 2,53 | 2,55 | 2,55 | 2,56 | |
Коэффициент эксплуатации нефтяных скважин, доли | 0,940 | 0,945 | 0,952 | 0,928 | 0,946 | 0,944 | 0,945 | 0,944 | 0,942 | |
6 | Действующий фонд газовых скважин, скв. | |||||||||
Ввод в эксплуатацию новых скважин, скв. | ||||||||||
Добыча газа, млрд. мЗ | 20,3 | 22,0 | 23,6 | 25,2 | 28,8 | 28,9 | 30,8 | 31,9 | 32,5 | |
Проходка на 1 бур. бригаду, тыс. м | 34,4 | 53,0 | 43,2 | 48,9 | 54,3 | 57,2 | 62,7 | 62,4 | 58,8 | |
Среднесуточный дебит скважин, т | 105,8 | 125,4 | 94,3 | 43,9 | 36,6 | 31,2 | 26.2 | 22.2 | 18,7 | |
Объем перекачки газа, млрд. м3 | ||||||||||
Средняя дальность транспортировки нефти, тыс. км | 1,24 | 1,34 | 1,46 | 1,60 | 1,70 | 1,85 | 1,97 | 2,07 | 2,16 | |
Протяженность магистральных газопроводов, тыс. км | ||||||||||
Коммерческая скорость, м/ст.-мес. | ||||||||||
Объем реализации нефтепродуктов тыс. т |
Приложение 2
Таблица П. 2.1
Квантиль распределения Стьюдента
| 0,900 | 0,950 | 0,975 | 0,990 | 0,995 | ||
3,078 | 6,314 | 12,706 | 31,821 | 63,657 | |||
1,886 | 2,920 | 4,303 | 6,965 | 9.925 | |||
1,638 | 2,353 | 3,182 | 4,541 | 5,841 | |||
1,533 | 2,132 | 2,776 | 3,747 | 4,604 | |||
1,476 | 2,015 | 2,571 | 3,365 | 4,032 | |||
1,440 | 1,943 | 2,447 | 3,143 | 3,707 | |||
1,415 | 1,895 | 2,365 | 2,998 | 3,499 | |||
1,397 | 1,860 | 2,306 | 2,896 | 3,355 | |||
1,383 | 1,833 | 2,262 | 2,821 | 3,250 | |||
1,372 | 1,812 | 2,228 | 2,764 | 3,169 | |||
1,363 | 1,796 | 2,201 | 2,718 | 3,106 | |||
1,356 | 1,782 | 2,179 | 2,681 | 3,055 | |||
1,350 | 1,771 | 2,160 | 2,650 | 3,012 | |||
1,345 | 1,761 | 2,145 | 2,624 | 2,977 | |||
1,341 | 1,753 | 2,131 | 2,602 | 2,947 | |||
1,337 | 1,746 | 2,120 | 2,583 | 2,921 | |||
1,333 | 1,740 | 2,110 | 2,567 | 2,898 | |||
1,330 | 1,734 | 2,101 | 2,552 | 2,878 | |||
1,328 | 1,729 | 2,093 | 2,539 | 2,861 | |||
1,325 | 1,725 | 2,086 | 2,528 | 2,845 | |||
1,316 | 1,708 | 2,060 | 2,485 | 2,787 | |||
1,310 | 1,697 | 2,042 | 2,457 | 2,750 | |||
1,306 | 1,690 | 2,030 | 2,438 | 2,724 | |||
1,303 | 1,684 | 2,021 | 2,423 | 2,704 | |||
1,301 | 1,679 | 2,014 | 2,412 | 2,690 | |||
1,299 | 1,676 | 2,009 | 2,403 | 2,678 | |||
1,297 | 1,673 | 2,004 | 2,396 | 2,670 | |||
1,296 | 1,671 | 2,000 | 2,390 | 2,660 | |||
1,294 | 1,667 | 1,994 | 2,381 | 2,648 | |||
1,292 | 1,664 | 1,990 | 2,374 | 2,639 | |||
1,291 | 1,662 | 1,987 | 2,368 | 2,632 | |||
1,290 | 1,660 | 1,984 | 2,364 | 2,626 |
СОДЕРЖАНИЕ
ВВЕДЕНИЕ………………………………………………………......................3
Общие положения по выполнению лабораторных работ……………………4
Лабораторная работа № 1……………………………………………………...5
Лабораторная работа № 2 ………………………………………………........12
Лабораторная работа №3 ………………………………………………...…..17
Лабораторная работа № 4 ……………………………………………………21
Лабораторная работа № 5 ……………………………………………………44
СПИСОК ЛИТЕРАТУРЫ…………..………………………………………...56
ПРИЛОЖЕНИЯ……………………………………………………………….57
Карнаухов Максим Николаевич
Осиновская Ирина Владимировна
Шарипова Анастасия Евгеньевна
СОЦИАЛЬНОЕ И ЭКОНОМИЧЕСКОЕ ПРОГНОЗИРОВАНИЕ: