Методические рекомендации и выполнение
1. Построим поле корреляции, для чего отложим на плоскости в прямоугольной системе координат точки (хi, уi) (рис 1.)
Рис. 1.Поле корреляции
2. Для расчета параметров линейной регрессии строим расчетную таблицу (табл.3.)
Таблица 3
а) Построим линейное уравнение парной регрессии у по х. Используя данные таблицы 3, имеем : ,
.
Тогда линейное уравнение парной регрессии имеет вид: .
Оно показывает, что с увеличением среднедушевого прожиточного минимума на 1 руб. средняя зарплата возрастает в среднем на 0,92 руб.
б) Учитывая , что , оценим тесноту линейной связи с помощью линейного коэффициента парной корреляции:
.
Найдем коэффициент детерминации : .
Это означает, что почти 52% вариации заработной платы у объясняется вариацией фактора х – среднедушевого прожиточного минимума.
в) Для оценки качества полученной модели найдем среднюю ошибку аппроксимации: .
В среднем, расчетные значения отклоняются от фактических на 5,752%. Качество построенной модели оценивается как хорошее, т.к. значение – менее 8 %.
г) Для оценки силы связи признаков у и х найдем средний коэффициент эластичности: .
Таким образом, в среднем на 0,5% по совокупности изменится среднедневная зарплата от своей средней величины при изменении среднедушевого прожиточного минимума в день одного трудоспособного на 1%.
д) Для оценки статистической значимости результатов используем F – критерий Фишера. Выдвигаем нулевую гипотезу Но о статистической незначимости полученного линейного уравнения. Рассчитаем фактическое значение F – критерия при заданном уровне значимости = 0,05
.
Сравнивая табличное Fтабл=F(0,05;1;10)=4,96 и фактическое значения, отмечаем, что , что указывает на необходимость отвергнуть выдвинутую гипотезу Но.
е) Оценку статистической значимости параметров регрессии проведем с помощью t – статистики Стьюдента и путем расчета доверительного интервала для каждого из показателей.
Выдвигаем гипотезу H0 о статистически незначимом отличии показателей регрессии от нуля: a=b = rxy = 0.
Табличное значение t – статистики tтабл при заданном уровне значимости = 0,05 для числа степеней свободы d.f. = n– 2 = 12 – 2 = 10 составляет 2,23.
Определим величину случайных ошибок :
, ,
.
Найдем соответствующие фактические значения t – критерия Стьюдента
, ,
.
Фактические значения t – статистики превосходят табличное значение tтабл= 2,23: , , ,
поэтому гипотеза H0 о статистически незначимом отличии показателей регрессии от нуля отклоняется, т.е. параметры a ,b и rxy не случайно отличаются от нуля, а статистически значимы.
Для расчета доверительных интервалов для параметров a и b определим их предельные ошибки : ,
.
Доверительные интервалы :
для параметра a: (23,029; 130,923), для параметра b: (0,297; 1,5436).
С вероятностью р = 1 – = 1 – 0,05 = 0,95 можно утверждать, что параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.
ж) По условию задачи прогнозное значение фактора выше его среднего уровня на 5%, тогда оно составляет :
и прогнозное значение зарплаты при этом составит:
159,6472 руб.
Найдем ошибку прогноза
.
Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит: .
Доверительный интервал прогноза: (130,3958; 188,8986).
3. Проверим полученные результаты с помощью ППП MS Excel.
Параметры парной регрессии вида y=a + bx определяет встроенная статистическая функция ЛИНЕЙН. Порядок вычисления следующий:
1) ведите исходные данные или откройте существующий файл, содержащий анализируемые данные;
2) выделите область пустых ячеек 5х2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики;
3) активизируйте Мастер функций любым из способов:
а) в главном меню выберете Вставка/Функция;
б) на панели Стандартнаящелкните по кнопке Вставка функции
(в результате появится диалоговое окно Мастер функций (рис. 2));
4) в окне Категория(рис. 2) выберите Статистические, в окне Функция – ЛИНЕЙН. Щелкните по кнопке ОК(в результате появится диалоговое окно ввода аргументов функции ЛИНЕЙН (рис. 3));
Рис.2. Диалоговое окно «Мастер функций»
Рис.3. Диалоговое окно ввода аргументов функции ЛИНЕЙН
5) заполните аргументы функции (рис. 3):
Известные значения у – диапазон, содержащий данные результативного признака;
Известные значения х – диапазон, содержащий данные факторов независимого признака;
Константа – логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается свободным образом, если Константа = 0, то свободный член равен 0;
Статистика – логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет; если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения
Щелкните кнопкой ОК;
6) в левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите клавишу <F2>, а затем – на комбинацию клавиш <CTRL>+<SHIFT>+<ENTER>.
Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме (табл. 4)
Таблица 4
Значение коэффициента b | Значение коэффициента a |
Среднее квадратическое отклонение b | Среднее квадратическое отклонение a |
Коэффициент детерминации R2 | Cреднеквадратическое отклонение у |
F – статистика | Число степеней свободы |
Регрессионная сумма квадратов | Остаточная сумма квадратов |
Для данных рассматриваемого примера результат вычисления функции ЛИНЕЙН представлен на рис. 4
Рис.4. Результат вычисления функции ЛИНЕЙН
Замечание. С помощью инструмента анализа данных Регрессия, помимо результатов регрессионной статистики, дисперсионного анализа и доверительных интервалов, можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности. Порядок действий следующий:
1) проверьте доступ к пакету анализа. В главном меню последовательно выберите Сервис/Настройки. Установите флажок Пакет анализа(рис. 5);
Рис.5. Подключение надстройки Пакет анализа
2) в главном меню выберите Сервис/Анализ данных/Регрессия(рис. 6). Щелкните по кнопке ОК;
Рис.6. Диалоговое окно Анализ данных
3) заполните диалоговое окно ввода данных и параметров вывода (рис. 7):
Входной интервал Y – диапазон, содержащий данные результативного признака;
Входной интервал Х – диапазон, содержащий данные факторов независимого признака;
Метки – флажок, который указывает, содержит ли первая строка названия столбцов или нет;
Константа – нуль – флажок, указывающий на наличие или на отсутствие свободного члена в уравнении;
Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона;
Новый рабочий лист – можно задать произвольное имя нового листа.
Если необходимо получить информацию и графики остатков, установите соответствующие флажки в диалоговом окне. Щелкните кнопкой ОК.
Результаты регрессионного анализа для данных рассматриваемой задачи представлены на рис. 8
Рис.7. Диалоговое окно ввода параметров инструментаРегрессия
Рис.8. Результаты применения инструментаРегрессия
Прогнозное значение результата определим следующим образом:
1) активизируйте Мастер функций,
2) в окне Категориявыберите Статистические, в окне Функция –ТЕНДЕНЦИЯ(рис. 9);
Рис.9. Диалоговое окно «Мастер функций»
Рис.10. Диалоговое окно ввода аргументов функцииТЕНДЕНЦИЯ
3) заполните аргументы функции (рис.10.):
Изв знач у – диапазон, содержащий данные результативного признака;
Изв знач х – диапазон, содержащий данные факторов независимого признака;
Нов _ знач _ х – новые значения х, для которых возвращается соответствующие значения у;
Константа – логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается свободным образом, если Константа = 0, то свободный член равен 0;
В данном случае прогнозируемое значение получилось равным 159,686. Сравнивая полученные вручную и с помощью ППП MS Excel. данные, убеждаемся в правильности выполненных действий.
Варианты заданий лабораторной работы №1
По территориям региона приводятся данные за 199Х год (табл.5).
Таблица 5
№ региона | Среднедушевой прожиточный минимум в день , руб.,x | Среднедневная заработная плата, руб., y |
70+2i | ||
90-4j | ||
80+i | ||
90-3i | ||
90+i | ||
110-5i | ||
60+j | ||
90-2j | ||
80-j | ||
87+0,5i | ||
75-0,1j | ||
110+0,1i |
где i, j две последние цифры номера зачетной книжки соответственно.
Требуется:
1. Построить поле корреляции.
2. Для характеристики зависимости у от х:
а) построить линейное уравнение парной регрессии у от х;
б) оценить тесноту связи с помощью коэффициентов корреляции и детерминации;
в) оценить качество линейного уравнения с помощью средней ошибки аппроксимации;
г) дать оценку силы связи с помощью среднего коэффициента эластичности;
д) оценить статистическую значимость результатов регрессионного моделирования с помощью F – критерия Фишера.
е) оценить статистическую значимость параметров регрессии и корреляции,
ж) найти прогнозное значение результата, если прогнозное значение фактора увеличится на 7% от среднего уровня . Определить доверительный интервал прогноза при уровне значимости =0,05 .
3. Проверить полученные результаты с помощью ППП MS Excel.
Вопросы для самопроверки
1. В чем состоят ошибки спецификации модели?
2. Поясните смысл коэффициента регрессии, назовите способы его оценивания.
3. Что такое число степеней свободы и как оно определяется для факторной, остаточной, общей сумм квадратов?
4. Какова концепция F – критерия Фишера для линейной парной регрессии?
5. Как оценивается значимость параметров уравнения регрессии?
6. Каковы методы подбора вида математической функции ?
7. Какова концепция дисперсионного анализа результатов регрессии?
8. Как находится интервальная оценка прогнозного значения по уравнению регрессии?
9. Как определяются коэффициенты эластичности?
10. В чем смысл средней ошибки аппроксимации и как она определяется?
Содержание отчета по лабораторной работе:
1) тема и цель лабораторной работы;
2) текст задания лабораторной работы;
3) результаты, зафиксированные на бумаге, в соответствии с изложенным выше выполнением типового задания лабораторной работы;
4) электронный вариант выполнения лабораторной работы;
5) защита лабораторной работы.