Типовая задача построения парной регрессии и анализа ее качества

Задача. По территориям регионов приводятся данные по среднедневной прожиточный минимум и среднедневная заработная плата на одного трудоспособного жителя (таблица 2.5).

Таблица 2.5. Данные наблюдений по регионам

  Регион Среднедневной прожиточный минимум (х) Среднедневная заработная плата (у)

Требуется:

1. Построить линейное уравнение парной регрессии y по x .

2. Рассчитать линейный коэффициент парной корреляции, коэффициент детерминации и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость уравнения регрессии в целом, параметров регрессии и корреляции с помощью F -критерия Фишера и t -критерия Стьюдента.

4. Выполнить прогноз заработной платы y при прогнозном значении среднедушевого прожиточного минимума x, составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6. Выполнить решение задачи с помощью функции Регрессия пакета анализа MS Excel и привести графическую интерпретацию результатов решения.

Решение.

1. Для расчета параметров уравнения линейной регрессии строим расчетную таблицу 2.6.

Таблица 2.6. Расчетные данные для нахождения параметров регрессии

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

По формулам находим параметры регрессии

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

В результате уравнение регрессии:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Уравнение регрессии позволяет сделать вывод, что с увеличением среднедушевого прожиточного минимума на 1 у.е. среднедневная заработная плата возрастает в среднем на 0,92 у.е.

После нахождения уравнения регрессии заполняем столбцы 7–10 таблицы 2.6.

2. Тесноту линейной связи оценит парный коэффициент корреляции:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Поскольку значение коэффициента корреляции больше 0,7, то это говорит о наличии весьма тесной линейной связи между признаками.

Коэффициент детерминации: r2xy =0,521. Это означает, что 52% вариации заработной платы (y) объясняется вариацией фактора x – среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Качество построенной модели оценивается как хорошее, так как A не превышает 10%.

3. Оценку статистической значимости уравнения регрессии в целом проведем с помощью F -критерия Фишера. Фактическое значение F -критерия составит

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Табличное значение критерия при уровне значимости α = 5% и степенях свободы k1=1 и k2=12 - 2 =10 составляет Fтабл = 4,96. Так как Fфакт =10,41> Fтабл = 4,96 , то уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии и корреляции проведем с помощью t -статистики Стьюдента и путем расчета доверительного интервала каждого из параметров.

Табличное значение t -критерия для числа степеней свободы n - 2 =12 - 2 =10 и уровня значимости α = 0,05 составит tтабл = 2,23.

Определим стандартные ошибки ma, mb, mrxy.

Предварительно определим остаточную дисперсию на одну степень свободы

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Тогда стандартные ошибки параметров линейной регрессии и коэффициента корреляции составят значения:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Используем эти значения для сопоставления с параметрами регрессии и коэффициентом корреляции по t -критерию Стьюдента:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Фактические значения t -статистики превосходят табличное значение:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

поэтому параметры a , b и rxy не случайно отличаются от нуля, а статистически значимы.

Рассчитаем доверительные интервалы для параметров регрессии a и b. Для этого определим предельную ошибку для каждого показателя:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Доверительные интервалы

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью p =1-α = 0,95 параметры a и b, находясь в указанных границах, не принимают нулевых значений, то есть являются статистически значимыми и существенно отличны от нуля.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит: x0= Типовая задача построения парной регрессии и анализа ее качества - student2.ru *1,07 = 85,6*1,07 = 91,6 у.е., тогда индивидуальное прогнозное значение заработной платы составит:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru 0= 77,02 + 0,92×91,6 =161,29 у.е.

5. Ошибка прогноза составит:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Предельная ошибка прогноза, которая в 95% случаев не будет превышена, составит:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Доверительный интервал прогноза:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Выполненный прогноз среднедневной заработной платы является надежным ( p =1-α =1- 0,05 = 0,95) и находится в пределах от 131,92 у.е. до 190,66 у.е.

6. C помощью инструмента анализа данных Регрессия можно получить результаты регрессионной статистики, дисперсионного анализа, доверительных интервалов, остатки и графики подбора линии регрессии.

Для этого вводим исходные данные наблюдений согласно рис. 2.5 и задаем параметры функции Регрессия.

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Рис. 2.5. Ввод исходных данных параметров регрессии

Здесь: Входной интервал Y – диапазон, содержащий данные результативного признака; Входной интервал X – диапазон, содержащий данные признака-фактора; Метки – флажок, который указывает, содержит ли первая строка названия столбцов; Константа-ноль – флажок, указывающий на наличие или отсутствие свободного члена в уравнении регрессии; Выходной интервал – достаточно указать левую верхнюю ячейку будущего диапазона результата; Новый рабочий лист – можно указать произвольное имя нового листа (или не указывать, тогда результаты выводятся на вновь созданный лист). Далее задаем параметры вывода результатов.

Получаем следующие результаты для рассмотренного выше примера, представленные на рис. 2.6.

Откуда выписываем, округляя до 4 знаков после запятой и переходя к нашим обозначениям:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Рис. 2.6. Парный регрессивный анализ с помощью функции Регрессия

Уравнение регрессии:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Коэффициент корреляции:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Коэффициент детерминации:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Фактическое значение F -критерия Фишера:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru .

Число степеней свободы (df):

факторная m=1, остаточная n-2=10.

Остаточная дисперсия на одну степень свободы (MS):

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Корень квадратный из остаточной дисперсии (стандартная ошибка):

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Стандартные ошибки для параметров регрессии:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Фактические значения t-критерия Стьюдента:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Доверительные интервалы:

Типовая задача построения парной регрессии и анализа ее качества - student2.ru

Таким образом, найдены все рассмотренные выше параметры и характеристики уравнения регрессии. Как видим, результаты «ручного счета» от компьютерного отличаются незначительно (отличия связаны с ошибками округления).

Наши рекомендации