Мерой для оценки включения фактора в модель
служит частный F-критерий, т.е. . Так, если оцениваем значимость влияния фактора после включения в модель факторов , то формула частного F-критерия примет вид:
.
Если фактическое значение критерия с и степенями свободы больше табличного при заданном уровне значимости, то дополнительное включение фактора в модель статистически оправдано и коэффициент регрессии при данном факторе статистически значим.
Оценка значимости коэффициентов «чистой» регрессии
Для каждого фактора используется формула
,
где – коэффициент «чистой» регрессии при факторе ; – средняя квадратическая ошибка коэффициента регрессии ,
,
где – среднее квадратическое отклонение для признака y;
– коэффициент детерминации для уравнения множественной регрессии;
– среднее квадратическое отклонение для признака ;
– коэффициент детерминации для зависимости фактора со всеми другими факторами уравнения множественной регрессии.
Практические рекомендации по выполнению расчетов
с помощью табличного редактора MS Excel
Исследуется зависимость производительности труда y (т/ч) от уровня механизации работ (%), среднего возраста работников (лет) и энерговооруженности (кВт/100 работающих) по данным 14 промышленных предприятий.
y |
Необходимо:
1. Рассчитать параметры линейного уравнения множественной регрессии с полным перечнем факторов.
2. Оценить значимость уравнения в целом, используя значение множественного коэффициента корреляции и общего F-критерия Фишера.
3. Оценить статистическую значимость параметров регрессионной модели с помощью t-критерия.
4. Исследовать коллинеарность между факторами. При наличии мультиколлинеарности исключить какой-либо фактор из уравнения регрессии.
5. Построить новое уравнение множественной регрессии, провести все необходимые исследования, аналогичные проведенным выше.
6. На основании результатов п. 5 найти
а) средние коэффициенты эластичности фактора y от независимых факторов;
б) прогнозное значение результата при значении важнейшей объясняющей переменной, равном максимальному наблюденному значению, увеличенному на 10 %, и при значении второй объясняющей переменной, равном минимальному наблюденному значению, уменьшенному на 15%.
в) Интервальное предсказание значения y с надежностью 0,95.
1. Получение протокола расчета. Операция проводится с помощью инструмента Анализ данных/Регрессия. Она аналогична расчету параметров парной линейной регрессии, рассмотренной выше, только в отличие от парной регрессии при заполнении строки входной интервал X в диалоговом окне следует указать сразу все столбцы значений факторных переменных.
Результаты анализа имеют вид:
ВЫВОД ИТОГОВ | |||||
Регрессионная статистика | |||||
Множественный R | 0,97517313 | ||||
R-квадрат | 0,950962633 | ||||
Нормированный R-квадрат | 0,936251423 | ||||
Стандартная ошибка | 2,038864298 | ||||
Наблюдения | |||||
Дисперсионный анализ | |||||
df | SS | MS | F | ||
Регрессия | 806,1446094 | 268,7148698 | 64,64204 | ||
Остаток | 41,56967627 | 4,156967627 | |||
Итого | 847,7142857 | ||||
Коэффициенты | Стандартная ошибка | t-статистика | |||
Y-пересечение | 5,711742473 | 6,18918556 | 0,922858495 | ||
x1 | 0,148601283 | 0,340417689 | 0,436526326 | ||
x2 | 0,064880259 | 0,162051974 | 0,400366976 | ||
x3 | 0,037784221 | 0,033824423 | 1,11706919 |
2. Оцениваем статистическую значимость в целом. Изучив результаты, отмечаем, что в целом полученное уравнение линейной множественной регрессии
является статистически значимым. Действительно, . Сравним это число с критическим значением критерия Фишера, полученным при числе степеней свободы и , где n – число наблюдений, m – число параметров при переменной x. В нашем случае , . Критическое значение даст функция FРАСПОБР. , что существенно меньше расчетного значения.
О доле вариации результативного признака y, объясненной построенным уравнением множественной регрессии лучше всего судить по значению нормированного коэффициента корреляции, в данном случае он равен 0,9363. То есть построенное уравнение объясняет почти 94% всей вариации признака y.
3. Оцениваем статистическую значимость по отдельным параметрам. Чтобы оценить статистическую значимость параметров регрессионной модели с помощью t-критерия, найдем соответствующее нашим параметрам критическое значение с помощью функции СТЬЮДРАСПОБРпри заданном уровне значимости 0,05 и числе степеней свободы . Коэффициент признается значимым, если выполняется неравенство .
Имеем
0,44 | 0,4 | 1,12 | |
2,2281 |
Таким образом, ни один из факторов не имеет статистически значимого коэффициента регрессии, и построенное уравнение для прогнозирования непригодно.
4. Исследуем коллинеарность между факторами. Матрицу парных коэффициентов корреляции можно получить, используя инструмент Анализ данных/Корреляция. Заполнив диалоговое окно,
получим следующий результат:
Для оценки мультиколлинеарности факторов вычислим определитель матрицы парных коэффициентов корреляции факторов.
.
Поскольку определитель матрицы межфакторной корреляции близок к нулю, имеем мультиколлинеарность факторов и вытекающую отсюда ненадежность результатов множественной регрессии.
Оценка значимости мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных, т.е. . Доказано, что величина имеет приближенное распределение с числом степеней свободы . Если фактическое значение превосходит табличное (критическое), то гипотеза отклоняется, и мультиколлинеарность считается доказанной.
Имеем .
Критическое значение можно найти через статистическую функцию ХИ2ОБР( ), где – уровень значимости (по условию 0,05), а n – число степеней свободы. В нашем случае степеней свободы . Получаем . . Мультиколлинеарностью факторов пренебречь нельзя.
Особенно высока коллинеарность факторов и , . Один из этих факторов следует исключить из уравнения регрессии. Логично исключить тот, который имеет меньший коэффициент парной корреляции. Поскольку , а , исключаем фактор .
5. Построим регрессию на факторах и .
ВЫВОД ИТОГОВ | ||||
Регрессионная статистика | ||||
Множественный R | 0,974693901 | |||
R-квадрат | 0,950028201 | |||
Нормированный R-квадрат | 0,940942419 | |||
Стандартная ошибка | 1,962415214 | |||
Наблюдения | ||||
Дисперсионный анализ | ||||
df | SS | MS | F | |
Регрессия | 805,3524775 | 402,6762388 | 104,5621 | |
Остаток | 42,3618082 | 3,851073473 | ||
Итого | 847,7142857 | |||
Коэффициенты | Стандартная ошибка | t-статистика | ||
Y-пересечение | 7,265656067 | 4,873196972 | 1,490942416 | |
x2 | 0,031021017 | 0,136948082 | 0,226516625 | |
x3 | 0,052435862 | 0,004030875 | 13,00855684 |
Получили результаты:
, , , что много больше, чем .
0,22 | ||
2,2281 |
Таким образом, при весьма удовлетворительной значимости уравнения регрессии в целом, мы добились значимости коэффициента регрессии при переменной .
6.
а) Найдем коэффициенты эластичности:
, (6.18)
где – коэффициент «чистой» регрессии при факторе ;
– среднее значение результативного признака;
– среднее значение признака .
Имеем
y | |||
Среднее | 35,14285714 | 508,5714286 | |
Эластичность |
Таким образом, при изменении фактора (среднего возраста работников)на 1%, производительность возрастает незначительно, на 0,03%; при изменении фактора (энерговооруженности)на 1%, производительность труда увеличивается на 0,72%.
б) Выполним прогнозирование. Максимальное наблюденное значение фактора – 750. Минимальное значение фактора –31. Прогнозные значения факторов:
; .
Тогда .
в) Доверительный интервал для данного прогнозного значения y можно найти, зная предельную ошибку прогноза , где – соответствующее критическое значение критерия Стьюдента, а – ошибка прогнозного значения. В нашем случае .
Ошибку прогнозного значения функции регрессии получим по формуле
.
Шаг 1. Параметр S – стандартная ошибка регрессии приведен в последней регрессионной статистике .
Шаг 2. Матрица состоит из чисел: . То есть ,
.
Шаг 3. Матрица X состоит из чисел .
Составляем вспомогательную таблицу:
….. | ….. | …. | ….. | ….. | |
Сумма |
В данном случае, .
Шаг 4. Транспонируем матрицу X. Поскольку она симметрическая, то
.
Шаг 5. Найдем произведение матриц . В Exсel это можно сделать с помощью функции МУМНОЖ.
58537523,04 | |||
1,10572E+12 | |||
1,10572E+12 | 1,53641E+13 |
Шаг 6. Найдем обратную матрицу к матрице произведения . В Exсel это можно сделать с помощью функции МОБР.
0,281568563 | -0,007773123 | 9,81695E-06 | |
-0,007773123 | 0,000215175 | -3,13231E-07 | |
9,81695E-06 | -3,13231E-07 | 3,38079E-09 |
Шаг 7. Найдем произведение матриц (размерность матрицы произведения ).
0,083373216 | -0,002314683 | 3,84533E-06 |
Шаг 8. Найдем произведение матриц (размерность матрицы произведения , то есть только одно число).
.
Шаг 9. .
Шаг 10. .
Шаг 11. Таким образом, прогнозное значение результата будет с вероятностью 95% находиться в интервале .
Задания для самостоятельной работы
Вариант 1
x1 | ||||||||||||||
x2 | ||||||||||||||
x3 | ||||||||||||||
y |
Вариант 2
x1 | ||||||||||||||
x2 | ||||||||||||||
x3 | ||||||||||||||
y |
Вариант 3
x1 | ||||||||||||||
x2 | ||||||||||||||
x3 | ||||||||||||||
y |
Вариант 4
x1 | ||||||||||||||
x2 | ||||||||||||||
x3 | ||||||||||||||
y |
Вариант 5
x1 | ||||||||||||||
x2 | ||||||||||||||
x3 | ||||||||||||||
y |
Вариант 6
x1 | ||||||||||||||
x2 | ||||||||||||||
x3 | ||||||||||||||
y |
Вариант 7
x1 | ||||||||||||||
x2 | ||||||||||||||
x3 | ||||||||||||||
y |
Вариант 8
x1 | ||||||||||||||
x2 | ||||||||||||||
x3 | ||||||||||||||
y |
Вариант 9
x1 | ||||||||||||||
x2 | ||||||||||||||
x3 | ||||||||||||||
y |
Вариант 10
x1 | ||||||||||||||
x2 | ||||||||||||||
x3 | ||||||||||||||
y |