Выполнение задания в ППП MS Excel.

Ход работы:

Определите фактор, оказывающий влияние (x) и результативный признак (y). Для построения уравнения регрессии воспользуемся Пакетом анализа: Сервис – Анализ данных – Регрессия. Если строки Анализ данных в Сервисе нет, то надо предварительно выполнить следующие действия: Сервис – Надстройки – Пакет анализа (отметить флажком).

В окне Регрессия:

Входной интервал Х – это столбец данных, определенных вами как фактор (причина); Входной интервал Y – это столбец данных, определенных вами как результат. Выходной интервал – несколько чистых ячеек на том же листе, где находятся исходные данные, или на отдельном листе. В результате получаем таблицу расчетов (см. пример в таблице 2).

Таблица 2. «Вывод итогов»

Регрессионная статистика
Множественный R 0,502621
R-квадрат 0,252628
Нормированный R-квадрат 0,159206
Стандартная ошибка 25,16016
Наблюдения
Дисперсионный анализ
  df SS MS F Значимость F
Регрессия 1711,83 1711,83 2,704169 0,138707
Остаток 5064,27 633,0337    
Итого 6776,1      
  Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение 18,37277 19,30663 0,95163 0,369146
Переменная x1 0,533713 0,324557 1,644436 0,138707

1.Из таблицы берем значения коэффициентов регрессии и получаем уравнение : у = 18,37277 + 0,533713х1 (коэффициенты при y – пересечении и переменной x1).

2.Проверка на значимость заключается в проверке гипотезы Н0:а0=0,т.е. проверке гипотезы о статистической незначимости проверяемого параметра а0, другими словами, проверки вывода о том, что проверяемый параметр сформировался под влиянием случайных причин, а не в результате достаточно сильного влияния, т.е. закономерности. В таблице уровень значимости (Р-значение t-статистики при Y-пересечении) равен 0,369146, что значительно превышает уровень 0,05 или 5%. Делаем вывод о том, что гипотезу о незначимости коэффициента регрессии а0 принимаем. Аналогично проверяем гипотезу о незначимости параметра b1 (при переменной x1) и гипотезу о незначимости всей регрессионной модели (по уровню значимости F).

Проверку значимости коэффициентов уравнения можно сделать по значению t-статистики, которое сравнивается с пороговым значением, зафиксированным в таблице t-статистики. Для коэффициента а0значение t-статистики равно 0,951653, для коэффициента b1 значение t-статистики равно 1,644436. Сравниваем каждое из этих значений с пороговым значением. Если пороговое значение t-статистики меньше, чем в данной модели, проверяемый коэффициент уравнения значим и наоборот. Пороговое значение найдете в таблице значений t-статистики. Пороговое значение находим в таблице в зависимости от выбранного уровня значимости и числа степеней свободы, рассчитанного по формуле:

k = n – 3

k- число степеней свободы:

n- число наблюдений.

Выбранный уровень значимости указывает вероятность ошибки, т.е. при уровне значимости 0,05 проверяемый коэффициент уравнения регрессии считается значимым с вероятностью (1 – 0,05) или 95%; при уровне значимости 0,01 проверяемый коэффициент уравнения регрессии считается значимым с вероятностью (1 – 0,01) или 99%.

Возможен и другой способ проверки. В таблице 2, кроме значений t-статистики, дан уровень значимости t-статистики ( графа «Р – Значение»). Если уровень значимости, приведенный в таблице, не превышает 0,05 (5%), делаем вывод, то проверяемый коэффициент значим и наоборот. Кроме того, уровень значимости может быть указан более точно, чем больше или меньше 0,05. Так, «Р – Значение» равное 0,369146 говорит о том, уровень ошибки при проверке гипотезы о незначимости коэффициента а0 уравнения регрессии равен 0,369146 (36,92%), а для коэффициента b1 – 0,138707 (13,87%). Поскольку оба значения ошибки гораздо больше 5%, гипотеза о незначимости коэффициентов уравнения, следовательно и самого уравнения регрессии, принимается. Коэффициент a0 может быть принят лишь с вероятностью (1–0,369146) или 63%, коэффициент b1 – с вероятностью (1-0,138707) или 88%. 3.Оценку тесноты связи делаем по R – квадрат.

R – квадратизмеряет тесноту связи через отношение дисперсий результативного признака. Чем ближе R –квадратк 0, тем слабее связь между x и y, чем ближе R –квадрат с 1, тем сильнее связь.

4.Проверка на значимость всей регрессионной модели, т.е. уравнения регрессии и коэффициента тесноты связи, проводим по F-критерию. Берем F-критериюиз таблицы 2 и сравниваем с пороговым значением из таблицы “Значения F-критерия». Если пороговое значение F-критерия меньше, чем в данном примере (2,704169), проверяемая регрессионная модель значима и наоборот. Пороговое значение определяется в зависимости от выбранного уровня значимости и числа степеней свободы (k1 и k2), рассчитанных по формулам:

k1 = n– 3

k2 = n-m

где k1 и k2- число степеней свободы;

n - число наблюдений;

m – число параметров уравнения регрессии, для парной регрессии равно 2.

Второй вариант проверки – это определение вероятности принятия гипотезы о незначимости регрессионной модели по уровню “Значимость F”, равное в этом примере 0,138707 или 13,87%. Данное значение, говорит о том, что модель незначима.

Определите факторы, оказывающие влияние и обозначьте их (x1,x2,…..xk). Определите результативный признак (y). Для построения уравнения регрессии воспользуемся Пакетом анализа ППП Ехсеl: Сервис – Анализ данных – Регрессия. Если строки Анализ данных в Сервисе нет, то надо предварительно выполнить следующие действия: Сервис – Надстройки – Пакет анализа(поставить метку).

В окне Регрессия:

Входной интервал Х – это столбцы данных, определенных вами как факторы (выделяются единым массивом); Входной интервал Y – это столбец данных, определенных вами как результат. Выходной интервал – несколько чистых ячеек на том же листе, где находятся исходные данные, или на отдельном листе. В результате получаем таблицу расчетов (см. пример в таблице 3).

Таблица 3. «Вывод итогов»

Регрессионная статистика
Множественный R 0,502621
R-квадрат 0,252628
Нормированный R-квадрат 0,159206
Стандартная ошибка 25,16016
Наблюдения
Дисперсионный анализ
  df SS MS F Значимость F
Регрессия 1711,83 1711,83 0,455188 0,769029
Остаток 5064,27 633,0337    
Итого 6776,1      
  Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение 22,80765 19,30663 0,351022 0,739878
Переменная x1 0,469454 0,324557 0,812186 0,453601
Переменная x2 0,119464 36,14581 0,226852 0,829522
Переменная x3 19,47716 0,023568 2,692154 0,017188
Переменная x4 10,17820 0,014578 2,811450 0,005123

1.Из таблицы берем значения коэффициентов регрессии и получаем уравнение:

y=22,80765+0,469454x1+0,119464x2+19,47716x3-10,1782x4 (коэффициенты при y – пересечении и переменных x1, x2, x3, x4.

2.Проверка на значимость заключается в проверке гипотезы о статистической незначимости проверяемых параметров, или проверки вывода о том, что проверяемый параметр сформировался под влиянием случайных причин, а не в результате достаточно сильного влияния, т.е. закономерности. При этом уровень значимости представляет собой вероятность ошибки отклонения правильной гипотезы. Договоримся, что допустимый уровень значимости при выполнении лабораторной работы примем равным 0,05 или 5%.

Проверку значимости коэффициентов уравнения можно сделать по значению t-статистики, которое сравнивается с табличным значением. Для коэффициента a0 значение t-статистики равно 0,351022; для коэффициента b1 значение t-статистики равно 0,812186; для b2 – 0,226852 и т.д. Сравниваем каждое из этих значений с пороговым. Если пороговое значение t-статистики меньше, чем в данной модели, проверяемый коэффициент уравнения значим и наоборот. Пороговое значение найдете в таблице t-статистики. Пороговое значение определяется в зависимости от выбранного уровня значимости и числа степеней свободы, рассчитанного по формуле:

k = n – m -1

k - число степеней свободы:

n - число наблюдений.

m - число факторов.

Выбранный уровень значимости указывает вероятность ошибки, т.е. при уровне значимости 0,05 проверяемый коэффициент уравнения регрессии считается значимым с вероятностью (1 – 0,05) или 95%; при уровне значимости 0,01 проверяемый коэффициент уравнения регрессии считается значимым с вероятностью (1 – 0,01) или 99%.

Возможен и другой способ проверки. В таблице 1, кроме значений t-статистики, дан уровень значимости t-статистики ( графа «Р – Значение»). Если уровень значимости, приведенный в таблице 2, не превышает 0,05 (5%), делаем вывод, что проверяемый коэффициент значим и наоборот. Кроме того, уровень значимости может быть указан более точно, чем просто больше или меньше 0,05. Так, «Р – Значение» равное 0,739878 говорит о том, коэффициент a0 уравнения регрессии можно считать значимым с вероятностью 0,739878 (73,99%), а коэффициент b1 – 0,453601 (45,36%), коэффициент b2 – 0,829522 (82,95%) и т.д. Поскольку все значения вероятности гораздо меньше 95%, гипотеза о незначимости коэффициентов уравнения принимается, а уравнение регрессии признается незначимым. Коэффициент a0 может быть принят лишь с вероятностью (1–0,739878) или 26%, коэффициент b1 – с вероятностью (1-0,453601) или 55% и т.д. Следовательно, перечисленные коэффициенты незначимы.

3.Оценку тесноты связи делаем по R – квадрат.

R – квадратизмеряет тесноту связи через отношение дисперсий результативного признака. Чем ближе R –квадратк 0, тем слабее связь между Х и Y, чем ближе R –квадрат с 1, тем сильнее связь. Нормированный R -квадрат дает скорректированную оценку коэффициента детерминации, т.е. долю вариации результата за счет включенных в уравнение регресии факторов в общей вариации результата с учетом степеней свободы общей и остаточной дисперсии. R – квадратпредставляет собой нескорректированную оценку тесноты связи (без учета числа степеней свободы). Различия между скорректированной и нескорректированной оценкой становятся важными, если мы должны сравнивать между собой модели с различным числом факторов. Сопоставлять уравнения регрессии с различным числом факторных признаков можно только по скорректированным значениям (Нормированный R - квадрат).

4.Проверка на значимость всей регрессионной модели, т.е. уравнения регрессии и коэффициента тесноты связи, проводим по F-критерию. Берем F-критериюиз таблицы 2 и сравниваем с пороговым значением из таблицы “Значения F-критерия» Приложения 2. Если пороговое значение F-критерия меньше, чем в данном примере (0,4552188), проверяемая регрессионная модель значима и наоборот. Пороговое значение определяется в зависимости от выбранного уровня значимости и числа степеней свободы (k1 и k2), рассчитанных по формулам:

k1 = n – 3

k2 = n-m

где k1 и k2- число степеней свободы;

n - число наблюдений;

m - число параметров уравнения регрессии, для парной регрессии равно 2.

Второй вариант проверки – это определение вероятности принятия гипотезы о незначимости регрессионной модели по значению ”Значимость F”, равное в этом примере 0,769029 или 76,9%. Данное значение ошибки при принятии гипотезы означает, что F-критерий незначим.

5.Для того, что улучшить создаваемую модель, надо сравнить между собой несколько вариантов регрессионной модели с различным числом факторов. Вспомним, что предпочтительнее та модель, которая при том же значении коэффициента детерминации имеет меньшее количество факторов, включенных в нее. Например, сравним 2-факторную модель с факторами х1 и х2 (таблица 4) с 3-факторной моделью, включающей факторы х1, х2, х3 (таблица 5) и с 4-факторной моделью, содержащей факторы х1, х2, х3, х4 (таблица 6).

Таблица 4. Вывод итогов

Регрессионная статистика
Множественный R 0,990069
R-квадрат 0,980237
Нормированный R-квадрат 0,974591
Стандартная ошибка 0,482617
Наблюдения
Дисперсионный анализ
  df SS MS F Значимость F
Регрессия 1711,83 1711,83 173,6 0,00000109
Остаток 5064,27 633,0337    
Итого 6776,1      
  Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение 23,76087 1,46212 16,25098 8,13Е-07
Переменная x1 -1,43478 0,311799 -4,60163 0,002479
Переменная x2 -0,86957 0,450043 -1,93218 0,094618

Таблица 5.Вывод итогов

Регрессионная статистика
Множественный R 0,994937
R-квадрат 0,989899
Нормированный R-квадрат 0,984848
Стандартная ошибка 0,372678
Наблюдения
Дисперсионный анализ
  df SS MS F Значимость F
Регрессия 1711,83 1711,83 2,25Е-06
Остаток 5064,27 633,0337    
Итого 6776,1      
  Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение 16,5 3,234325 5,101528 0,002218
Переменная x1 -0,83333 0,347853 -2,39565 0,053612
Переменная x2 -0,83333 0,347853 -2,39565 0,053612
Переменная x3 0,83333 0,347853 2,39548 0,053612

Таблица 6. Вывод итогов

Регрессионная статистика
Множественный R 0,998085
R-квадрат 0,996173
Нормированный R-квадрат 0,993112
Стандартная ошибка 0,251271
Наблюдения
Дисперсионный анализ
  df SS MS F Значимость F
Регрессия 1711,83 1711,83 325,4193 3,16Е-06
Остаток 5064,27 633,0337    
Итого 6776,1      
  Коэффициенты Стандартная ошибка t-статистика P-Значение
Y-пересечение 10,38235 3,052896 3,400821 0,019234
Переменная x1 -0,49216 0,263065 -1,87085 0,120281
Переменная x2 -0,65686 0,242496 -2,70876 0,042339
Переменная x3 0,75098 0,236290 3,17821 0,024588
Переменная x4 0,517647 0,180784 2,863347 0,035268

Сравним модели но нормированным R-квадрат. Самое большое значение у 3-факторной модели. Видно, что по мере увеличения факторов в уравнение регрессии увеличивается значение нормированного R-квадрат. Такое возможно только в том случае, когда в уравнение добавляются значимые факторы, оказывающие значительное влияние на результат. Именно поэтому их включение в регрессионную модель в той последовательности, в которой они включены в модель, целесообразно.

Улучшить регрессионную модель можно, оценив целесообразность включения каждого фактора отдельно, по коэффициентам парной корреляции: Сервис – Анализ данных – Корреляция. Входной интервал: выделяем весь массив данных; Группирование - по столбцам (ставим метку); Выходной интервал – выделяем несколько свободных ячеек. Пример расчетов представлен в таблице 7.

Таблица 7. Пример корреляционной матрицы

Y x1 x2 x3 x4
x1 0,98473      
x2 0,9594 0,8094    
x3 0,969223 -0,9525 0,6921  
x4 0,971908 -0,9513 0,71997 0,7199

В таблице 7 перечислены коэффициенты, показывающие тесноту связи между признаками попарно. Сравним их друг с другом по абсолютной величине. Особое внимание обратим на межфакторные связи, т.е. на связи между различными xk. Если межфакторная связь сильнее, чем связь фактора с результативным признаком, такой фактор следует исключить из уравнения регрессии. Наличие сильной межфакторной связи свидетельствует о сильной коллинеарности (взаимосвязи) факторов. Для качественной регрессионной модели недопустим уровень коллинеарности, превышающий 0,8.

В рассматриваемом примере самой сильной является связь y с x1 (0,98473), затем по мере убывания y с x4 (0,97908), y с x3 (0,969223), y с x2 (0,9594), x1 с x3 (0,9525), x1 с Х4 (0,9513), x1 с x2 (0,8094), x2 с x4 (0,71997), x3 с x4 (0,7199), x2 с x3 (0,6921). Поскольку межфакторные связи слабее связи факторного и результативного признаков, следует оставить в уравнении все факторные признаки, но требованию неколлинеарности факторов уравнения регрессии отвечает лишь связь x2 с x4; x3 с x4 и x2 с x3. Однако для окончательного вывода о целесообразности присутствия в уравнении каждого из факторных признаков, следует проверить уровни значимости коэффициентов уравнения по таблицам 3,4 и 5.

Поскольку 4-х факторная модель имеет самый высокий уровень коэффициента детерминации, начнем с нее. По Р-Значениям t-критерия видим, что коэффициент b1 имеет Р-Значениям t-критерия больше 5% (t-критерий равен 0,120281), следовательно x1 надо исключить из уравнения. (Это объясняется тем, что несмотря на сильную связь y и x1 мы исключаем x1 из уравнения регрессии из-за наличия сильной коллинеарности x1 с x2, x3, x4).

Аналогичную проверку сделаем для других значений хk и для других моделей. По Р-Значениям t-критериявидно, что в 3-х факторной модели все факторы находятся в одинаковом положении, т.к. уровень Р-Значениям t-критерия почти равен 5%. Для 2-х факторной модели удаленным из уравнения должен быть фактор x2 (Р-Значениям t-критерия для b2 = 0,094618, что больше 0,05). С учетом уровня Р-Значениямвсей модели (Р-Значения F-критерия) можно сделать вывод о высокой надежности всех трех моделей (0,00000109; 0,00000225; 0,00000316 соответственно).

Задание к лабораторной работе №3.

1.Построить уравнение парной линейной регрессии.

2.Измерить тесноту связи.

3.Проверить на значимость коэффициенты регрессии и регрессионную модель.

4.Построить уравнение множественной регрессии.

5.Измерить тесноту связи.

6.Проверить на значимость коэффициенты множественной регрессии и регрессионную модель.

7.Улучшить регрессионную модель путем удаления из модели факторов, не имеющих значимого влияния на результат.

8.Построить уравнение парной регрессии нелинейной формы.

Наши рекомендации