Материал из MachineLearning.
Перейти к: навигация, поиск
Для получения информации об адекватности построеной модели многомерной линейной регрессии исследуют регрессионные остатки. Если выбранная регрессионная модель хорошо описывает истинную зависимость, то остатки должны быть независимыми нормально распределенными случайными величинами с нулевым средним, и в их значениях должен отсутствовать тренд. Анализ регрессионных остатков - это процесс проверки выполнения этих условий.
Пусть дана последовательность наблюдаемых величин и получены их оценки:
- предикторные переменные, - коэффициенты регрессионной модели, - ответ.
Регрессионные остатки обозначим через , .
Свойства регрессионных остатков
Для того, чтобы регрессионная модель хорошо описывала истинные данные, регрессионные остатки должны обладать следующими свойствами:
Эту гипотезу можно проверять любым параметрическим или непараметрическим критерием сравнения среднего с заданным значением( в данном случае - с нулём).
- т.е. одинаковая дисперсия.
Проверяется аналогично, любым параметрическим или непараметрическим критерием сравнения дисперсии с заданным значением. Например, Критерий Зигеля-Тьюки.
Это дополнительное предположение. Его важно проверить, если для проверки других свойств регрессионных остатков мы хотим использовать статистический критерий, предполагающий нормальность данных. Для проверки этой гипотезы можно использовать Критерий нормальности.
- независимы.
Независимость остатков может быть проверена при помощи статистики Дарбина-Уотсона.
.
Для проверки этих условий используется визуальный анализ. Зависимость не должна иметь закономерностей, где .
Критерий Фишера применяется для проверки равенства дисперсий двух выборок. Его относят к критериям рассеяния.
При проверке гипотезы положения (гипотезы о равенстве средних значений в двух выборках) с использованием критерия Стьюдента имеет смысл предварительно проверить гипотезу о равенстве дисперсий. Если она верна, то для сравнения средних можно воспользоваться более мощным критерием.
В регрессионном анализе критерий Фишера позволяет оценивать значимость линейных регрессионных моделей. В частности, он используется в шаговой регрессии для проверки целесообразности включения или исключения независимых переменных (признаков) в регрессионную модель.
В дисперсионном анализе критерий Фишера позволяет оценивать значимость факторов и их взаимодействия.
Критерий Фишера основан на дополнительных предположениях о независимости и нормальности выборок данных. Перед его применением рекомендуется выполнить проверку нормальности.
Описание критерия
Заданы две выборки .
Обозначим через и дисперсии выборок и , и — выборочные оценки дисперсий и :
;
,
где
— выборочные средние выборок и .
Дополнительное предположение: выборки и являются нормальными. Критерий Фишера чувствителен к нарушению предположения о нормальности.
Нулевая гипотеза
Статистика критерия Фишера:
имеет распределение Фишера с и степенями свободы. Обычно в числителе ставится большая из двух сравниваемых дисперсий. Тогда критической областью критерия является правый хвост распределения Фишера, что соотвествует альтернативной гипотезе .
Критерий (при уровне значимости ):
против альтернативы
если или , то нулевая гипотеза отвергается в пользу альтернативы .
против альтернативы
если , то нулевая гипотеза отвергается в пользу альтернативы ;
где есть -квантиль распределения Фишера с и степенями свободы.
Критерий Стьюдента