Вопрос 29. Робастное статистическое оценивание
При статистическом исследовании часто встречаются данные, которые по своим значениям сильно отклоняются от основного массива. Они, как правило, называются выбросами, засорением или грубыми ошибками.
Подобные выбросы искажают структуру статистической совокупности и вносят смещения в интегральные параметра (среднее, дисперсия).
Причины выбросов:
1. Статистическая особенность распределения, например нормальное распределение с минимальное вероятностью допускает сколь угодно больших значений (т.е. величина на самом деле не является ошибкой).
2. Неправильное причисление данных к исследуемой совокупности (ошибки группировки, типологической классификации).
3. Ошибка при регистрации и обработке исходной информации (ошибка оператора). Является одной из самых распространенных причин появления выбросов.
Решением проблем нахождения, устранения выбросов и получения адекватных оценок статистических показателей занимается робастное (устойчивое) оценивание.
1. Выявление грубых ошибок.
Методы:
1. Т-критерий Смирнова-Граббса).
Для нетипичного значения рассчитывают:
– выборочное среднее
– выборочное среднеквадратичное отклонение
– нетипичное значение
Tсравнивается с критическим значением метода Смирнова-Граббса на уровне значимости . В исходах сравнения выделяют следующие случаи:
- наблюдение не нарушает однородности выборки;
- наблюдение грубо нарушает однородность выборки и является нетипичным;
- требуются дополнительные аргументы для классификации наблюдения.
Дисперсионный критерий Граббса
проверяет на аномомальность отдельное значение.
Совокупность выстраивается в ряд .
возможные грубые ошибки концентрируются на хвостах ряда.
Для проверки аномальности минимального значения по ряду X вычисляются следующие показатели:
· выборочное среднее
· усеченное выборочное среднее
· статистика критерия Граббса
Для проверки аномальностимаксимального значения по ряду X вычисляются следующие показатели:
· выборочное среднее
· усеченное выборочное среднее
· статистика критерия Граббса
Значение статистик и варьируются в интервале от 0 до 1. Чем ближе значение к 1, тем меньше отличие между усеченной и исходной выборками.
сравнивается с критическим значением на уровне .
- наблюдение не нарушает однородности выборки;
- наблюдение грубо нарушает однородность выборки и является нетипичным;
- требуются дополнительные аргументы для классификации наблюдения.
L-критерий Титьена-Мура.
Предназначен для выявления групп из k>1 выбросов.
Для проверки аномальности нескольких минимальных значений по ряду X вычисляются следующие показатели:
· выборочное среднее
· усеченное выборочное среднее
· статистика критерия
Для проверки аномальности нескольких максимальных значений по ряду X вычисляются следующие показатели:
· выборочное среднее
· усеченное выборочное среднее
· статистика критерия Граббса
Полученные значения сравниваются с критическими значениями аналогично критерию Граббса.