Вопрос 29. Робастное статистическое оценивание

При статистическом исследовании часто встречаются данные, которые по своим значениям сильно отклоняются от основного массива. Они называются выбросами, засорением или грубыми ошибками.

Пример

Вопрос 29. Робастное статистическое оценивание - student2.ru

Искажают структуру статистической совокупности и вносят смещения в интегральные параметры.

Основные причины выбросов:

1. Особенность распределения, например нормальное распределение с минимальное вероятностью допускает сколь угодно больших значений (т.е. величина на самом деле не является ошибкой).

2. Неправильное причисление данных к исследуемой совокупности (ошибки группировки, типологической классификации).

3. Ошибка при регистрации и обработке исходной информации (ошибка оператора).

Решением проблем нахождения, устранения выбросов и получения адекватных оценок статистических показателей занимается специальный раздел статистики – робастное (устойчивое) оценивание. Первый шаг робастного оценивания – это выявление грубых ошибок.

Методы выявления ошибок:

1. Т-критерий Смирнова-Граббса (для нормально распределенных случайных величин).

Для нетипичного значения рассчитывают:

Вопрос 29. Робастное статистическое оценивание - student2.ru ; Вопрос 29. Робастное статистическое оценивание - student2.ru – выборочное среднее

Вопрос 29. Робастное статистическое оценивание - student2.ru – выборочное среднеквадратичное отклонение; Вопрос 29. Робастное статистическое оценивание - student2.ru – нетипичное значение

Сравнивается с критическим значением Вопрос 29. Робастное статистическое оценивание - student2.ru метода Смирнова-Граббса на уровне значимости Вопрос 29. Робастное статистическое оценивание - student2.ru .

Вопрос 29. Робастное статистическое оценивание - student2.ru - наблюдение не нарушает однородности выборки;

Вопрос 29. Робастное статистическое оценивание - student2.ru - наблюдение грубо нарушает однородность выборки и является нетипичным;

Вопрос 29. Робастное статистическое оценивание - student2.ru - требуются дополнительные аргументы для классификации наблюдения.

2. Дисперсионный критерий Граббса (сравнивает исходную и усеченную дисперсии). Проверяет на аномальность отдельное значение.

Совокупность Вопрос 29. Робастное статистическое оценивание - student2.ru выстраивается в вариационный ряд Вопрос 29. Робастное статистическое оценивание - student2.ru . Грубые ошибки концентрируются на хвостах ряда. Для проверки аномальности минимума вычисляются:

· выборочное среднее Вопрос 29. Робастное статистическое оценивание - student2.ru

· усеченное выборочное среднее Вопрос 29. Робастное статистическое оценивание - student2.ru

· статистика критерия Граббса Вопрос 29. Робастное статистическое оценивание - student2.ru

Для проверки аномальности максимального то же самое, но отрезаем с конца:

· Вопрос 29. Робастное статистическое оценивание - student2.ru ; Вопрос 29. Робастное статистическое оценивание - student2.ru ; Вопрос 29. Робастное статистическое оценивание - student2.ru

Значение статистик Вопрос 29. Робастное статистическое оценивание - student2.ru и Вопрос 29. Робастное статистическое оценивание - student2.ru варьируются в интервале от 0 до 1. Чем ближе значение к 1, тем меньше отличие между усеченной и исходной выборками.

Полученное значение сравнивается с критическим значением Вопрос 29. Робастное статистическое оценивание - student2.ru на уровне значимости Вопрос 29. Робастное статистическое оценивание - student2.ru . В исходах сравнения выделяют следующие случаи:

Вопрос 29. Робастное статистическое оценивание - student2.ru - наблюдение не нарушает однородности выборки;

Вопрос 29. Робастное статистическое оценивание - student2.ru - наблюдение грубо нарушает однородность выборки и является нетипичным;

Вопрос 29. Робастное статистическое оценивание - student2.ru - требуются дополнительные аргументы для классификации наблюдения.

В случае, когда в совокупности несколько выбросов и их значения плотно группируются, критерий Граббса не работает.

3. L-критерий Титьена-Мура. Предназначен для выявления групп из k>1 выбросов.

Показатели для минимумов:

· выборочное среднее Вопрос 29. Робастное статистическое оценивание - student2.ru ; усеченное выборочное среднее Вопрос 29. Робастное статистическое оценивание - student2.ru

· статистика критерия Вопрос 29. Робастное статистическое оценивание - student2.ru

Для максимумов:

· выборочное среднее Вопрос 29. Робастное статистическое оценивание - student2.ru ; усеченное выборочное среднее Вопрос 29. Робастное статистическое оценивание - student2.ru

· статистика критерия Граббса Вопрос 29. Робастное статистическое оценивание - student2.ru

Полученные значения сравниваются с критическими значениями Вопрос 29. Робастное статистическое оценивание - student2.ru аналогично критерию Граббса.

4. Обобщенный E-критерий Титьена-Мура.Применяется при предположении, что выбросы распределены симметрично в нижней и верхней частях вариационного ряда . Алгоритм:

· расчет среднего для всей выборки Вопрос 29. Робастное статистическое оценивание - student2.ru

· расчет модулей отклонений Вопрос 29. Робастное статистическое оценивание - student2.ru

· ряд Вопрос 29. Робастное статистическое оценивание - student2.ru упорядочиваем по значению Вопрос 29. Робастное статистическое оценивание - student2.ru . Полученный ряд обозначим Вопрос 29. Робастное статистическое оценивание - student2.ru , Вопрос 29. Робастное статистическое оценивание - student2.ru , Вопрос 29. Робастное статистическое оценивание - student2.ru

· расчет среднего усеченного по k нетипичным значениям Вопрос 29. Робастное статистическое оценивание - student2.ru

· расчет статистики критерия Вопрос 29. Робастное статистическое оценивание - student2.ru

Полученное значение сравнивается с критическим значением Вопрос 29. Робастное статистическое оценивание - student2.ru аналогично критерию Граббса.

Устойчивое оценивание

Если предварительный анализ указывает на наличие грубых ошибок в выборке, то далее возможны два подхода: исключить объекты с грубыми ошибками или модифицировать их.

В многомерном случае устранение объекта из исследуемой совокупности зачастую неприемлемо. При этом может возникнуть необходимость определить устойчивые усеченные интегральные характеристики (мат. ожидания и т.д.). Для этого используют следующие методы:

1. Метод Пуанкаре расчета устойчивого среднего (режет распределение с двух сторон, т.к. 2k). Это пример наиболее простого варианта устойчивого оценивания статистических характеристик, путем оценки по усеченной совокупности данных, в которой устранены грубые выбросы.

Вопрос 29. Робастное статистическое оценивание - student2.ru ,

где k - число грубых ошибок, равное целой части от Вопрос 29. Робастное статистическое оценивание - student2.ru (т.е. k=[ Вопрос 29. Робастное статистическое оценивание - student2.ru ;

n - объем совокупности;

Вопрос 29. Робастное статистическое оценивание - student2.ru - специальный параметр, зависящий от теоретической частоты e ошибочных данных. Например, если по предыдущему опыту известно, что 1% данных ненадежны, то е принимается равным 1%. Значение Вопрос 29. Робастное статистическое оценивание - student2.ru при выбранном уровне е можно определить по таблице.

2. Метод Винзора модификации данных. Получаем не усеченное, а новое математическое ожидание. Применяется к симметричным распределениям. По сути метод Винзора в одномерном случае заключается в замене первых k значений вариационного ряд на Вопрос 29. Робастное статистическое оценивание - student2.ru , последних – на Вопрос 29. Робастное статистическое оценивание - student2.ru .

Устойчивое среднее значение по Винзору определяется по следующей формуле:

Вопрос 29. Робастное статистическое оценивание - student2.ru

где k вычисляется таким же образом как в методе Пуанкаре.

В случае многомерного засорения данных, когда выбросами являются не отдельные значения признаков, а векторы, можно использовать критерий Хоттелинга для проверки значения вектора x:

Вопрос 29. Робастное статистическое оценивание - student2.ru

где n – количество объектов; m – количество признаков; x – нетипичный вектор;

S – ковариационно-дисперсионная матрица. Вопрос 29. Робастное статистическое оценивание - student2.ru , где F – квантиль F-распределения

Если Т>Tтабл, то вектор признается аномальным.

Вопрос 30. 1.Основные поняия системного анализа.2. Свойства систем. 3.Особенности сложных систем. 4.Классификация методов моделирования. 5.Иерархия моделей. 6.Методы формализованного представления систем.

1.Основные системные понятия

Система – это совокупность элементов, объединённых общей функциональной средой и целью функционирования. Система не сводима к сумме своих элементов, элементы выступают и воспринимаются, как единое целое. Элементы вне системы другие. Связь элементов внутри системы сильнее, чем связь с элементами других систем.

К основным особенностям систем можно отнести:

Ø Система обладает новыми свойствами по сравнению с элементами

Ø Системы обладают свойствами оптим-ти, то есть проектируется по критериям оптим-ти

Ø Система создаётся для достижения какой-то цели

Цель – это вариант удовлетворения исходной потребности, выбранной из некоторого множества альтернатив, сформулированная на основе специального знания. Потребность – это категория объективная, а цель – субъективная, определяющаяся имеющимся опытом.

Цели реальных систем могут быть следующими:

1.Требуемое конечное состояние системы

2.Требуемый порядок смены состояния

3.Требуемое направление движения системы без фиксации конкретной конечной точки

Элемент системы – это условно неделимая самостоятельно функционирующая часть системы.

Компонент системы – это множество относительно однородных элементов, объединённых общими функциями при обеспечении выполнения общих целей развития системы.

Подсистема – комп-т, кот. сам рассматривается как сложная система.

Структура системы – это совокупность связей.

Эмерджентность (целостность) – это такое свойство системы S, которое принципиально не сводится к сумме свойств элементов, составляющих систему, и не выводится из них.

Элементы утрачивают часть своих индивид.свойств но могут приобрести новые. Система иерархична, есть обратные связи, имеет предельное состояние.

ОТКРЫТЫЕ и ЗАКРЫТЫЕ системы

Большая система - невозможно исследовать иначе, как по подсистемам.

Сложная - строится для решения многоцелевой и многоаспектной задачи. Ее признаки:

Неопределённость и большое число элементов, Эмерджентность, Иерархия, Агрегирование – объединение нескольких параметров системы в параметры более высокого уровня, Многофункциональность, Гибкость – способность системы изменять цель функционирования, Адаптация, Надежность, Безопасность, Стойкость, Уязвимость, Живучесть – способность изменять цели при отказе или повреждении элементов системы. Характеризуются большим числом элементов и связей между ними.

свойства сложных систем:

Ø Скачкообразное изменение поведения при переходе из одного состояния в другое

Ø Можно оц. интегр. показатели системообразующих свойств, этого достаточно

Ø Изменение состояния системы происходит закономерно.

3. Особенности сложных систем- можно сравнить с движением шарика, скатывающегося по лестнице с очень широкими и низкими ступеньками:

Ø В состоянии покоя шарик может находиться только на одной ступени.

Ø Если движение происходит, шарик, как бы быстро он не катился, движется в пределах ступени гораздо более длительное время, чем перескакивает со ступени на ступень.

Ø С одной ступени шарик может перекатиться только на соседнюю. Это означает, что из одного фиксированного состояния система не может перескочить в любое произвольное состояние, а только в одно из близких соседних предсказуемых состояний.

Наши рекомендации