Критерий согласия законов распределения А.Н. Колмогорова
На практике и в данной лабораторной работе возможны ситуации, когда при обработке данных о распределении ничего неизвестно, поэтому желательно иметь критерии согласия, свободные от конкретного закона распределения. Таким критерием является критерий согласия Колмогорова. В качестве меры близости взято максимальное значение модуля разности между статистической функцией распределения и соответствующей теоретической функцией распределения F(x).
Схема применения критерия Колмогорова может быть представлена последовательностью шагов:
Находится .
Определяется величина . В лабораторной работе за n будем считать величину выборки, использованной для построения .
По таблице «Функция распределения Колмогорова» находится вероятность .
Если вероятность F(y) мала, например, , то гипотезу о соответствии двух законов распределений следует считать правдоподобной, совместимой с опытными данными. Таблица формируется программно в лабораторной работе.
Распределение (распределение хи-квадрат, закон Пирсона)
Формальная модель – случайные величины подчинены нормированному нормальному распределению, причем переменных независимы, остальные линейно связаны с этими переменными.
Тогда случайная величина
подчинена – распределению с числом степеней свободы .
Для -распределение достаточно хорошо представляется нормальным законом. Распределение широко используется при статистических расчетах для оценки точности определения дисперсии, для оценки точности согласия различных законов распределения.
Плотность распределения Функция распределения
37. Доверительные интервалы для оценки вероятности по частоте.
Доверительный интервал- это интервал построенный с помощью случайной выборки из распределения с неизвестным параметром.
x - точность оценки .
n- объем выборки.
t- аргумент функции Лапласса.
Для генерального среднего:
Для дисперсии:
Доверительная вероятность- это задание границ доверительного интервала.
Доверительным интервалом параметра распределения случайной величины с уровнем доверия p, порождённым выборкой , называется интервал с границами и , которые являются реализациями случайных величин и , таких, что
.
Граничные точки доверительного интервала и называются доверительными пределами.
38. Оценка доверительных интервалов на основе неравенства Чебышева. Правило "трех сигм"
Неравенство Чебышева-это распространённое неравенство из теории меры и теории вероятностей.
Формулировки
Пусть —пространство с мерой. Пусть также
—суммируемая на функция
.
Тогда справедливо неравенство:
В более общем виде:
Если — неотрицательная вещественная измеримая функция, неубывающая на области определения , то
В терминах пространства :
Пусть . Тогда
Правило трех сигм:
Практически все значения нормально распределенной случайной величины лежат в интервале . Более строго — приблизительно с 0,9973 вероятностью значение нормально распределенной случайной величины лежит в указанном интервале (при условии, что величина истинная, а не полученная в результате обработки выборки).
Если же истинная величина неизвестна, то следует пользоваться не , а s. Таким образом, правило трёх сигм преобразуется в правило трёх s.
39. Система двух дискретных случайных величин. Матрица распределения. Функция распределения. Демонстрационный пример.
Законом распределения системы двух дискретных СВ (Х, Y) называют перечень возможных её значений, т.е пар чисел( Xi и Yi) и их вероятностей Pij= Pi , Yj ;i= 1,n,
j= 1,m. Обычно такой закон задаётся помощью таблицы с двойным входом.
Если Х и У независимые СВ, что каждый элемент матрицы равен произведению соответствующих элементов распределения СВ (Х, Y).
Матрица распределения:
Зная законы распределения отдельных случайных величин Х и Y, найти закон распределения системы ( Х,Y ) этих случайных величин. Примерами таких совокупностей случайных величин являются X+Y, X-Y, ХY, X , kX (k- const) т.д..
40. Числовые характеристики системы двух случайных величин.
Центрированные и начальные моменты произвольного порядка. Начальный корелляционный момент двух случайных величин, ковариация двух случайных величин, коэффициент корреляции. Демонстрационные примеры расчета.
Закон распределения случайной величины дает исчерпывающую информацию о случайной величине. Однако, иногда можно охарактеризовать достаточно ярко случайную величину с помощью всего одного илинескольких чисел.
Числа, назначение которыхв сжатом виде характеризовать основные особенности распределений случайных величин, называются числовымихарактеристиками. Рассмотримнекоторые из числовых характеристик и их основные свойства.
Х | X1 | X2 | ... | Xn |
Р | P1 | P2 | ... | Pn |
Корреляционным моментом случайных величин и называют математическое ожидание произведения отклонений этих случайных величин:
.
Из определения корреляционного момента следует, что он имеет размерность, равную произведению размерностей случайных величин и .
Корреляционный момент служит для характеристики связи между случайными величинами и .
Коэффициентом корреляции случайных величин и называют отношение корреляционного момента к произведению их средних квадратических отклонений:
.
Так как размерность равна произведению размерностей случайных величин и , имеет размерность случайной величины , имеет размерность случайной величины , то – безразмерная величина.
№ | Данные по агрессивности | Данные по IQ |
41. Многомерное нормальное распределение. Многомерный статистический контроль.
Проверка гипотезы о векторе математического ожидания контролируемых параметров большой партии изделий с нормальным законом распределения и известной ковариационной матрицей по выборке малого объема. Примеры экспериментальных расчетов с помощью математических пакетов и лабораторного практикума.
В отличие от случая 2.5.2 используется статистика Хоттелинга: , где - выборочная ковариационная матрица с элементами , где - значение параметра i в vэксперименте.
Закон распределения статистики - F – распределение с n (для числителя) и n1-1 (для знаменателя) степенями свободы.
Доверительную область можно получить в n-мерном пространстве в виде
Это снова эллипсоид.
Пример 2.2. В условиях предыдущего примера решить задачу при неизвестной ковариационной матрице.
Решение. Требуется проверить гипотезу H0: против H1: .
Прежде всего находим оценку ковариационной матрицы:
.
Значение функции F – распределения .
Получаем соотношение , которое говорит о том, что гипотеза Н0 и в этом случае отвергается с вероятностью 0,05.
42. Многомерное нормальное распределение. Многомерный статистический контроль.
Проверка гипотезы о векторе математического ожидания контролируемых параметров большой партии изделий с нормальным законом распределения и неизвестной ковариационной матрицей по выборке малого объема. Примеры экспериментальных расчетов с помощью математических пакетов и лабораторного практикума.
Используется статистика Хоттелинга: , где - выборочная ковариационная матрица с элементами , где - значение параметра i в vэксперименте.
Закон распределения статистики - F – распределение с n (для числителя) и n1-1 (для знаменателя) степенями свободы.
Доверительную область можно получить в n-мерном пространстве в виде
Это снова эллипсоид.
В условиях предыдущего примера решить задачу при неизвестной ковариационной матрице.
Решение. Требуется проверить гипотезу H0: против H1: .
Прежде всего находим оценку ковариационной матрицы:
.
Значение функции F – распределения .
Получаем соотношение , которое говорит о том, что гипотеза Н0 и в этом случае отвергается с вероятностью 0,05.
43. Многомерное нормальное распределение. Многомерный статистический контроль.
Проверка гипотезы о средних значений контролируемых параметров больших партий изделий с нормальным законом распределения и известной вариационной матрице по выборке малого объема. Примеры экспериментальных расчетов с помощью математических пакетов и лабораторного практикума.
44. Многомерное нормальное распределение. Многомерный статистический контроль.
Проверка гипотезы о векторе математического ожидания контролируемых параметров больших партий изделий с нормальным законом распределения и неизвестной ковариационной матрицей по выборке малого объема. Примеры экспериментальных результатов с помощью математических пакетов в лабораторном практикуме.
45. Определение уравнения множественной линейной регрессии при наличии аномальных результатов измерения. Исключение аномальных измерений с помощью пакета Deductor в лабораторном практикуме.
46. Анализ временных рядов и прогнозирование. Учет сезонных колебаний на примере с заболевание пневмонией ( в лабораторном практикуме)
Анализ временных рядов — совокупность математико-статистических методов анализа, предназначенных для выявления структуры временных рядов и для их прогнозирования. Сюда относятся, в частности, методы регрессионного анализа. Выявление структуры временного ряда необходимо для того, чтобы построить математическую модель того явления, которое является источником анализируемого временного ряда. Прогноз будущих значений временного ряда используется для эффективного принятия решений.
Пример временного ряда
Временные ряды состоят из двух элементов:
периода времени, за который или по состоянию на который приводятся числовые значения;
числовых значений того или иного показателя, называемых уровнями ряда.
Временные ряды классифицируются по следующим признакам:
по форме представления уровней:
ряды абсолютных показателей;
относительных показателей;
средних величин.
по количеству показателей, для которых определяются уровни в каждый момент времени: одномерные и многомерные временные ряды;
по характеру временного параметра: моментные и интервальные временные ряды. В моментных временных рядах уровни характеризуют значения показателя по состоянию на определенные моменты времени. В интервальных рядах уровни характеризуют значение показателя за определенные периоды времени. Важная особенность интервальных временных рядов абсолютных величин заключается в возможности суммирования их уровней. Отдельные же уровни моментного ряда абсолютных величин содержат элементы повторного счета. Это делает бессмысленным суммирование уровней моментных рядов;
по расстоянию между датами и интервалами времени выделяют равноотстоящие — когда даты регистрации или окончания периодов следуют друг за другом с равными интервалами и неполные (неравноотстоящие) — когда принцип равных интервалов не соблюдается;
по наличию пропущенных значений: полные и неполные временные ряды;
временные ряды бывают детерминированными и случайными: первые получают на основе значений некоторой неслучайной функции (ряд последовательных данных о количестве дней в месяцах); вторые есть результат реализации некоторой случайной величины.
в зависимости от наличия основной тенденции выделяют стационарные ряды, в которых среднее значение и дисперсия постоянны, и нестационарные, содержащие основную тенденцию развития.
47. Кластеризация данных по критерию минимума суммарной дисперсии. Демонстрационные примеры.
Предположим, что рассматриваемая совокупность случайной величины Х неоднородна и в нее входят, например, три группы совокупностей случайной величины с существенно различными параметрами распределений (математическим ожиданием и средним квадратическим отклонением).
Кластеризация однородных групп
Истинные зависимости y=y(x) для этих групп совокупности показаны на рис. 3.1. Там же пунктиром показана линия регрессии y на x, построенная для совокупности всех групп. Таким образом, обработка неоднородной совокупности теми же методами, какие применимы для однородных, могут привести к серьезным ошибкам.