Измерение разброса: размах варьирования, выборочная дисперсия, выборочное среднее квадратическое отклонение (стандартное отклонение), коэффициент вариации
Оценка отклонения эмпирического распределения от нормального. Асимметрия и эксцесс.
Оценка отклонения эмпирического распределения от нормального. Асимметрия и эксцесс. (СРС)
Для оценки отклонения эмпирического распределения от нормального используют различные характеристики, к числу которых относятся асимметрия и эксцесс. Смысл этих характеристик аналогичен смыслу асимметрии и эксцесса теоретического распределения.
Асимметрия эмпирического распределения определяется равенством
,
где - центральный эмпирический момент третьего порядка.
Эксцесс эмпирического распределения определяется равенством
,
где - центральный эмпирический момент четвертого порядка.
Моменты и удобно вычисляются методом произведений.
Пример.Найти асимметрию и эксцесс эмпирического распределения:
варианта | 10,2 | 10,4 | 10,6 | 10,8 | 11,0 | 11,2 | 11,4 | 11,6 | 11,8 | 12,0 |
частота |
Решение.Воспользуемся методом произведений, для чего составим расчетную таблицу:
10,2 | -4 | -8 | -128 | ||||
10,4 | -9 | -9 | -81 | ||||
10,6 | -2 | -16 | -64 | ||||
10,8 | -1 | -13 | -13 | - | |||
11,0 | -46 | -286 | |||||
11,2 | |||||||
11,4 | |||||||
11,6 | |||||||
11,8 | |||||||
12,0 | |||||||
Поскольку уже указывалось, как заполнять столбцы 1-5 таблицы, ограничимся краткими пояснениями: для заполнения столбца 6 удобно перемножить числа каждой строки столбцов 3 и 5; для заполнения столбца 7 удобно перемножить числа каждой строки столбцов 3 и 6. Столбец 8 служит для контроля вычислений по тождеству:
Контроль:
Совпадение сумм свидетельствует о том, что вычисления произведены правильно.
В примере для рассматриваемого распределения было найдено: , следовательно,
Найдем центральные эмпирические моменты третьего и четвертого порядка:
Найдем асимметрию и эксцесс:
Замечание.В случае малых выборок к оценкам асимметрии и эксцесса следует относиться с осторожностью и определить точность этих оценок (см.: Смирнов Н. В. и Дунин-Барковский И. В. Курс теории вероятностей и математической статистики. М., «Наука», 1965, с. 277).
Глава 2. Теория оценок
Выборочные статистики
Выборочной статистикой называется произвольная числовая функция , вычисляемая для значений , образующих выборку. Если вместо чисел рассмотрим случайные величины , независимые и одинаково распределенные (так же, как и генеральная совокупность X), то получим случайную величину , которая также называется выборочной статистикой или просто статистикой. В математической статистике случайные величины и их значения часто обозначаются одними и теми же маленькими буквами.
Пример1. Выборочное среднее является выборочной статистикой. С одной стороны это число, а с другой стороны это случайная величина, так как от выборки к выборки она может меняться. Пусть – математическое ожидание и дисперсия генеральной совокупности X. Случайные величины имеют те же распределения, что и генеральная совокупность X. Следовательно, . Математическое ожидание и дисперсия случайной величины равны
, ; .
Таким образом, математическое ожидание выборочного среднего равно математическому ожиданию генеральной совокупности, а дисперсия выборочного среднего в n раз меньше дисперсии генеральной совокупности.
Пример 2. Выборочная дисперсия также является выборочной статистикой. Все, сказанное выше о выборочном среднем, справедливо и для выборочной дисперсии. , . Математическое ожидание случайной величины равно
.
Математическое ожидание выборочной дисперсии не равно дисперсии генеральной совокупности X. Чтобы получить равенство, рассматривают другую статистику:
.
Она называется исправленной выборочной дисперсией, а корень из нее – исправленным выборочным средним квадратическим отклонением. При этом .
Измерение разброса: размах варьирования, выборочная дисперсия, выборочное среднее квадратическое отклонение (стандартное отклонение), коэффициент вариации
Размах варьирования R – простейшая мера разброса значений данной выборки. Если – максимальная, – минимальная варианты, то . Этой величиной пользуются при работе с маленькими выборками.
Более эффективные меры разброса должны учитывать все элементы выборки. Такой мерой является выборочная дисперсия DВ:
,
где k – число различных вариант выборки в дискретном статистическом распределении; пi – частота варианты хi ( ). Если же выборка сгруппирована в интервальный статистический ряд, то в качестве вариант хi берут середины соответствующих интервалов .
Выборочным средним квадратическим отклонением или стандартным отклонением называется .
Для большинства унимодальных законов распределения и, следовательно, выборок из таких генеральных совокупностей выполняются:
§ «правило двух сигм»: более 95% значений выборки лежат в интервале ;
§ «правило трех сигм»: более 99% значений выборки лежат в интервале ;
Коэффициент вариации служит для сравнения стандартных отклонений нескольких выборок.
Если коэффициенты вариации оказались величинами одного порядка, то средние рассеяния данных относительного среднего в этих выборках можно считать примерно равными. Тот из рядов, у которого коэффициент вариации больше, имеет большее рассеяние по отношению к выборочной средней. Коэффициент вариации — безразмерная величина, поэтому он пригоден для сравнения рассеяний вариационных рядов, варианты которых имеют различную размерность.
1.6. Условные варианты
Предположим, что варианты выборки расположены в возрастающем порядке, то есть в виде вариационного ряда.
Равноотстоящими называют варианты, которые образуют арифметическую прогрессию с разностью h.
Условными называются варианты, определяемые равенством
,
где С – ложный нуль (новое начало отчета); h – шаг, то есть разность между любыми двумя соседними первоначальными вариантами (новая единица масштаба).
Упрощенные методы расчета сводных характеристик выборки основаны на замене первоначальных вариант условными.
Покажем, что если вариационный ряд состоит из равноотстоящих вариант с шагом h, то условные варианты есть целые числа. Действительно, выберем в качестве ложного нуля произвольную варианту, например . Тогда
Так как i и m – целые числа, то их разность – также целое число.
Замечание 1. В качестве ложного нуля можно принять любую варианту. Максимальная простота вычислений достигается, если выбрать в качестве ложного нуля варианту, которая расположена примерно в середине вариационного ряда (часто такая варианта имеет наибольшую частоту).
Замечание 2. Варианте, которая принята в качестве ложного нуля, соответствует условная варианта, равная нулю.
Пример. Найти условные варианты статистического распределения:
варианты …23,6 28,6 33,6 38,6 43,6
частоты … 5 20 50 15 10
Решение. Выберем в качестве ложного нуля варианту 33,6 (эта варианта расположена в середине вариационного ряда).
Найдем шаг:
Найдем условную варианту:
Аналогично получим: , , , . Мы видим, что условные варианты – небольшие целые числа. Разумеется, оперировать с ними проще, чем с первоначальными вариантами.
1.7.Обычные, начальные и центральные эмпирические моменты
Для вычисления сводных характеристик выборки удобно пользоваться эмпирическими моментами, определения которых аналогичны определениям соответствующих теоретических моментов. В отличие от теоретических эмпирические моменты вычисляют по данным наблюдений.
Обычным эмпирическим моментом порядка k называют среднее значение k–х степеней разностей :
где – наблюдаемая варианта, – частота варианты, – объем выборки, С – произвольное постоянное число (ложный нуль).
Начальным эмпирическим моментом порядка k называют обычный момент порядка k при С=0
В частности,
то есть начальный эмпирический момент первого порядка равен выборочной средней.
Центральным эмпирическим моментом порядка k называют обычный момент порядка k при
В частности,
(*)
то есть центральный эмпирический момент второго порядка равен выборочной дисперсии.
Легко выразить центральные моменты через обычные:
(**)
(***)
1.8. Условные эмпирические моменты. (СРС)
Вычисление центральных моментов требует довольно громоздких вычислений. Чтобы упростить расчеты, заменяют первоначальные варианты условными.
Условными эмпирическим моментом порядка k называют начальный момент порядка k, вычисленный для условных вариант:
В частности,
Отсюда
. (*)
Таким образом, для того чтобы найти выборочную среднею, достаточно вычислить условный момент первого порядка, умножить его на h и к результату прибавить ложный нуль C.
Выразим обычный момент через условный:
Отсюда
Таким образом, для того чтобы найти обычный момент порядка k, достаточно условный момент того же порядка умножить на .
Найдя же обычные моменты, легко найти центральные моменты по равенствам (**) и (***) предыдущего параграфа. В итоге удобные для вычислений формулы, выражающие центральные моменты через условные:
(**)
(***)
В частности, в силу (**) и соотношения (*) предыдущего параграфа получим формулу для вычисления выборочной дисперсии по условным моментам первого и второго порядков