Генеральная и выборочная дисперсия
Для того чтобы охарактеризовать рассеяние значений количественного признака X генеральной совокупности вокруг своего среднего значения, вводят сводную характеристику - генеральную дисперсию.
Генеральной дисперсией называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения .
Если все значения , , ..., признака генеральной совокупности объема N различны, то
Если же значения признака , , ..., имеют соответственно частоты , , ..., , причем , то
Пример 1. Генеральная совокупность задана таблицей распределения:
Найти генеральную дисперсию.
Решение: Найдем генеральную среднюю:
.
Найдем генеральную дисперсию:
Кроме дисперсии для характеристики рассеяния значений признака генеральной совокупности вокруг своего среднего значения пользуются сводной характеристикой - средним квадратическим отклонением.
Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии: .
Для того чтобы охарактеризовать рассеяние наблюдаемых значений количественного признака выборки вокруг своего среднего значения вводят сводную характеристику - выборочную дисперсию.
Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .
Если все значения , , ..., признака выборки объема n различны, то
Если же значения признака , , ..., имеют соответственно частоты , , ..., , причем , то .
Пример 2. Выборочная совокупность задана таблицей распределения:
Найти выборочную дисперсию.
Решение: Найдем выборочную среднюю:
.
Найдем выборочную дисперсию:
Кроме дисперсии для характеристики рассеяния значений признака выборочной совокупности вокруг своего среднего значения пользуются сводной характеристикой - средним квадратическим отклонением.
Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии:
Вычисление дисперсии, безразлично - выборочной или генеральной, можно упростить, используя следующую теорему.
Теорема. Дисперсия равна среднему квадратов значений признака минус квадрат общей средней: .
Пример. Найти выборочную дисперсию по данному распределению
Решение. Найдем выборочную среднюю:
.
Найдем среднюю квадратов значений признака:
.
Искомая дисперсия: .
Пусть нам необходимо по данным выборки оценить (приближенно найти) неизвестную генеральную дисперсию . Если в качестве оценки генеральной дисперсии принять выборочную дисперсию, то эта оценка будет приводить к систематическим ошибкам, давая заниженное значение генеральной дисперсии. Объясняется это тем, что, как можно доказать, выборочная дисперсия является смещенной оценкой другими словами, математическое ожидание выборочной дисперсии не равно оцениваемой генеральной дисперсии, а равно .
Легко «исправить» выборочную дисперсию так, чтобы ее математическое ожидание было равно генеральной дисперсии. Достаточно для этого умножить на дробь . Сделав это, получим исправленную дисперсию, которую обычно обозначают через :
.
Исправленная дисперсия является, конечно, несмещенной оценкой генеральной дисперсии.
Итак, в качестве оценки генеральной дисперсии принимают исправленную дисперсию .
Для оценки же среднего квадратического отклонения генеральной совокупности используют «исправленное» среднее квадратическое отклонение, которое равно квадратному корню из исправленной дисперсии:
10.1.11 Точность оценки, надёжность. Доверительный интервал
Точечной называют оценку, которая определяется одним числом. Все оценки, рассмотренные выше, - точечные. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т.е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.
Интервальной называют оценку, которая определяется двумя числами - концами интервала. Интервальные оценки позволяют установить точность и надежность оценок (смысл этих понятий выясняется ниже).
Пусть найденная по данным выборки статистическая характеристика служит оценкой неизвестного параметра . Будем считать постоянным числом ( может быть и случайной величиной). Ясно, что тем точнее определяет параметр , чем меньше абсолютная величина разности . Другими словами, если и , то чем меньше , тем оценка точнее. Таким образом, положительное число характеризует точность оценки.
Однако статистические методы не позволяют категорически утверждать, что оценка удовлетворяет неравенству ; можно лишь говорить о вероятности , с которой это неравенство осуществляется.
Надежностью (доверительной вероятностью) оценки по называют вероятность с которой осуществляется неравенство . Обычно надежность оценки задается наперед, причем в качестве берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.
Пусть вероятность того, что , равна : .
Заменив неравенство равносильным ему двойным неравенством , или , имеем
.
Это соотношение следует понимать так: вероятность того, что интервал заключает в себе (покрывает) неизвестный параметр , равна .
Доверительным называют интервал , который покрывает неизвестный параметр с заданной надежностью .
Метод доверительных интервалов разработал американский статистик Ю. Нейман, исходя из идей английского статистика Р. Фишера.