Статистические выводы: оценки и проверка гипотез
Статистические выводы - это заключения о генеральной совокупности на основе выборки, случайно отобранной из генеральной совокупности. Например, анализируется такой показатель как доход (Х) населения некоторого достаточно большого города. Этот анализ может быть осуществлен на основе выборки определенного объема (пусть n=1000). Для выборочных данных определяем средний доход и разброс . Далее возникает естественный вопрос: можно ли ожидать, что аналогичные значения будут такими же для всего города? То есть можно ли обобщить результаты, полученные по выборке, на генеральную совокупность. В этом и суть статистических выводов.
На основе выборки можно получить лишь оценки параметров генеральной совокупности, так как оценки эти строятся на основе ограниченного набора данных. Естественно, значения оценок могут, изменяется от выборки к выборке. Процесс нахождения оценок по определенному правилу называется оцениванием.
Выделяют два типа оценивания: оценивание вида распределения и оценивание параметров распределения.
В качестве оценки вида распределения можно взять выборочное распределение, а в качестве оценок параметров распределения генеральной совокупности берутся их выборочные оценки.
Различают два вида оценок – точечные и интервальные.
После определения оценок обычно встает вопрос об их качестве и статистической значимости.
Пусть рассматривается генеральная совокупность наблюдаемой СВ Х.
Для оценки ее параметра Θ из генеральной совокупности извлекается выборка объема n: x1,x2,…,xn. На основе этой выборки может быть найдена оценка Θ* параметра Θ.
Точечной оценкой Θ* параметра Θ называется числовое значение этого параметра, полученное по выборке объема n. Например, для нормального распределения параметрами являются математическое ожидание m и среднее квадратическое отклонение σ.
Оценками m и σ могут быть и соответственно.
Очевидно, что оценка Θ* является функцией от выборки, то есть Θ* = Θ* (х1,х2,…,хп). А так как выборка носит случайный характер, то оценка Θ* является СВ, принимающей различные значения для различных выборок . Любую оценку Θ* = Θ* (х1,х2,…,хп) называют статистической оценкой параметра Θ.
Качество оценок характеризуется следующими основными свойствами: несмещенность, эффективность и состоятельность.
Оценка Θ* называется несмещенной оценкой параметра Θ, если ее математическое ожидание равно оцениваемому параметру: M(Θ* )= Θ.
Оценка Θ* называется эффективной оценкой параметра Θ, если ее дисперсия D ( Θ* ) меньше дисперсии любой другой выборки объемом n.
Оценка параметра Θ называется асимптотически эффективной, если с увеличением объема выборки ее дисперсия стремится к нулю, то есть
при .
Оценка Qn называется состоятельной оценкой параметра Θ, если Qn сходится по вероятности к Θ при n®¥ ,т.е. для любого e>0 при n®¥ .
Иначе, состоятельной называется такая оценка, которая дает истинное значение при достаточно большом объеме выборки вне зависимости от значений входящих в нее конкретных наблюдений.
Отметим некоторые свойства выборочных оценок.
Доказано, что выборочное среднее является несмещенной и состоятельной оценкой математического ожидания М(Х) генеральной совокупности.
Выборочная дисперсия является смещенной оценкой дисперсии D(X)=σ2. Доказано, что и это означает, что выборочная дисперсия оценивает генеральную дисперсию неточно.
Поэтому рекомендуется рассматривать исправленную дисперсию
.
Исправленная дисперсия S2 является несмещенной и состоятельной оценкой дисперсии D(X) СВ X.
Необходимо отметить, что при n >30 различие между Dви S2 практически незначимо. Поэтому при большом объеме выборки оценки эти можно считать несмещенными.