Основы статистического вывода
- некоторое утверждение об изучаемой генеральной совокупности на основании результатов изучения выборочной совокупности;
- некоторое утверждение о параметрах ГС на основании изучения выборочных статистик.
Все исследования делятся на 2 типа:
1) сплошные (изучаются все единицы генеральной совокупности) – перепись населения;
2) выборочные (изучается часть ГС).
Математическая статистика рассматривает не любые утверждения о генеральной совокупности, а лишь те, которые касаются числовых характеристик, таких как среднее, мода, медиана, показатель вариации, доли положительных значений признака.
Числовые характеристики, описывающие генеральную совокупность, - параметры генеральной совокупности. Числовые характеристики, описывающие выборку, - выборочные статистики. Каждой конкретной ВС соответствует конкретный параметр ГС. (1) Статистический Вывод основывается на понятии выборочного распределения – теоретическое частотное распределение, которое могло бы быть получено в результате осуществления очень большого (практически бесконечного) числа выборок.
Если мы имеем некоторую бесконечную ГС, мы можем выбрать из нее бесконечное число выборок определенного объёма, а именно n. В каждой выборке мы можем определить статистики, а имеено Х среднее. Из полученных Х средних мы можем составить вариационный ряд. И этот ВР определяется как выборочное распределение. Считается, что Среднее ВР, составленного из средних значений выборок и будет искомым параметром ГС. (2) В реальных исследованиях изучают 1 выборочную совокупность, вычисляют Х среднее и делают следующее предположение: параметр ГС находится где-то недалеко от значения статистики, а именно находится в некотором интервале с центром в Х среднее. Такое предположение можно сделать, опираясь на следствия из центральной предельной теоремы. Следствие из ЦПТ: если из Б ГС методом простого случайного отбора извлекакется бесконечное число выборок одного и того же объёма n, то выборочное среднее имеет НР (распределяются по нормальному закону) с параметрами. (3) Статистический вывод подразделяется на 3 основных вида:
1) точечное оценивание – приравнивание неизвестного параметра ГС к выборочной статистике. (4) Преимущество – простота. Недостаток – невозможность оценить вероятность случайной ошибки. Свойства:
- несмещенность – среднее выборочного распределения оценки равно величине параметра. Дисперсия является смещенной оценкой. Не совпадает с параметром.
- состоятельность – свойство оценки при увеличении объёма выборки приближаться к значению оцениваемого параметра. Дисперсия – смещенная состоятельная оценка неизвестного параметра
- эффективность – чем меньше дисперсия, тем меньше отличаются оценки, полученные в разных выборках, тем выше эффективность оценки.
Характеризуют качество оценки. Сфера применения ограничена;
2) интервальное оценивание – построение некоторого интервала, который параметр ГС попадает с заданной вероятностью. Вероятность, с которой параметр попадает в доверительный интервал, - доверительная вероятность. Задается исследователем и стандартно может быть равна следующим значениям: 90%, 95% либо 99%. 0,1%, 0,95%, 0,99%. Вероятность допустить случайную ошибку обозначается б и связана с ДВ формулой (6). 0,1; 0,05; 0,01. Строим интервал от -а до а, и утверждаем, что с вероятностью β параметр µ попадает в заданный интервал (формула!!!).
При построении ДИ необходимо знать значение квантилей -а и а.
Количественный признак: ---> – для расчёта ОВС на основе количественных признаков, при условии, что ГС бесконечна.
– признак, полученный из таблицы СНР. Для расчета объёма выборки n:
1) пользоваться значением дисперсии, полученным в предыдущем исследовании;
2) пользоваться справочной литературой, в которой описываются подобные исследования;
3) определить максимальное значение дисперсии по формуле: .
Δдоп – предельно допустимая ошибка выборки, которая назначается исследователем самостоятельно на этапе проектирования исследования.
Качественный признак: ---> – для расчёта ОВС на основе качественных признаков, при условии, что ГС бесконечна. --//-- +:
p – доля положительных значений признака для ГС. Как правило, неизвестна, поэтому при расчёте ОВС:
1) используют долю + значение признака предыдущего исследования;
2) используют справочную литературу;
3) используют максимальное значение. р(1-р) максимально тогда, когда р = 0,5.
3) проверка статистических гипотез.
N – объём ГС.