Сущность и задачи статистической проверки гипотез

Изучаемые статистикой массовые явления находятся в непрерывном развитии. С течением времени отдельные единицы исчезают. Например, при изучении совокупности предприятий отрасли необходимо иметь в виду, что несколько самостоятельных отдельных предприятий могут быть объединены в одно крупное предприятие (трест, холдинг и т.п.), а отдельные предприятия ликвидированы в связи с их банкротством. Изменяется состав типических групп (переход предприятий из одной формы собственности в другое) или появляются новые единицы совокупности (строительство новых предприятий, изменение профиля производства и др.).

С развитием теории изучаемого явления уточняются и изменяются также представления о самом явлении. Эти изменения касаются и цензов, предусматривающих однозначное толкование любой статистической совокупности в пространстве и во времени.

Кроме того, у исследователей, как правило, нет полных данных об изучаемой совокупности. Зачастую статистическое изучение того или иного явления базируется на данных выборочного наблюдения.

Поэтому любое статистическое исследование использует определенные предположения, допущения. Однако не каждое такое предположение называется гипотезой. Статистическими гипотезами называются только те предположения, которые можно проверить, опираясь на имеющиеся данные наблюдения. В математической статистике одним из основных ее разделов является теория испытания (проверки) гипотез. В нашей дисциплине мы ознакомимся только с некоторыми важными положениями этой теории.

Смысл проверки статистической гипотезы состоит в том, чтобы по имеющимся статистическим данным принять или отклонить статистическую гипотезу с минимальным рисков ошибки. Эта проверка осуществляется по определенным правилам.

Следует иметь в виду, что статистическая проверка гипотез имеет вероятностный характер. С помощью статистической проверки гипотез можно определить вероятность принятия ложного решения по тем или иным результатам статистического изучения данного явления. Если вероятность ошибки невелика, то статистические показатели исчисленные при изучении явления, могут быть использованы для практических целей при малом риске ошибки.

При проведении экономико-статистических исследований в первую очередь приходится решать задачи статистической проверки гипотез о:

1) принадлежности «выделяющихся» единиц исследуемой выборочной совокупности генеральной совокупности;

2) виде распределения изучаемых признаков;

3) величине средней арифметической и доли;

4) наличии и тесноте связи между изучаемыми признаками;

5) о форме корреляционной связи.

С учетом бюджета времени в данной теме будут рассмотрены 3-4 гипотезы.

14.2. Критерий как инструмент проверки статистической гипотезы.
Выбор типа критической области

При проверке гипотез возможны ошибки двоякого рода:

1) Ошибка первого рода – проверяемая гипотеза (ее обычно называют нулевой гипотезой и обозначают Н0) является в действительности верной, но результаты проверки приводят к отказу от нее;

2) Ошибка второго рода – проверяемая гипотеза в действительности является ошибочной, но результаты проверки приводят к ее принятию.

Суть нулевой гипотезы Сущность и задачи статистической проверки гипотез - student2.ru состоит в том, что если по изучаемому явлению проводить несколько различных наблюдений, то между полученными фактическими значениями статистической характеристики, полученной по ним, не будет существенных различий. Отсюда проверка нулевой гипотезы состоит в сопоставлении величины статистической характеристики, полученной по первичным данным, с наиболее вероятным (теоретическим) значением при приемлемом уровне надежности. Однако, как показывает практика, если проверка привела к выводу о принятии Сущность и задачи статистической проверки гипотез - student2.ru , еще не означает, что она верна: дальнейшие исследования могут привести к противоположному заключению и отклонению этой гипотезы.

Поэтому нулевую гипотезу тоже необходимо проверить, чтобы избежать указанных выше ошибок.

Для уточнения и проверки нулевой гипотезы рассматривают гипотезу являющуюся, ее логическим отрицанием или расширением и дополнением. Она называется альтернативной, конкурирующей (противоположной) и обозначается Сущность и задачи статистической проверки гипотез - student2.ru . Альтернативная гипотеза может быть сформулирована по-разному в зависимости от возможных пределов изменения значений изучаемого статистического показателя, какие отклонения от принятого уровня значимости интересуют исследователя.

Например, по единицам совокупности изучается наиболее типичное значение определенного признака. В качестве типичного значения, как правило, рассматривается средняя. Нулевая гипотеза может быть сформулирована Сущность и задачи статистической проверки гипотез - student2.ru : Сущность и задачи статистической проверки гипотез - student2.ru . Альтернативные гипотезы могут быть сформулированы для этого примера так Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru и Сущность и задачи статистической проверки гипотез - student2.ru .

Правило, по которому проверяется гипотеза, называется статистическим критерием.

В статистике в настоящее время имеется большое число критериев для проверки практически любых гипотез. Притом основные принципы их построения и применения являются общими:

1) сформулировать проверяемую гипотезу Сущность и задачи статистической проверки гипотез - student2.ru . Наряду с проверяемой гипотезой формулируется также конкурирующая (альтернативная) гипотеза Сущность и задачи статистической проверки гипотез - student2.ru ;

2) выбрать уровень значимости Сущность и задачи статистической проверки гипотез - student2.ru , отражающий допустимую вероятность ошибки первого рода;

3) определить область допустимых значений и так называемую критическую область;

4) принять ту ли иную гипотезу (то или иное решение) на основе сравнения фактического и критического значений критерия.

Уровнем значимости принято называть такое малое значение вероятности попадания теоретического значения критерия в критическую область при условии справедливости гипотезы. Обычно уровень значимости принимают равным 0,01 или 0,05.

Исходя из величины уровня значимости можно построить критическую область, под которой понимается такая область значений проверяемой статистической характеристики, попадание в которую приводит к отклонению гипотезы. То есть к критической области относятся те значения характеристики, появление которых при условии верности гипотеза было бы маловероятным (не больше уровня значимости Сущность и задачи статистической проверки гипотез - student2.ru ). Отсюда Сущность и задачи статистической проверки гипотез - student2.ru выбирается достаточно малым.

Все значения рассматриваемой характеристики, не принадлежащие к критической области образуют так называемую область допустимых значений. Если наблюдаемое значение характеристики находится в области допустимых значений, то проверяемая гипотеза Сущность и задачи статистической проверки гипотез - student2.ru принимается с вероятностью Сущность и задачи статистической проверки гипотез - student2.ru .

Итак чем меньше уровень значимости, тем меньше вероятность отклонить проверяемую гипотезу, когда она верна, т.е. меньше вероятность совершить ошибку первого рода. Однако при этом расширяется область допустимых значений, и значит, увеличивается область совершения ошибки второго рода.

При проверке гипотез следует иметь в виду, то статистические критерии различаются друг от друга тем, насколько четко учитывают испытуемую (нулевую) гипотезу Сущность и задачи статистической проверки гипотез - student2.ru и альтернативную Сущность и задачи статистической проверки гипотез - student2.ru гипотезу и с какой вероятностью (как часто) применение конкретного критерия приводит к ошибочному выводу (не отклоняется Сущность и задачи статистической проверки гипотез - student2.ru , когда верна альтернативная гипотеза).

Вероятность отклонения испытуемой гипотезы Сущность и задачи статистической проверки гипотез - student2.ru , когда верна альтернативная, называется мощностью критерия. При прочих равных условиях предпочтение следует отдавать более мощным критериям. Таким образом, при проверке гипотез существенное значение имеют правильное обоснование гипотез, обоснование уровня значимости и выбор критерия с необходимой мощностью.

Выбор уровня значимости предопределяется возможными последствиями отклонения правильной гипотезы или принятия ошибочной гипотезы. Например, при оценке прочности нити, предназначенной для изготовления строп парашюта и рыболовных сетей уровень значимости должен быть разным. Последствия принятия ошибочной гипотезы ( Сущность и задачи статистической проверки гипотез - student2.ru : крепость нити соответствует стандарту, т.е. указанному номеру нити) в первом случае более серьезны (речь идет о человеческой жизни), чем во втором. Отсюда в первом случае уровень значимости должен быть меньше, чем для второго случая.

14.3. Проверка гипотезы о принадлежности выделяющих единиц
исследуемой генеральной совокупности

Как отмечалось в предыдущих лекциях неоднократного, изучение массовых явлений, как правило, осуществляется по неполной информации. В составе собранных данных могут встречаться единичные наблюдения, у которых отдельные значения изучаемых признаков заметно отличаются от общей тенденции изменения большинства значений. Причины таких отличий могут быть разными:

1) из-за ошибок наблюдения;

2) вследствие случайного стечения различных обстоятельств, каждый из которых в отдельности несущественный, но совокупное их влияние привело к таким резко выделяющимся от общей картины значениям признаков;

3) как следствие нарушения однородности изучаемой совокупности.

В общем случае все значения изучаемых признаков фиксируются по известным единицам совокупности по их части, отобранной с учетом всех требований. Следовательно, первичные статистические данные, включая и резко «выделяющемся», соответствуют конкретным случаям проявления изучаемого явления. Следовательно, субъективное отбрасывание «выделяющихся» единиц недопустимо.

Как отмечалось неоднократно, в экономико-статистических исследованиях в обычных условиях применяется гипотеза о нормальном характере распределения изучаемых признаков с параметрами Сущность и задачи статистической проверки гипотез - student2.ru . Пусть при проведении одного из наблюдений за данной совокупностью были получены Сущность и задачи статистической проверки гипотез - student2.ru значений Сущность и задачи статистической проверки гипотез - student2.ru , среди которых максимальное значение Сущность и задачи статистической проверки гипотез - student2.ru (или минимальное Сущность и задачи статистической проверки гипотез - student2.ru , или даже и максимальное, и минимальное) резко отличается по своей величине от остальных наблюдений (см. табл.).

Кол-во единиц совокупности Минимальные значения Максимальные значения Разность смежных значений Среднее значение Сущность и задачи статистической проверки гипотез - student2.ru Среднеквадратическое отклонение Сущность и задачи статистической проверки гипотез - student2.ru
Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru хnn-1
57,3 35,3

Возникает вопрос, относится ли (относятся ли) это (эти) значение (значения) к данной совокупности в изучаемых условиях или есть результат экстраординарных обстоятельств.

Сформулируем нулевую гипотезу Сущность и задачи статистической проверки гипотез - student2.ru : значение Сущность и задачи статистической проверки гипотез - student2.ru принадлежит этой же совокупности, что и все остальные Сущность и задачи статистической проверки гипотез - student2.ru значений. Другими словами, рассматриваем гипотезу Сущность и задачи статистической проверки гипотез - student2.ru , что Сущность и задачи статистической проверки гипотез - student2.ru не является результатом ошибки наблюдения или изменения общих условий формирования уровней рассматриваемых признаков.

Проверка этой гипотезы состоит в том, что Сущность и задачи статистической проверки гипотез - student2.ru сравнивается по величине с определенной критической границей возможных значений х.

 
  Сущность и задачи статистической проверки гипотез - student2.ru

принятия гипотезы
Область нулевой

Нулевая гипотеза отвергается

Нулевая гипотеза отвергается

Рис. 14.1 Двухсторонняя критическая область

 
  Сущность и задачи статистической проверки гипотез - student2.ru

Критическая область

Сущность и задачи статистической проверки гипотез - student2.ru

а) область больших положительных отклонений

 
  Сущность и задачи статистической проверки гипотез - student2.ru

Сущность и задачи статистической проверки гипотез - student2.ru

б) область больших отрицательных отклонений

Рис 14.2. Левосторонняя и правосторонняя критическая область

Если выделяющимся значением является Сущность и задачи статистической проверки гипотез - student2.ru , то Сущность и задачи статистической проверки гипотез - student2.ru сравнивается с верхней допустимой границей, выбранной таким образом, чтобы вероятность превзойти ее была равна уровню значимости. В данном случае будет иметь место критическая область вида (см. рис. 14.2, а):

Сущность и задачи статистической проверки гипотез - student2.ru .

Если Сущность и задачи статистической проверки гипотез - student2.ru , то гипотеза Сущность и задачи статистической проверки гипотез - student2.ru отклоняется. Если проверяется принадлежность Сущность и задачи статистической проверки гипотез - student2.ru (наименьшего значения), то Сущность и задачи статистической проверки гипотез - student2.ru надо сравнивать с нижней границей области допустимых значений Сущность и задачи статистической проверки гипотез - student2.ru , т.е. Сущность и задачи статистической проверки гипотез - student2.ru (см. рис. 14.2, б).

Если же испытанию одновременно подлежат и максимальное, и минимальное значения, то критическая область будет иметь вид (см. рис. 14.1).

Сущность и задачи статистической проверки гипотез - student2.ru .

В приведенном примере минимальное значение Сущность и задачи статистической проверки гипотез - student2.ru незначительно отличается от Сущность и задачи статистической проверки гипотез - student2.ru (только на 6 единиц), тогда как Сущность и задачи статистической проверки гипотез - student2.ru (заметно больше Сущность и задачи статистической проверки гипотез - student2.ru ). Следовательно, необходимо проверить, принадлежит ли Сущность и задачи статистической проверки гипотез - student2.ru к рассматриваемой совокупности.

Для больших выборочных совокупностей для этой цели используются табличные значения нормированной функции Лапласа. При уровне значимости Сущность и задачи статистической проверки гипотез - student2.ru значение нормированной функции Лапласа для рассматриваемый критической области будет равна 0,49= Сущность и задачи статистической проверки гипотез - student2.ru . Этому значению соответствует Сущность и задачи статистической проверки гипотез - student2.ru . Тогда верхняя допустимая граница значений признака, которая не может быть превышена с вероятностью 0,99 будет равна Сущность и задачи статистической проверки гипотез - student2.ru .

Критерий для Сущность и задачи статистической проверки гипотез - student2.ru : Сущность и задачи статистической проверки гипотез - student2.ru . Отсюда Сущность и задачи статистической проверки гипотез - student2.ru .

Значение Сущность и задачи статистической проверки гипотез - student2.ru =178 выходит за рассчитанную границу. Итак получаем в результате проверки Сущность и задачи статистической проверки гипотез - student2.ru вывод, что с вероятностью 0,99 можно утверждать, что Сущность и задачи статистической проверки гипотез - student2.ru не принадлежит к изучаемой совокупности и это значение признака следует исключить из дальнейших расчетов.

При проверке данной гипотезы можно использовать Сущность и задачи статистической проверки гипотез - student2.ru по генеральной совокупности; но они обычно неизвестны. Поэтому для малых выборок t -критерий не надежен. Для проверки гипотезы о принадлежности «выделяющихся» единиц генеральной совокупности для малых выборок рекомендуется пользоваться критерием Ф. Груббса. Критерий Груббса основан на вычислении коэффициента Сущность и задачи статистической проверки гипотез - student2.ru по формуле (для испытания Сущность и задачи статистической проверки гипотез - student2.ru )

Сущность и задачи статистической проверки гипотез - student2.ru , где

при Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru и Сущность и задачи статистической проверки гипотез - student2.ru .

Для испытания наименьшего значения х1 эти расчеты будут иметь следующий вид Сущность и задачи статистической проверки гипотез - student2.ru .

Расчетная величина этого отношения ( Сущность и задачи статистической проверки гипотез - student2.ru .) сравнивается с табличной величиной ( Сущность и задачи статистической проверки гипотез - student2.ru .) при определенном числе наблюдений и заданном уровне значимости. Если Сущность и задачи статистической проверки гипотез - student2.ru , то проверяемая гипотеза принимается. Если же Сущность и задачи статистической проверки гипотез - student2.ru , то значение Сущность и задачи статистической проверки гипотез - student2.ru (или Сущность и задачи статистической проверки гипотез - student2.ru ) следует из дальнейших расчетов исключить. Таким образом Ктабл характеризует ту предельную величину расхождений в суммах квадратов отклонений, которая с вероятностью Сущность и задачи статистической проверки гипотез - student2.ru может быть объяснена случайными причинами.

Пример. Отклонения деталей от номинального размера оказались такими (мм): 0,07; 0,09; 0,10; 0,12; 0,13; 0,15; 0,16; 0,17 и 0,25.

Исходя из предположения о нормальном законе распределения данного признака в генеральной совокупности проверим, содержат ли эти данные ошибки наблюдения. Резко выделяется Сущность и задачи статистической проверки гипотез - student2.ru .

Вычисления: Сущность и задачи статистической проверки гипотез - student2.ru и Сущность и задачи статистической проверки гипотез - student2.ru ;

Сущность и задачи статистической проверки гипотез - student2.ru и Сущность и задачи статистической проверки гипотез - student2.ru . При расчете Сущность и задачи статистической проверки гипотез - student2.ru и Сущность и задачи статистической проверки гипотез - student2.ru .

исключили Сущность и задачи статистической проверки гипотез - student2.ru =0,25.

Отсюда отношение двух сумм квадратов отклонений будет равна

Сущность и задачи статистической проверки гипотез - student2.ru ;

При числе наблюдений n=9 и уровне значимости 0,01 по таблице Ф. Груббса имеем Сущность и задачи статистической проверки гипотез - student2.ru =0,2411. Следовательно, Сущность и задачи статистической проверки гипотез - student2.ru . Если бы проверку выполняли при уровне значимости 0,05 имели бы Сущность и задачи статистической проверки гипотез - student2.ru =0,3742. И в этом случае Сущность и задачи статистической проверки гипотез - student2.ru . Отсюда отклонение номинального размера 0,25мм следует отнести к ошибкам наблюдения.

Таблица Ф. Груббса (выдержка)

Число наблюдений n Уровень значимости
0,01 0,05
0,0442 0,1270
0,2411 0,3742
0,2831 0,4154
0,4401 0,5559
0,5393 0,6379
0,6071 0,6923

Имеются и другие критерии (варианты) проверки гипотезы о принадлежности выделяющихся наблюдений (единиц) генеральной совокупности (например, критерий Ирвина).

14.4. Понятие о критерии согласия (проверка гипотезы о
соответствии эмпирического распределения нормальному)

Закон нормального распределения лежит в основе многих теорем и методов статистики при оценке репрезентативности выборки (расчете ошибки выборки и распространении характеристик выборки на генеральную совокупность); измерении степени тесноты связи и составлении модели регрессии; построении и использование статистических критериев и др.

Как показывают многочисленные статистические исследования, частоты (частости) эмпирических распределений за редким исключением будут отличаться от значений теоретического распределения. Расхождения между частотами (частостями) эмпирического и теоретического распределения могут быть несущественными и объяснены случайностями выборки и существенными при несоответствии выбранного и эмпирического законов распределения.

Для проверки гипотезы о соответствии эмпирического распределения теоретическому закону нормального распределения используются особые статистические показатели-критерии согласия (или критерии соответствия). К ним относятся критерии Пирсона, Колмогорова, Романовского, Ястремского и др.

Большинство критериев согласия базируется на использовании отклонений эмпирических частот то теоретических. Очевидно, что чем больше эти отклонения, тем хуже теоретическое распределения соответствует (описывает) эмпирическому (эмпирическое). Статистические характеристики таких критериев согласия являются некоторыми функциями этих отклонений.

Одним из наиболее часто употребляемых критериев согласия является критерий Сущность и задачи статистической проверки гипотез - student2.ru (хи-квадрат), предложенный К. Пирсоном:

Сущность и задачи статистической проверки гипотез - student2.ru или Сущность и задачи статистической проверки гипотез - student2.ru ;

где Сущность и задачи статистической проверки гипотез - student2.ru - частоты ( Сущность и задачи статистической проверки гипотез - student2.ru - частости) эмпирического распределения по i-й группе;

Сущность и задачи статистической проверки гипотез - student2.ru - частоты (pi - частости) теоретического распределения в определенном интервале;

m- число групп в эмпиричном распределении;

Сущность и задачи статистической проверки гипотез - student2.ru - общий объем распределения.

Чем больше разность между эмпирическими и теоретические частотами, тем больше величина Сущность и задачи статистической проверки гипотез - student2.ru . Чтобы отличить существенные значения Сущность и задачи статистической проверки гипотез - student2.ru от значений, которые могут возникнуть в результате случайностей выборки, расчетное значения критерия сравнивается с табличным значением при соответствующем числе степеней свободы и заданном уровне значимости. Обычно уровень значимости выбирается таким образом, что Сущность и задачи статистической проверки гипотез - student2.ru .

Можно при проверке данной гипотезы по критерию Сущность и задачи статистической проверки гипотез - student2.ru встретиться с такими вариантами:

1) Сущность и задачи статистической проверки гипотез - student2.ru , т.е. Сущность и задачи статистической проверки гипотез - student2.ru попадает в критическую область. Это означает, что расхождение между эмпирическими и теоретическими частотами существенно и его нельзя объяснить случайными колебаниями выборочных данных.

В таком случае гипотеза о близости эмпирического распределения нормальному отвергается.

2) Сущность и задачи статистической проверки гипотез - student2.ru , т.е. рассчитанное значение критерия не превышает максимально возможную величину расхождения эмпирических и теоретических частот, которая может возникнуть в силу случайных колебаний выборочных данных. В этом случае гипотеза о близости эмпирического распределения к нормальному принимается (не отвергается).

Число степеней свободы равно Сущность и задачи статистической проверки гипотез - student2.ru , где m-число групп, l – число условий, которые предполагаются выполненными при вычислении теоретических частот.

Для расчета теоретических частот кривой нормального распределения необходимо знать три параметра Сущность и задачи статистической проверки гипотез - student2.ru и поэтому число степеней свободы равно Сущность и задачи статистической проверки гипотез - student2.ru .

При расчете критерия Сущность и задачи статистической проверки гипотез - student2.ru нужно соблюдать следующие условия:

1) число наблюдений (объем выборки) должно быть достаточно велико Сущность и задачи статистической проверки гипотез - student2.ru ;

2) все теоретические частоты по группам должны быть более 5 Сущность и задачи статистической проверки гипотез - student2.ru . Если теоретические частоты в некоторых группах (интервалах) будут меньше 5, то такие интервалы объединяют с соседними так, чтобы частоты были >5;

3) Число групп (интервалов) должно быть достаточно большим, поскольку оценка Сущность и задачи статистической проверки гипотез - student2.ru зависит от числа степеней свободы.

Пример. Проверить нулевую гипотезу о соответствии распределения работников по уровню заработной платы нормальному закону.

Расчетные величины и исходные данные приведены в таблице:

Середины интервалов по группам ( Сущность и задачи статистической проверки гипотез - student2.ru ) Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru Кумулятивная частота Сущность и задачи статистической проверки гипотез - student2.ru Сущность и задачи статистической проверки гипотез - student2.ru по модулю
эмпирическая теоретическая
        1,2 0,8
4,5 2,5 6,25 1,39 5,7 1,3
10,2 2,8 7,84 0,77 15,9 4,1
19,8 -2,8 7,84 0,40 35,7 2,7
26,0 -8,0 64,00 2,46 61,7 6,7
26,0 5,0 25,00 0,96 87,7 1,7
19,8 2,2 4,84 0,24 107,5 0,5
10,2 1,8 3,24 0,32 117,7 2,3
4,5 0,5 0,25 0,05 122,2 2,8
Итого хх хх хх 6,59 х х х

Значения Сущность и задачи статистической проверки гипотез - student2.ru рассчитаны с использованием специальной таблицы плотности нормального распределения и формулы для расчета Сущность и задачи статистической проверки гипотез - student2.ru . (В лекции не приводится, т.к. не предусмотрен рабочей программой).

Расчетное значение Сущность и задачи статистической проверки гипотез - student2.ru . При числе степеней свободы Сущность и задачи статистической проверки гипотез - student2.ru и уровне значимости Сущность и задачи статистической проверки гипотез - student2.ru , Сущность и задачи статистической проверки гипотез - student2.ru .

Итак, получен результат Сущность и задачи статистической проверки гипотез - student2.ru и можно сделать вывод, что данная гипотеза не отвергается, т.е. данное распределение соответствует закону нормального распределения.

Наши рекомендации