Виды гипотез. Ошибки первого и второго рода
СТАТИСТИЧЕСКАЯ ПРОВЕРКА СТАТИСТИЧЕСКИХ
ГИПОТЕЗ
Понятие статистической гипотезы.
Виды гипотез. Ошибки первого и второго рода
Гипотеза - это предположение о некоторых свойствах изучаемых явлений. Под статистической гипотезой понимают всякое высказывание о генеральной совокупности, которое можно проверить статистически, то есть опираясь на результаты наблюдений в случайной выборке. Рассматривают два вида статистических гипотез: гипотезы о законах распределения генеральной совокупности и гипотезы о параметрах известных распределений.
Так, гипотеза о том, что затраты времени на сборку узла машины в группе механических цехов, выпускающих продукцию одного наименования и имеющих примерно одинаковые технико-экономические условия производства, распределяются по нормальному закону, является гипотезой о законе распределения. А гипотеза о том, что производительность труда рабочих в двух бригадах, выполняющих одну и ту же работу в одинаковых условиях, не различается (при этом производительность труда рабочих каждой бригады имеет нормальный закон распределения), является гипотезой о параметрах распределения.
Подлежащая проверке гипотеза называется нулевой, или основной, и обозначается Н0. Нулевой гипотезе противопоставляют конкурирующую, или альтернативную, гипотезу, которую обозначают Н1. Как правило, конкурирующая гипотеза Н1 является логическим отрицанием основной гипотезы Н0.
Примером нулевой гипотезы может быть следующая: средние двух нормально распределенных генеральных совокупностей равны, тогда конкурирующая гипотеза может состоять из предположения, что средние не равны. Символически это записывается так:
Н0: М(Х) = М(Y); Н1: М(Х) М(Y) .
Если нулевая (выдвинутая) гипотеза будет отвергнута, то имеет место конкурирующая гипотеза.
Различают гипотезы простые и сложные. Если гипотеза содержит только одно предположение, то это - простая гипотеза. Сложная гипотеза состоит из конечного или бесконечного числа простых гипотез.
Например, гипотеза Н0: p = p0 (неизвестная вероятность p равна гипотетической вероятности p0) - простая, а гипотеза Н0: p < p0 - сложная, она состоит из бесчисленного множества простых гипотез вида Н0: p = pi , где pi - любое число, меньше p0 .
Выдвигаемая статистическая гипотеза может быть правильной или неправильной, поэтому необходимо ее проверить, опираясь на результаты наблюдений в случайной выборке; проверку производят статистическими методами, поэтому ее называют статистической.
При проверке статистической гипотезы пользуются специально составленной случайной величиной, называемой статистическим критерием (или статистикой). Принимаемое заключение о правильности (или неправильности) гипотезы основывается на изучении распределения этой случайной величины по данным выборки. Поэтому статистическая проверка гипотез имеет вероятностный характер: всегда существует риск допустить ошибку при принятии (отклонении) гипотезы. При этом возможны ошибки двух родов.
Ошибка первого рода состоит в том, что будет отвергнута нулевая гипотеза, хотя на самом деле она верна.
Ошибка второго рода состоит в том, что будет принята нулевая гипотеза, хотя в действительности верна конкурирующая.
В большинстве случаев последствия указанных ошибок неравнозначны. Что лучше или хуже - зависит от конкретной постановки задачи и содержания нулевой гипотезы. Рассмотрим примеры. Допустим, что на предприятии о качестве продукции судят по результатам выборочного контроля. Если выборочная доля брака не превышает заранее установленной величины p0, то партия принимается. Другими словами, выдвигается нулевая гипотеза: Н0: p p0. Если при проверке этой гипотезы допущена ошибка первого рода, то мы забракуем годную продукцию. Если же совершена ошибка второго рода, то потребителю будет отправлен брак. Очевидно, что последствия ошибки второго рода могут быть значительно более серьезными.
Другой пример можно привести из области юриспруденции. Будем рассматривать работу судей как действия по проверке презумпции невиновности подсудимого. В качестве основной проверяемой гипотезы следует рассмотреть гипотезу Н0: подсудимый невиновен. Тогда альтернативной гипотезой Н1 является гипотеза: обвиняемый виновен в совершении преступления. Очевидно, что суд может совершить ошибки первого или второго рода при вынесении приговора подсудимому. Если допущена ошибка первого рода, то это означает, что суд наказал невиновного: подсудимому был вынесен обвинительный приговор, когда на самом деле он не совершал преступления. Если же судьи допустили ошибку второго рода, то это значит, что суд вынес оправдательный приговор, когда на самом деле обвиняемый виновен в совершении преступления. Очевидно, что последствия ошибки первого рода для обвиняемого будут значительно более серьезными, в то время как для общества наиболее опасными являются последствия ошибки второго рода.
Вероятность совершить ошибку первого рода называют уровнем значимости критерия и обозначают .
В большинстве случаев уровень значимости критерия принимают равным 0,01 или 0,05. Если, например, уровень значимости принят равным 0,01, то это означает, что в одном случае из ста имеется риск допустить ошибку первого рода (то есть отвергнуть правильную нулевую гипотезу).
Вероятность совершить ошибку второго рода обозначают . Вероятность не совершить ошибку второго рода, то есть отвергнуть нулевую гипотезу, когда она неверна, называется мощностью критерия.
Статистический критерий.
Критические области
Статистическую гипотезу проверяют с помощью специально подобранной случайной величины, точное или приближенное распределение которой известно (обозначим ее К). Эту случайную величину называют статистическим критерием (или просто критерием).
Существуют различные статистические критерии, применяемые на практике: U- и Z-критерии (эти случайные величины имеют нормальное распределение); F-критерий (случайная величина распределена по закону Фишера - Снедекора); t-критерий (по закону Стьюдента); -критерий (по закону "хи-квадрат") и др.
Множество всех возможных значений критерия можно разбить на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза принимается, а другое - при которых она отвергается.
Множество значений критерия, при которых нулевая гипотеза отвергается, называется критической областью. Будем обозначать критическую область через W.
Множество значений критерия, при которых нулевая гипотеза принимается, называется областью принятия гипотезы (или областью допустимых значений критерия). Будем обозначать эту область как .
Для проверки справедливости нулевой гипотезы по данным выборок вычисляют наблюдаемое значение критерия. Будем обозначать его Кнабл.
Основной принцип проверки статистических гипотез можно сформулировать так: если наблюдаемое значение критерия попало в критическую область (то есть ), то нулевую гипотезу отвергают; если же наблюдаемое значение критерия попало в область принятия гипотезы (то есть ), то нет оснований отвергать нулевую гипотезу.
Какими принципами следует руководствоваться при построении критической области W ?
Допустим, что гипотеза Н0 на самом деле верна. Тогда попадание критерия в критическую область в силу основного принципа проверки статистических гипотез влечет за собой отклонение верной гипотезы Н0, а значит, совершение ошибки первого рода. Поэтому вероятность попадания в область W при справедливости гипотезы Н0 должна быть равна уровню значимости критерия, то есть
.
Заметим, что вероятность совершить ошибку первого рода выбирается достаточно малой (как правило, ). Тогда попадание критерия в критическую область W при справедливости гипотезы Н0 можно считать практически невозможным событием. Если по данным выборочного наблюдения событие все же наступило, то его можно считать несовместимым с гипотезой Н0 (которая в результате и отвергается), но совместимым с гипотезой Н1 (которая в результате принимается).
Предположим теперь, что верна гипотеза Н1. Тогда попадание критерия в область принятия гипотезы влечет за собой принятие неверной гипотезы Н0, что означает совершение ошибки второго рода. Поэтому .
Так как события и являются взаимно противоположными, то вероятность попадания критерия в критическую область W будет равна мощности критерия, если гипотеза Н1 верна, то есть
.
Очевидно, что критическую область следует выбирать так, чтобы при заданном уровне значимости мощность критерия была максимальной. Максимизация мощности критерия обеспечит минимум вероятности допустить ошибку второго рода.
Следует отметить, что как бы ни было мало значение уровня значимости , попадание критерия в критическую область есть только маловероятное, но не абсолютно невозможное событие. Поэтому не исключено, что при верной нулевой гипотезе значение критерия, вычисленное по данным выборки, все же окажется в критической области. Отклоняя в этом случае гипотезу Н0, мы допускаем ошибку первого рода с вероятностью . Чем меньше , тем менее вероятно допустить ошибку первого рода. Однако с уменьшением уменьшается критическая область, а значит, становится менее возможным попадание в нее наблюдаемого значения Кнабл, даже когда гипотеза Н0 неверна. При =0 гипотеза Н0 всегда будет приниматься независимо от результатов выборки. Поэтому уменьшение влечет за собой увеличение вероятности принять неверную нулевую гипотезу, то есть совершить ошибку второго рода. В этом смысле ошибки первого и второго рода являются конкурирующими.
Так как исключить ошибки первого и второго рода невозможно, необходимо хотя бы стремиться в каждом конкретном случае свести к минимуму потери от этих ошибок. Конечно, желательно уменьшить обе ошибки одновременно, но так как они являются конкурирующими, то уменьшение вероятности допустить одну из них влечет увеличение вероятности допустить другую. Единственный путь одновременного уменьшения риска ошибок заключается в увеличении объема выборки.
В зависимости от вида конкурирующей гипотезы Н1 строят одностороннюю (правостороннюю и левостороннюю) и двустороннюю критические области. Точки, отделяющие критическую область от области принятия гипотезы , называют критическими точками и обозначают kкрит. Для отыскания критической области необходимо знать критические точки.
Правосторонняя критическая область может быть описана неравенством К>kкрит. пр, где предполагается, что правая критическая точка kкрит. пр>0. Такая область состоит из точек, находящихся по правую сторону от критической точки kкрит. пр, то есть она содержит множество положительных и достаточно больших значений критерия К. Для нахождения kкрит. пр задают сначала уровень значимости критерия . Далее правую критическую точку kкрит. пр находят из условия . Почему именно это требование определяет правостороннюю критическую область? Так как вероятность события (К>kкрит. пр) мала, то, в силу принципа практической невозможности маловероятных событий, это событие при справедливости нулевой гипотезы в единичном испытании не должно наступить. Если все же оно наступило, то есть вычисленное по данным выборок наблюдаемое значение критерия оказалось больше kкрит. пр, то это можно объяснить тем, что нулевая гипотеза не согласуется с данными наблюдения и поэтому должна быть отвергнута. Таким образом, требование определяет такие значения критерия, при которых нулевая гипотеза отвергается, а они и составляют правостороннюю критическую область.
Если же попало в область допустимых значений критерия , то есть < kкрит. пр, то основная гипотеза не отвергается, ибо она совместима с данными наблюдения. Заметим, что вероятность попадания критерия в область допустимых значений при справедливости нулевой гипотезы равна (1- ) и близка к 1.
Необходимо помнить, что попадание значений критерия в область допустимых значений не является строгим доказательством справедливости нулевой гипотезы. Оно лишь указывает, что между выдвигаемой гипотезой и результатами выборки нет существенного расхождения. Поэтому в таких случаях говорят, что данные наблюдений согласуются с нулевой гипотезой и нет оснований отвергать ее.
Аналогично проводится построение и других критических областей.
Так, левосторонняя критическая область описывается неравенством К<kкрит. л, где kкрит.л<0. Такая область состоит из точек, находящихся по левую сторону от левой критической точки kкрит.л, то есть она представляет собой множество отрицательных, но достаточно больших по модулю значений критерия. Критическую точку kкрит.л находят из условия (К<kкрит. л) , то есть вероятность того, что критерий принимает значение, меньшее kкрит.л, равна принятому уровню значимости , если нулевая гипотеза верна.
Двусторонняя критическая область описывается следующими неравенствами: (К<kкрит.л или К>kкрит. пр), где предполагается, что kкрит.л<0 и kкрит. пр>0. Такая область представляет собой множество достаточно больших по модулю значений критерия. Критические точки находят из требования: сумма вероятностей того, что критерий примет значение, меньшее kкрит. л или больше kкрит. пр, должна быть равна принятому уровню значимости при справедливости нулевой гипотезы, то есть
(К<kкрит. л)+ (К>kкрит. пр)= .
Если распределение критерия К симметрично относительно начала координат, то критические точки будут располагаться симметрично относительно нуля, поэтому kкрит. л = - kкрит. пр. Тогда двусторонняя критическая область становится симметричной и может быть описана следующим неравенством: >kкрит. дв, где kкрит. дв = kкрит. пр Критическую точку kкрит. дв можно найти из условия
Р(К<-kкрит. дв)=Р(К>kкрит. дв)= .
Замечание 1. Для каждого критерия К критические точки при заданном уровне значимости могут быть найдены из условия только численно. Результаты численных вычислений kкрит приведены в соответствующих таблицах (см., например, прил. 4 – 6 в файле «Приложения»).
Замечание 2. Описанный выше принцип проверки статистической гипотезы не доказывает еще ее истинность или неистинность. Принятие гипотезы Н0 в сравнениис альтернативной гипотезой Н1 не означает, что мы уверены в абсолютной правильности гипотезы Н0 - просто гипотеза Н0 согласуется с имеющимися у нас данными наблюдения, то есть является достаточно правдоподобным, не противоречащим опыту утверждением. Возможно, что с увеличением объема выборки n гипотеза Н0 будет отвергнута.