Общая логическая схема статистического критерия
По своему назначению и характеру решаемых задач статистические критерии очень разнообразны. Однако их объединяет общая логическая схема, по которой они строятся.
1. Выдвигается гипотеза .
2. Задают величину уровня значимости критерия . Дело в том, что всякое статистическое решение, т.е. решение, принимаемое на основании ограниченного ряда наблюдений, неизбежно сопровождается некоторой, хотя, возможно, может и очень малой, вероятностью ошибочного заключения как в ту, так и в другую сторону. В какой-то небольшой доле случаев гипотеза может оказаться отвергнутой, в то время как на самом деле она является справедливой. Или, наоборот, в какой-то небольшой доле случаев мы можем принять нашу гипотезу, в то время как на самом деле она ошибочна, а справедливым оказывается некоторое конкурирующее с ней предположение – альтернативная гипотеза . При фиксированном объеме выборочных данных величину вероятности одной из этих ошибок можно выбирать по своему усмотрению. Если же объем выборки можно как угодно увеличивать, то имеется принципиальная возможность добиваться как угодно малых вероятностей обеих ошибок и при любой фиксированной конкурирующей гипотезе . В частности, при фиксированном объеме выборки обычно задают величину вероятности ошибочного отверждения проверяемой гипотезы , которую часто называют «основной» или «нулевой». Эту вероятность ошибочного отклонения «нулевой» гипотезы принято называть уровнем значимости или размером критерия. Выбор величины уровня значимости зависит от сопоставления потерь, которые мы понесем в случае ошибочных заключений в ту или иную сторону: чем существеннее для нас потери от ошибочного отвержения высказанной гипотезы , тем меньше выбирается величина . Однако поскольку такое сопоставление в большинстве случаев практических задач оказывается весьма затруднительным (часто трудно даже вообще сказать, в какую сторону ошибка является для нас более опасной), то, как правило, пользуются некоторыми стандартными значениями уровня значимости. Особенно распространенной является величина уровня значимости . она означает, что в среднем в 5 случаях из 100 мы будем ошибочно отвергать высказанную гипотезу при многократном использовании данного статистического критерия.
3. Определяют некоторую функцию от результатов наблюдения (критическая статистика) . Эта критическая статистика , как и всякая функция от результатов наблюдения, сама является случайной величиной и в предположении справедливости гипотезы подчинена некоторому хорошо изученному закону распределения с плотностью .
С помощью критической статистики определяется мера расхождения имеющихся в нашем распоряжении выборочных данных с проверяемой гипотезой . Например, в гипотезах типа (1) критическая статистика определяет меру различия между анализируемой эмпирической функцией распределения и модельной функцией . В гипотезах типа (2) величина измеряет степень расхождения соответствующих выборочных характеристик в различных выборках и т.д.
4. Из таблиц распределения находятся -ная точка и -ная точка (под 100q%-ной точкой случайной величины понимается такое ее возможное значение , для которого вероятность события равна , т.е. ), разделяющие всю область мыслимых значений случайной величины на три части: область неправдоподобно малых (I), неправдоподобно больших (III), и естественных или правдоподобных (в условиях справедливости гипотезы ) значений (II). В тех случаях, когда основную опасность для нашего утверждения представляют только односторонние отклонения, т.е. «слишком малые» или только «слишком большие» значения критической статистики , находят лишь одну процентную точку: либо -ную точку , которая будет разделять весь диапазон значений на две части: область неправдоподобно малых и область правдоподобных значений; либо -ную точку ; она будет разделять весь диапазон значений на область неправдоподобно больших и область правдоподобных значений.
5. В функцию подставляют имеющиеся конкретные выборочные данные и вычисляют . Если окажется, что полученное значение принадлежит области правдоподобных значений , то гипотеза считается не противоречащей выборочным данным. В противном случае, т.е. если слишком мала или слишком велика, делается вывод, что на самом деле не подчиняется закону (этот вывод сопровождается вероятностью ошибки ), поэтому от высказанного предложения следует отказаться.
Таким образом, решение, принимаемое на основании любого статистического критерия, может оказаться ошибочным как в случае отклонения проверяемой гипотезы (с вероятностью ), так и в случае ее принятия (с вероятностью ). Вероятности и ошибочных решений называют также ошибками соответственно первого и второго рода, а величину – мощностью критерия. Очевидно, из двух критериев, характеризующихся одной и той же вероятностью отвергнуть в действительности правильную гипотезу , следует предпочесть тот, который сопровождается меньшей ошибкой второго рода (или большей мощностью).
Если проверяемое предположительное утверждение сводится к гипотезе о том, что значение некоторого параметра в точности равно заданной величине , то эта гипотеза называется простой. В других случаях гипотеза будет называться сложной.
Построение статистического критерия;