Проверка согласованности эмпирического и теоретического распределений с помощью критерия c2

Как правило, критерий c2 имеет практическое значение для совокупностей численностью не менее 40 наблюдений. Для применения данного критерия интервал вариации случайной величины разбивается на непересекающиеся классы. О согласии теоретического и эмпирического распределений судят по наблюдаемым различиям в частоте попадания наблюдений в каждый класс по сравнению с частотой, которая должна бы была иметь место, если бы распределение в точности соответствовало теоретическому. Если различия настолько велики, что с достаточно высокой вероятностью[14] (обычно в экономических исследованиях требуют, чтобы она была не менее 95%, при остром недостатке данных — не менее 90%[15]) не могли бы возникнуть, если бы распределение случайной величины соответствовало предполагаемому закону, — гипотезу о согласии эмпирического распределения с выбранным теоретическим отвергают.

В противном случае считают, что расхождение с предлагаемой теоретической моделью не доказано с достаточной степенью надёжности; а значит, нет оснований ставить под сомнение те теоретические соображения, на основе которых выдвинута гипотеза о законе распределения — по крайней мере, до тех пор, пока новые, более полные, данные не придут в противоречие с нею.

Выдвигая гипотезу о распределении, принимают во внимание следующие сведения (в меру их доступности):

¨ область определения случайной величины;

¨ происхождение данной случайной величины;

¨ моменты распределения и их соотношение;

¨ форму гистограммы;

¨ результаты моделирования данной случайной величины, полученные другими исследователями;

¨ аналогии с другими случайными величинами, распределение которых установлено;

¨ численность наблюдений.

В качестве области определения случайной величины не следует принимать наблюдаемый диапазон вариации (иначе у нас никогда не оказалось бы оснований для использования нормального распределения). Её определяют исходя из сущности процесса или явления, отражаемого случайной величиной. Например, урожайность культуры не может быть ниже нуля; существует также её объективный верхний предел, зависящий от массы гумуса в почве. Поэтому для её моделирования может подойти какое-либо распределение, определённое на интервале [0; b] — например, бета или (при недостатке данных) треугольное. При этом величину b, раз она неизвестна, можно определить подбором, добиваясь наилучшего согласия опытных данных с теоретическим распределением.

Можно ли использовать для моделирования урожайности, например, гамма-распределение? Очевидно, что в действительности урожайность не может соответствовать этому распределению, так как она в принципе не может быть сколь угодно большой. Но с некоторой степенью грубости гамма-распределение может оказаться практически приемлемой моделью, если оценённая по гамма-распределению (то есть теоретическая) вероятность значений урожайности, превышающих фактически наблюдаемые, пренебрежимо мала. То же касается нормального распределения, но тогда пренебрежимо мала должна быть также теоретическая вероятность отрицательных значений урожайности. Последнее часто не выполняется.

Если, кроме наблюдений, нет никаких оснований для выбора распределения, то следует отдавать предпочтение самым простым распределениям с наименьшим числом параметров. Если к тому же наблюдения малочисленны, лучше пользоваться такими распределениями, как равномерное и треугольное. Результаты, полученные при подобных обстоятельствах, требуют перепроверки в дальнейшем.

Параметры гипотетических распределений, если только они не известны заранее из теоретических соображений, определяют, когда возможно, на основе моментов эмпирического распределения (средней и дисперсии)[16], а когда невозможно — подбором.

После того, как гипотеза сформулирована, можно приступать к её проверке. Процедура проверки по критерию c2 предполагает следующие этапы:

¨ разбиение интервала вариации на непересекающиеся классы;

¨ определение численности наблюдений эмпирического распределения, приходящихся на каждый класс;

¨ определение теоретической численности наблюдений в соответствии с выбранной моделью случайной величины;

¨ расчёт значения критерия c2;

¨ определение критического уровня c2 для заданной доверительной вероятности;

¨ сравнение фактического и критического значений c2 и заключение о том, следует ли отвергнуть предложенную теоретическую модель распределения случайной величины.

Рассмотрим каждый из этих этапов.

Считается, что практически приемлемый компромисс между численностью классов и численностью наблюдений в каждом классе достигается, если число классов определять по формуле Проверка согласованности эмпирического и теоретического распределений с помощью критерия c2 - student2.ru где N — число наблюдений, а ширину классов принимают равной. Чтобы обеспечить приемлемую вероятность ошибки при расчёте значения c2, необходимо следить за тем, чтобы как фактическая, так и теоретическая численность наблюдений в каждом классе была не меньше 6…8. Если это не выполняется, малочисленные классы объединяют; при этом численность классов не должна оказаться меньше пяти. В случае невыполнимости этих требований критерию c2 доверять нельзя[17]. Если данная процедура порождает очень много пустых классов, а случайная величина строго положительна, то целесообразно перейти к исследованию распределения её логарифмов.

Численность наблюдений, относящихся к каждому классу, обычно определяется по ранжированному ряду наблюдаемых данных с помощью функции Excel =СЧЁТЕСЛИ(Ряд,Условие).

Теоретическая численность наблюдений для каждого класса определяется как (F(x2) – F(x1))·N, где F(·) — функция выбранного теоретического распределенияˆ, N — число имеющихся наблюдений, x2 и x1 — соответственно верхняя и нижняя границы класса.

Значение критерия c2 рассчитывается по формуле

Проверка согласованности эмпирического и теоретического распределений с помощью критерия c2 - student2.ru

где k — число классов, ni — число фактических наблюдений в классе i, n'i — теоретическая численность наблюдений в классе i. При различных разбиениях на классы значение c2 оказывается различным, но при выполнении требований к числу наблюдений всего и в каждом классе, сформулированных выше, вероятность статистически существенных различий невелика.

Критическое значение может быть определено с помощью формулы Excel

=ХИ2ОБР(1-УровеньДоверия;СтепениСвободы),

где в ячейке УровеньДоверия содержится требуемая доверительная вероятность (выраженная в долях, а не в процентах), а в ячейке СтепениСвободы — величина, равная числу классов за вычетом увеличенного на единицу числа параметров теоретического распределения, определённых с использованием эмпирических данных. В MathCad аналогичный расчёт выполняется с помощью формулы

qchisq(1-УровеньДоверия;СтепениСвободы).

Если значение c2 превышает критическое, гипотезу о согласии распределений отвергают с выбранным уровнем доверия. В противном случае гипотеза не отвергается (что, разумеется, не означает её безусловной истинности: быть может, этот результат случаен, а может, действительное распределение мало отличается от гипотетического).

Расчёты по проверке согласованности теоретического и эмпирического распределений рекомендуется выполнять в таблице, строки которой (кроме итоговой) соответствуют классам, а столбцы — этапам вычислений. В частности, в ней должны быть представлены величины ni, n'i и (ni – n'i)2/n'i.

Наши рекомендации