ПОСТАНОВКА ЗАДАЧИ о выборочных оценках
Имеется случайная величина X, закон распределения которой содержит неизвестный параметр a. Требуется на основании опытных данных найти подходящую оценку этого параметра.
Пусть в нашем распоряжении имеется ряд наблюдений бесконечной продолжительности x1, х2, . .., xN (N→∞). Разобьем эту генеральную совокупность на l частных выборок (l→∞) объемом в п членов каждая. Пронумеруем значения X в выборкахв соответствии с порядковым номером выборки j и порядковым номером значений X в данной выборке —i.
По материалам наблюдений, представленным в первой выборке x11, х12,..., x1п, рассчитано значение параметра а. Это значение называется статистической или выборочной (вычислено по выборке) оценкой параметра а. Обозначим эту оценку через . Естественно, что значение является функцией входящих в первую выборку значений, т. е. = f(x11, х12, . .., x1п). Аналогично = f(xj1, хj2, . .., xjп) и т.д.
Значения случайнойвеличины, очевидно, могут быть разными в разныхвыборках, и появление именно данного набора их в данной выборке совершенно случайно. Отсюда следует, что , являющееся функцией входящих в выборку значений xji также является значением случайной величины, имеющей, как и каждая случайная величина, свой закон распределения Fa. Этот закон распределения разный для различных параметров распределения и, при прочих равных условиях, зависит от закона распределения X и от объема выборки.
Таким образом, по каждой из l выборок может быть получена своя оценка данного конкретного параметра а. Представим эти оценки в виде гистограммы эмпирических значений или оценок а (рис. 5.1).
Будем теперь увеличивать объем выборок п. В этом случае гистограмма распределения должна сужаться по оси абсцисс, т. е. рассеивание выборочных оценок относительно действительного значения должно уменьшаться, и при n→∞ с вероятностью должно быть равно а, т. е. гистограмма должна превратиться в линию, проходящую через ось абсцисс в точке =a, равную по оси ординат 1.
Из приведенных графиков сглаженных гистограмм оценок а при различных n видно, что при малых значениях n выборочные оценки а могут весьма существенно отличаться от действительных. Очевидно, что, чем меньше, при прочих равных условиях, отличие выборочных оценок от действительных и чем меньше вероятность больших отличий, тем лучше оценка.
На основе проведенных рассуждений можно сделать следующие выводы:
1. Принятые оценки параметров распределения должны наилучшим образом отражать их действительные значения.
2. Каждая оценка параметра является функцией выборки и ее следует считать наблюденным значением некоторой случайной величины.
Исходя из этого рассмотрим некоторые свойства выборочных оценок и требований, которым они должны удовлетворять.
Для того, чтобы какая-то статистическая оценка (x1, х2, ..., xп)имела наибольшую практическую ценность, она должна удовлетворять следующим требованиям.
1. Быть несмещенной.
Несмещенными называются оценки, математическое ожидание которых равно оцениваемому параметру, т. е.
(5.1)
Это означает, что центр распределения оценок числовой характеристики по множеству выборок (см. рис. 5.1) должен совпадать с действительным значением этой характеристики.
Естественно, что в качестве приближения неизвестного параметра лучше брать несмещенные оценки, чтобы не делать систематических погрешностей в сторону завышения или занижения.
Бывают случаи, когда возникает необходимость использовать смещенные оценки. Тогда, если оценка называется положительно смещенной, а если — отрицательно смещенной.
2. Оценка должна быть состоятельной.
Оценка называется состоятельной, если она сходится по вероятности к оцениваемому параметру при неограниченном возрастании числа опытов, т. е.
(5.2) |
при n →∞, где ξ— сколь угодно малое положительное число.
Для выполнения этого требования достаточно, чтобы дисперсия оценки при увеличении п стремилась к нулю, т. е.
(5.3) |
и, кроме того, чтобы оценка была несмещенной.
Желательно, чтобы этому требованию удовлетворяла всякая оценка, пригодная для практического использования.
3. Оценка числовой характеристики распределения должна быть эффективной.
Оценки, обладающие свойством несмещенности и состоятельности, при ограниченном числе опытов могут иметь разные дисперсии. Очевидно, что, чем меньше дисперсия оценки, т. е. чем меньше разброс относительно действительного значения (см. рис. 5.1), тем меньше вероятность грубой погрешности при определении приближенного значения параметра.
Оценка, обладающая свойством
(5.4) |
называется эффективной.
В практических приложениях теории вероятностей в геоэкологии для описания случайной величины X обычно применяются следующие характеристики: математическое ожидание тх, мода М, медиана Me, дисперсия Dx, среднее квадратическое отклонение σх коэффициент вариации Cv , коэффициент асимметрии Csх и реже эксцесс Ех.
Традиционным методом статистических оценок этих параметров является метод моментов.
С середины 50-х годов в гидрологии получил широкое распространение графоаналитический метод (метод квантилей), предложенный Г. А. Алексеевым.
В последнее время в практику расчетов все больше входит метод наибольшего правдоподобия, разработанный Фишером.
МЕТОД МОМЕНТОВ
Выборочная оценка математического ожидания (среднее значение х)
(5.5) |
дисперсии
(5.6) |
среднего квадратического отклонения
(5.7) |
коэффициента вариации
(5.8) |
коэффициента асимметрии
(5.9) |
Оценки по формулам (5.6) —(5.9) являются смещенными и в ряде случаев неэффективными.
Оценка дисперсии
Оценка дисперсии по формуле (5.6) имеет отрицательную смещенность, равную в среднем Dx/n. Для ее учета следует правую часть формулы [5.6] умножить на п/(п— 1). В результате получаем
(5.12)
В соответствии с этим для оценки среднего квадратического отклонения должна использоваться формула
(5.13)
а для оценки коэффициента вариации
(5.14)
Для определения коэффициента асимметрии на основании аналогичных выводов получена формула
(5.15)
Следует отметить, что при п ≥30 во многих гидрологических расчетах с достаточной точностью можно принимать в знаменателе формул (5.12) —(5.15) не п— 1, а п.