Оценка параметров генеральной совокупности по ее выборке
Предположим, что генеральная совокупность является нормальным распределением (здесь вместо вероятности следует использовать относительную частоту). Нормальное распределение полностью определено математическим ожиданием (средним значением) и средним квадратическим отклонением. Поэтому если по выборке можно оценить, т. е. приближенно найти, эти параметры, то будет решена одна из задач математической статистики — определение параметров большого массива по исследованию его части.
Как и для выборки, для генеральной совокупности можно определить генеральную среднюю — среднее арифметическое значение всех величин, составляющих эту совокупность. Учитывая большой объем этой совокупности, можно полагать, что генеральная средняя равна математическому ожиданию:
(3.10)
где X — общая запись случайной величины (значения изучаемого признака) генеральной совокупности.
Рассеяние значений изучаемого признака генеральной совокупности от их генеральной средней оценивают генеральной дисперсией
(3.11)
где N — объем генеральной совокупности, или генеральным средним квадратическим отклонением
(3.12)
Точечная оценка. Предположим, что из генеральной совокупности производятся разные выборки; делают это так, чтобы вся генеральная совокупность сохранялась неизменной. Для определенности будем считать объемы этих выборок одинаковыми и равными п. Их выборочные средние являются случайными величинами, которые распределены по нормальному закону (см. конец § 2.3), а их математическое ожидание равно математическому ожиданию генеральной совокупности, т. е. генеоалъной средней:
(3.13)
На практике иногда при достаточно большой выборке за генеральную среднюю приближенно принимают выборочную среднюю.
Для дисперсий положение получается несколько иным. Математическое ожидание дисперсий различных выборок [M(DBi)], составленных из генеральной совокупности, отличается от генеральной дисперсии:
(3.14)
При большом п получаем и
Dг » M(DBi) (3.14а)
Для генерального среднего квадратического отклонения соответственно из (3.14) и (3.14а) получаем:
(3.15)
На практике иногда при достаточно большой выборке выборочное среднее квадратическое отклонение приближенно принимают за генеральное среднее квадратическое отклонение. Так, если считать, что статистическое распределение (см. табл. 5) является выборкой из некоторой генеральной совокупности, то на основании (3.6) и (3.9) можно заключить, что для этой генеральной совокупности »3,468 кг и sг »0,3896 кг.
Такого рода оценка параметров генеральной совокупности или каких-либо измерений определенными числами называется точечной оценкой.
Интервальная оценка генеральной средней. Точечная оценка, особенно при малой выборке, может значительно отличаться от истинных параметров генеральной совокупности. Поэтому при небольшом объеме выборки пользуются интервальными, оценками.
В этом случае указывается интервал (доверительный интервал, или доверительные границы), в котором с определенной (доверительной) вероятностью р находится генеральная средняя.
Иначе говоря, р определяет вероятность, с которой осуществляются следующие неравенства:
(3.16)
где положительное число e характеризует точность оценки.
Кроме доверительной вероятности используют «противоположное» понятие — уровень значимости
b = 1 – р, (3.17)
который выражает вероятность непопадания генеральной средней в доверительный интервал.
Доверительную вероятность не следует выбирать слишком маленькой (не следует ее обесценивать). Наиболее часто р принимают равной 0,95; 0,99; 0,999. Чем больше р, тем шире интервал, т. е. тем больше e. Чтобы установить количественную связь между этими величинами, необходимо найти выражение для доверительной вероятности. Это можно сделать, используя (2.17), однако нужно понять, что при этом следует взять за функцию распределения вероятностей и какие принять пределы интегрирования. Рассмотрим этот вопрос.
Итак, генеральная совокупность распределена по нормальному закону с математическим ожиданием (средним значением) и дисперсией Dг. Если из этой генеральной совокупности брать разные выборки с одинаковым объемом п, то можно для каждой выборки получить среднее значение . Эти средние значения сами являются случайными величинами. Их распределение, т. е. распределение средних значений разных выборок, полученных из одной генеральной совокупности, будет нормальным со средним значением, равным среднему значению генеральной совокупности , дисперсией и средним квадратическим отклонением (см. конец § 2.2).
Таким образом, уже выступает как случайная величина, для нее можно записать следующую функцию распределения вероятностей [см. (2.22)]:
(3.18)
Из (3.16) можно записать для следующие неравенства:
(3.19)
Вероятность того, что попадает в этот интервал (доверительную вероятность), можно найти по общей формуле (2.17), используя функцию (3.18). Пределы интегрирования необходимо взять из выражения (3.19):
(3.20)
(3.21) |
Результаты интегрирования (3.20) найдем, используя функцию Ф (см. § 2.3). По формуле (2.25) получим
Обозначая
(3.22) |
и учитывая, что Ф(-t) = 1 - Ф(t), получим из (3.21):
р = Ф(t) - Ф(-t) = Ф(t) - 1 + Ф(t) = 2Ф(t) - 1.
Для нахождения р по t или t по р можно воспользоваться табл. 7 или таблицей функции Ф (см. [2]).
Таблица 7
т | ||||||||||
0,0 | 0,5000 | 0,5040 | 0,5080 | 0,5120 | 0,5160 | 0,5199 | 0,5239 | 0,5279 | 0,5319 | 0,5359 |
0,4 | ||||||||||
0,9 | ||||||||||
1,4 | ||||||||||
1,9 |
Хотя неравенства (3.16) и (3.19) по существу идентичны, но для практических целей важнее запись (3.16), так как она позволяет решить главную задачу — при заданной доверительной вероятности и найденной выборочной средней найти доверительный интервал, в который попадает генеральная средняя.
Запишем неравенство (3.16), подставив в него выражение из формулы (3.22):
Практически при нахождении доверительного интервала по формуле (3.24) берут выборочную среднюю некоторой конкретной выборки (объем п ³ 30), а вместо генеральной средней квадратично» используют выборочную среднюю квадратичную этой же выборки.
Поясним это некоторым примером. Вновь обратимся к данным табл. 5, считая их выборкой. Найдем доверительный интервал для генеральной средней, из которой эта выборка получена, считая доверительную вероятность равной р = 0,95. Из (3.23) для такой доверительной вероятности получаем: Ф(t) = 0,975 имеем t = 1,9 + 0,06 = 1,96. Подставляя это значение t, выборочную среднюю (3.6), выборочное среднее квадратическое отклонение (3.9) и объем выборки (п = 100) в выражение (3.24), имеем:
или