Доверительный интервал. Доверительная вероятность.

ПРИМЕНЕНИЕ ТЕОРИИ ВЕРОЯТНОСТИ К СТАТИСТИКЕ.

Оглавление.

1. Основные понятия.

2. Определение неизвестной функции распределения.

3. Определение неизвестных параметров распределения.

4. Доверительный интервал. Доверительная вероятность.

5. Применение критерия Стьюдента для сравнения генеральных

совокупностей.

6. Элементы теории корреляции.

7. Проверка гипотезы о нормальном распределении генеральной

совокупности. Критерий согласия Пирсона.

Основные понятия.

Математическая статистика - это раздел математики, в котором изучаются методы обработки и анализа экспериментальных данных, полученных в результате наблюдений над массовыми случайными событиями, явлениями.

Наблюдения, проводимые над объектами, могут охватывать всех членов изучаемой совокупности без исключения и могут ограничиваться обследованиями лишь некоторой части членов данной совокупности. Первое наблюдение называется сплошным или полным, второе частичным или выборочным.

Естественно, что наиболее полную информацию дает сплошное наблюдение, однако к нему прибегают далеко не всегда. Во-первых, сплошное наблюдение очень трудоемко, а во-вторых, часто бывает практически невозможно или даже нецелесообразно. Поэтому в подавляющем большинстве случаев прибегают к выборочному исследованию.

Совокупность, из которой некоторым образом отбирается часть ее членов для совместного изучения, называется генеральной совокупностью, а отобранная тем или иным способом часть генеральной совокупности - выборочная совокупность или выборка.

Объем генеральной совокупности Доверительный интервал. Доверительная вероятность. - student2.ru теоретически ничем неограничен , на практике же он всегда ограничен.

Объем выборки Доверительный интервал. Доверительная вероятность. - student2.ru может быть большим или малым, но он не может быть меньше двух.

Отбор в выборку можно проводить случайным способом (по способу жеребьевки или лотереи). Либо планово, в зависимости от задачи и организации обследования. Для того, чтобы выборка была представительной, необходимо обращать внимание на размах варьирования признака и согласовывать с ним объем выборки.

2. Определение неизвестной функции распределения.

Итак, мы сделали выборку. Разобьем диапазон наблюдаемых значений Доверительный интервал. Доверительная вероятность. - student2.ru на интервалы , , …. одинаковой длины . Для оценки необходимого числа интервалов можно использовать следующие формулы:

Доверительный интервал. Доверительная вероятность. - student2.ru . (5.1)

Далее пусть m_i- число наблюдаемых значений Доверительный интервал. Доверительная вероятность. - student2.ru , попавших в i-ый интервал. Разделив m_iна общее число наблюдений n, получим частоту , соответствующую i-ому интервалу: Доверительный интервал. Доверительная вероятность. - student2.ru , причем . Составим следующую таблицу:

Номер интервала	Интервал	m_i
		m₁
		m₂
...	...	...	...
k		m_k

которая называется статистическим рядом. Эмпирической (или статистической) функцией распределения случайной величины Доверительный интервал. Доверительная вероятность. - student2.ru называется частота события, заключающегося в том, что величина в результате опыта примет значение, меньшее x:

Доверительный интервал. Доверительная вероятность. - student2.ru

На практике достаточно найти значения статистической функции распределения F^*(x) в точках Доверительный интервал. Доверительная вероятность. - student2.ru , которые являются границами интервалов статистического ряда:

Доверительный интервал. Доверительная вероятность. - student2.ru (5.2)

Следует заметить, что Доверительный интервал. Доверительная вероятность. - student2.ru при и при . Построив точки и соединив их плавной кривой, получим приближенный график эмпирической функции распределения (рис. 5.1). Используя закон больших чисел Бернулли, можно доказать, что при достаточно большом числе испытаний Доверительный интервал. Доверительная вероятность. - student2.ru с вероятностью, близкой к единице, эмпирическая функция распределения отличается сколь угодно мало от неизвестной нам функции распределения Доверительный интервал. Доверительная вероятность. - student2.ru случайной величины .

Доверительный интервал. Доверительная вероятность. - student2.ru

Часто вместо построения графика эмпирической функции распределения поступают следующим образом. На оси абсцисс откладывают интервалы Доверительный интервал. Доверительная вероятность. - student2.ru , ,…. . На каждом интервале строят прямоугольник, площадь которого равна частоте , соответствующей данному интервалу. Высота h_i этого прямоугольника равна Доверительный интервал. Доверительная вероятность. - student2.ru , где - длинна каждого из интервалов. Ясно, что сумма площадей всех построенных прямоугольников равна единице.

Рассмотрим функцию Доверительный интервал. Доверительная вероятность. - student2.ru , которая в интервале постоянна и равна . График этой функции называется гистограммой. Он представляет собой ступенчатую линию (рис. 5.2). С помощью закона больших чисел Бернулли можно доказать, что при малых Доверительный интервал. Доверительная вероятность. - student2.ru и больших с практической достоверностью как угодно мало отличается от плотности распределения непрерывной случайной величины Доверительный интервал. Доверительная вероятность. - student2.ru .

Таким образом на практике определяется вид неизвестной функции распределения случайной величины.

3. Определение неизвестных параметров распределения.

Таким образом мы получили гистограмму, которая дает наглядность. Наглядность представленных результатов позволяет сделать различные заключения, суждения об исследуемом объекте.

Однако на этом обычно не останавливаются, а идут дальше, анализируя данные на проверку определенных предположений относительно возможных механизмов изучаемых процессов или явлений.

Несмотря на то, что данных в каждом обследовании сравнительно немного, мы бы хотели, чтобы результаты анализа достаточно хорошо описывали бы все реально существующее или мыслимое множество (т.е. генеральную совокупность).

Для этого делают некоторые предположения о том, как вычисленные на основе экспериментальных данных (выборке) показатели соотносятся с параметрами генеральной совокупности.

Решение этой задачи составляет главную часть любого анализа экспериментальных данных и тесно связано с использованием ряда теоретических распределений, рассмотренных выше.

Широкое использование в статистических выводах нормального распределения имеет под собой как эмпирическое, так и теоретическое обоснование.

Во-первых, практика показывает, что во многих случаях нормальное распределение действительно является довольно точным представлением экспериментальных данных.

Во-вторых, теоретически показано, что средние значения интервалов гистограмм распределены по закону, близкому к нормальному.

Однако следует четко представлять, что нормальное распределение - это лишь чисто математический инструмент и совсем необязательно, чтобы реальные экспериментальные данные точно описывались нормальным распределением. Хотя во многих случаях, допуская небольшую ошибку, можно говорить, что данные распределены нормально.

Ряд показателей, такие как среднее, дисперсия и т.д., характеризуют выборку и называются статистиками. Такие же показатели, но относящиеся к генеральной совокупности в целом, называются параметрами. Таким образом, можно сказать, что статистики служат для оценки параметров.

Генеральной средней Доверительный интервал. Доверительная вероятность. - student2.ru называется среднее арифметическое значений генеральной совокупности объема :

Доверительный интервал. Доверительная вероятность. - student2.ru

Выборочной средней Доверительный интервал. Доверительная вероятность. - student2.ru называется среднее арифметическое выборки объема :

Доверительный интервал. Доверительная вероятность. - student2.ru , (5.3)

или

Доверительный интервал. Доверительная вероятность. - student2.ru (5.4)

если выборка имеет вид таблицы.

Выборочную среднюю принимают в качестве оценки генеральной средней.

Генеральной дисперсией Доверительный интервал. Доверительная вероятность. - student2.ru называется среднее арифметическое квадратов отклонения значений генеральной совокупности от их среднего значения Доверительный интервал. Доверительная вероятность. - student2.ru :

Доверительный интервал. Доверительная вероятность. - student2.ru

Генеральным средним квадратическим отклонением Доверительный интервал. Доверительная вероятность. - student2.ru называется корень квадратный из генеральной дисперсии: .

Выборочной дисперсией Доверительный интервал. Доверительная вероятность. - student2.ru называется среднее арифметическое квадратов отклонения значений выборки от их среднего значения :

Доверительный интервал. Доверительная вероятность. - student2.ru

Выборочное среднее квадратическое отклонение Доверительный интервал. Доверительная вероятность. - student2.ru определяется как .

Для лучшего совпадения с результатами экспериментов, вводят понятие эмпирической (или исправленной) дисперсии Доверительный интервал. Доверительная вероятность. - student2.ru :

Доверительный интервал. Доверительная вероятность. - student2.ru

Для оценки генерального среднего квадратического отклонения служит исправленное среднее квадратическое отклонение, или эмпирический стандарт Доверительный интервал. Доверительная вероятность. - student2.ru :

Доверительный интервал. Доверительная вероятность. - student2.ru (5.5)

В случае, когда все значения выборки Доверительный интервал. Доверительная вероятность. - student2.ru различны, т.е. , , формулы для и принимают вид:

Доверительный интервал. Доверительная вероятность. - student2.ru (5.6)

Доверительный интервал. Доверительная вероятность.

Различные статистики, получаемые результате вычислений, представляют собой точечные оценки соответствующих параметров генеральной совокупности.

Если из генеральной совокупности извлечь некоторое количество выборок и для каждой из них найти интересующие нас статистики, то вычисленные значения будут представлять собой случайные величины, имеющие некоторый разброс вокруг оцениваемого параметра.

Но, как правило, в результате эксперимента в распоряжении исследователя имеется одна выборка. Поэтому значительный интерес представляет получение интервальной оценки, т.е. некоторого интервала, внутри которого, как можно предположить, лежит истинное значение параметра.

Вероятности, признанные достаточными для уверенных суждениях о параметрах генеральной совокупности на основании статистик, называются доверительными.

Для примера рассмотрим Доверительный интервал. Доверительная вероятность. - student2.ru как оценку параметра .

Известно, что если выборки извлекаются из генеральной совокупности с параметрами:

Доверительный интервал. Доверительная вероятность. - student2.ru

то распределение выборочных средних Доверительный интервал. Доверительная вероятность. - student2.ru будет иметь среднее, равное , дисперсию , среднее квадратическое , где - объем выборки и будет приближаться к нормальному.

Для такого распределения, как известно, Доверительный интервал. Доверительная вероятность. - student2.ru наблюдений лежит в интервале , в интервале и в интервале .

Доверительный интервал. Доверительная вероятность. - student2.ru (5.7)

где Доверительный интервал. Доверительная вероятность. - student2.ru .

С надежностью Доверительный интервал. Доверительная вероятность. - student2.ru доверительный интервал покрывает неизвестный параметр с точностью . Здесь мы задаемся надежностью , а зная Доверительный интервал. Доверительная вероятность. - student2.ru по таблицам для функции Лапласа находим параметр и далее - доверительный интервал.

Но истинное значение параметра генеральной совокупности Доверительный интервал. Доверительная вероятность. - student2.ru нам неизвестно. Поэтому на практике вместо параметра используют выборочное среднее квадратическое отклонение Доверительный интервал. Доверительная вероятность. - student2.ru . То есть доверительный интервал определяется выражением

Доверительный интервал. Доверительная вероятность. - student2.ru (5.8)

Но здесь параметр Доверительный интервал. Доверительная вероятность. - student2.ru уже параметр распределения Стьюдента, который находится по соответствующим таблицам при данных и , где Доверительный интервал. Доверительная вероятность. - student2.ru - задаваемая надежность. Этот интервал покрывает неизвестный параметр с надежностью , где и находятся по формулам (5,3), (5.4) и (5.5), (5.6) соответственно.

Пример. Найти доверительный интервал для оценки математического ожидания Доверительный интервал. Доверительная вероятность. - student2.ru нормальной случайной величины с надежностью , зная выборочную среднюю , объем выборки , среднее квадратическое отклонение Доверительный интервал. Доверительная вероятность. - student2.ru .