Основные определения и формулы
ПЕРВИЧНАЯ ОБРАБОТКА ВЫБОРКИ И ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ
Под генеральной совокупностью с функцией распределения Fξ(x) будем понимать гипотетическую совокупность всех возможных значений случайной величины ξ. Вместо функции распределения Fξ(x) может использоваться плотность распределения fξ(x), либо закон распределения ξ, заданный в виде таблицы.
Набор n значений случайной величины, полученных в результате эксперимента, называется выборкой объема n из генеральной совокупности, а числа х1, х2, ..., хn – выборочными значениями случайной величины ξ.
Выборке {х1, х2, ..., хn} поставим в соответствие случайную величину, принимающую эти значения с вероятностями 1/n:
и будем называть ее выборочным распределением.
Первичная обработка выборки включает следующие операции:
1) упорядочение по возрастаниюх1 < х2 < ... < хn, приводит исходные данные к выборке, которая называется вариационным рядом;
2) вычисление частоты ni элемента zi в том случае, когда z1, …, zk представляют разные (не равные между собой) числа в исходной выборке {х1, х2, ..., хn} так, что ni равно числу повторяющихся элементов, соответствующих zi (i = 1, …, k); полученная таким образом новая выборка {zi, ni} называется статистическим рядом;
3) вычисление относительной частоты νi = ni/n и последовательных сумм ν1+ ν2 + …+ νi, которые представляют накопленные частоты элемента zi.
Для получения статистического ряда {zi, ni} может использоваться и более общий механизм, когда zi представляет не просто равные элементы, а близкие в определенном смысле. Например, это могут быть элементы, попадающие в i-й полуинтервал вида [xi, xi+1).
Если функция распределения зависит то некоторого параметра θ, то есть Fξ(x) = Fξ(x, θ), то можно рассмотреть задачу оценивания этого параметра по n значениям выборочных данных {х1, х2, ..., хn}. Функцию θn от этих значений будем называть оценкой параметраθ.
Если в качестве оценок используются выборочные характеристики случайной величины, оценки называются точечными. Такими оценками являются:
§ выборочное среднее
,
для нахождения которого в Excel используется функция СРЗНАЧ (x1;x2;…,xn);
§ выборочная дисперсия
для нахождения которой в Excel используется функция ДИСП (x1; x2; …, xn).
Если для параметра θ можно указать некоторый интервал (θ1, θ2), для которого
p (θ1 < θ < θ2) = 1 – α,
где α – малое число, называемое уровнем значимости, то говорят об интервальных оценках. Интервал (θ1, θ2) называется доверительным интервалом для параметра θ с доверительной вероятностью 1 – α. В рассматриваемых упражнениях будем строить симметричные интервалы вида (θ1, θ2) = (θn - Δ, θn + Δ) для точечной оценки θn параметра θ.
При известной дисперсии σ2 нормальной генеральной совокупности значение Δ для математического ожидания задается формулой
,
где z1-α/2 вычисляется c помощью функции Excel НОРМСТОБР(вероятность).
Пример 1
В ходе исследования рецидивной преступности из документов были собраны данные о числе повторных судимостей двадцати случайно отобранных человек, имевших в прошлом одну или более судимостей. Число повторных судимостей приведено в таблице:
Задача:
· Провести первичную обработку рассматриваемых данных, построить график накопленных относительных частот и найти доверительный интервал с уровнем значимости α = 0,05