Основные понятия математической статистики
СЛУЧАЙНЫЕ ВЕЛИЧИНЫ И ЗАКОНЫ ИХ РАСПРЕДЕЛЕНИЯ.
Случайной называют такую величину, которая принимает значения в зависимости от стечения случайных обстоятельств. Различают дискретныеи случайные непрерывные величины.
Дискретной называют величину, если она принимает счетное множество значений. (Пример: число пациентов на приеме у врача, число букв на странице, число молекул в заданном объеме).
Непрерывнойназывают величину, которая может принимать значения внутри некоторого интервала. (Пример: температура воздуха, масса тела, рост человека и т.д.)
Законом распределения случайной величины называется совокупность возможных значений этой величины и, соответствующих этим значениям, вероятностей (или частот встречаемости).
П р и м е р:
x | x1 | x2 | x3 | x4 | ... | xn |
p | р1 | р2 | р3 | р4 | ... | pn |
или
x | x1 | x2 | x3 | x4 | ... | xn |
m | m1 | m2 | m3 | m4 | ... | mn |
ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СЛУЧАЙНЫХ ВЕЛИЧИН.
Во многих случаях наряду с распределением случайной величины или вместо него информацию об этих величинах могут дать числовые параметры , получившие название числовых характеристик случайной величины. Наиболее употребительные из них:
1.Математическое ожидание - (среднее значение) случайной величины есть сумма произведений всех возможных ее значений на вероятности этих значений:
2.Дисперсия случайной величины:
3.Среднее квадратичное отклонение:
Правило “ТРЕХ СИГМ” - если случайная величина распределена по нормальному закону, то отклонение этой величины от среднего значения по абсолютной величине не превосходит утроенного среднего квадратичного отклонения
ЗАОН ГАУССА – НОРМАЛЬНЫЙ ЗАКОН РАСПРЕДЕЛЕНИЯ
Часто встречаются величины, распределенные по нормальному закону (закон Гаусса). Главная особенность: он является предельным законом, к которому приближаются другие законы распределения.
Случайная величина распределена по нормальному закону, если ее плотность вероятности имеет вид:
где
M(X) - математическое ожидание случайной величины;
s - среднее квадратичное отклонение .
График плотности вероятности нормально распределённой величины |
Плотность вероятности (функция распределения) показывает, как меняется вероятность, отнесенная к интервалу dx случайной величины, в зависимости от значения самой величины:
ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
Математическая статистика - раздел прикладной математики, непосредственно примыкающий к теории вероятностей. Основное отличие математической статистики от теории вероятностей состоит в том, что в математической статистике рассматриваются не действия над законами распределения и числовыми характеристиками случайных величин, а приближенные методы отыскания этих законов и числовых характеристик по результатам экспериментов.
Основными понятиями математической статистики являются:
1. Генеральная совокупность;
2. выборка;
3. вариационный ряд;
4. мода;
5. медиана;
6. процентиль,
7. полигон частот,
8. гистограмма.
Генеральная совокупность- большая статистическая совокупность, из которой отбирается часть объектов для исследования
(Пример: все население области, студенты вузов данного города и т.д.)
Выборка (выборочная совокупность) - множество объектов, отобранных из генеральной совокупности.
Вариационный ряд- статистическое распределение, состоящее из вариант (значений случайной величины) и соответствующих им частот.
Пример:
X,кг | ||||||||||||
m |
x - значение случайной величины (масса девочек в возрасте 10 лет);
m- частота встречаемости.
Мода – значение случайной величины, которому соответствует наибольшая частота встречаемости. (В приведенном выше примере моде соответствует значение 24 кг, оно встречается чаще других: m = 20).
Медиана – значение случайной величины, которое делит распределение пополам: половина значений расположена правее медианы, половина (не больше) – левее.
Пример:
1, 1, 1, 1, 1. 1, 2, 2, 2, 3, 3, 4, 4, 5, 5, 5, 5, 6, 6, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 9, 9, 9, 10, 10, 10, 10, 10, 10
В примере мы наблюдаем 40 значений случайной величины. Все значения расположены в порядке возрастания с учетом частоты их встречаемости. Видно, что справа от выделенного значения 7 расположены 20 (половина) из 40 значений. Стало быть, 7 – это медиана.
Для характеристики разброса найдем значения, не выше которых оказалось 25 и 75% результатов измерения. Эти величины называются 25-м и 75-м процентилями. Если медиана делит распределение пополам, то 25-й и 75-й процентили отсекают от него по четвертушке. (Саму медиану, кстати, можно считать 50-м процентилем.) Как видно из примера, 25-й и 75-й процентили равны соответственно 3 и 8.
Используют дискретное(точечное) статистическое распределение инепрерывное(интервальное) статистическое распределение.
Для наглядности статистические распределения изображают графически в виде полигона частот или - гистограммы.
Полигон частот- ломаная линия, отрезки которой соединяют точки с координатами (x1,m1), (x2,m2), ..., или для полигона относительных частот – с координатами (x1,р*1), (x2,р*2), ...(Рис.1).
m mi/n f(x)
X x
Рис.1 Рис.2
Гистограмма частот- совокупность смежных прямоугольников, построенных на одной прямой линии (Рис.2), основания прямоугольников одинаковы и равны dx, а высоты равны отношению частоты к dx, или р* к dx (плотность вероятности).
Пример:
х, кг | 2,7 | 2,8 | 2,9 | 3,0 | 3,1 | 3,2 | 3,3 | 3,4 | 3,5 | 3,6 | 3,7 | 3,8 | 3,9 | 4,0 | 4,1 | 4,2 | 4,3 | 4,4 |
m |
Полигон частот
Отношение относительной частоты к ширине интервала носит название плотности вероятности f(x)=mi / n dx = p*i / dx
Пример построения гистограммы .
Воспользуемся данными предыдущего примера.
1. Расчет количества классовых интервалов
гдеn - число наблюдений. В нашем случае n = 100. Следовательно :
2. Расчет ширины интервала dх :
,
3. Составление интервального ряда:
dх | 2.7-2.9 | 2.9-3.1 | 3.1-3.3 | 3.3-3.5 | 3.5-3.7 | 3.7-3.9 | 3.9-4.1 | 4.1-4.3 | 4.3-4.5 |
m | |||||||||
f(x) | 0.3 | 0.75 | 1.25 | 0.85 | 0.55 | 0.6 | 0.4 | 0.25 | 0.05 |
Гистограмма