Способы группировки статистических данных. Вариационные ряды
Задачи математической статистики.
Установление закономерностей, которым подчинены массовые случайные явления, основано на изучении методами теории вероятностей статистических данных — результатов наблюдений. Первая задача математической статистики—указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов. Вторая задача математической статистики—разработать методы анализа статистических данных в зависимости от целей исследования. Сюда относятся:
а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости случайной величины от одной или нескольких случайных величин и др.;
б) проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения, вид которого известен.
Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирование эксперимента), в ходе исследования (последовательный анализ) и решает многие другие задачи. Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности. Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.
Способы сбора статистических данных.
2.1. Генеральная и выборочная совокупности.
Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным—контролируемый размер детали. Иногда проводят сплошное обследование, т. е. обследуют каждый из объектов совокупности относительно признака, которым интересуются. На практике, однако, сплошное обследование применяют сравнительно редко. Например, если совокупность содержит очень большое число объектов, то провести сплошное обследование физически невозможно. Если обследование объекта связано с его уничтожением или требует больших материальных затрат, то проводить сплошное обследование практически не имеет смысла. В таких случаях случайно отбирают из всей совокупности ограниченное число объектов и подвергают их изучению. Различают генеральную и выборочную совокупности:
Генеральной совокупностью называют совокупность всех мысленно возможных объектов данного вида, над которыми проводятся наблюдения с целью получения конкретных значений случайной величины, или совокупность результатов всех мыслимых наблюдений, проводимых в неизменных условиях над одной из случайных величин, связанных с данным видом объектов.
Замечание: Часто генеральная совокупность содержит конечное число объектов. Однако если это число достаточно велико, то иногда в целях упрощения вычислений допускают, что генеральная совокупность состоит из бесчисленного множества объектов. Такое допущение оправдывается тем, что увеличение объема генеральной совокупности (достаточно большого объема) практически не сказывается на результатах обработки данных выборки.
Выборочной совокупностью называют часть отобранных объектов из генеральной совокупности.
Объемом совокупности (выборочной или генеральной) называют число объектов этой совокупности. Например, если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а объем выборки п =100. Число объектов генеральной совокупности N значительно превосходит объем выборки n .
Способы группировки статистических данных. Вариационные ряды.
3.1. Дискретный вариационный ряд.
Обычно полученные наблюдаемые данные представляют собой множество расположенных в беспорядке чисел. Просматривая это множество чисел, трудно выявить какую-либо закономерность их варьирования (изменения). Для изучения закономерностей варьирования значений случайной величины опытные данные подвергают обработке. Рассмотрим пример.
На телефонной станции проводились наблюдения над числом Х неправильных соединений в минуту. Наблюдения в течение часа дали следующие результаты: 3; 1; 3; 1; 4; 2; 2; 4; 0; 3; 0; 2; 2; 0; 2; 1;4; 3; 3; 1; 4; 2; 2; 1; 1; 2; 1; 0; 3; 4; 1; 3; 2; 7; 2; 0; 0; 1; 3; 3; 1; 2; 4;2; 0; 2; 3; 1; 2; 5; 1; 1; 0; 1; 1; 2; 2; 1; 1; 5. Здесь число X является дискретной случайной величиной , а полученные о ней сведения представляют собой статистические (наблюдаемые) данные.
Операция, заключающаяся в том, что результаты наблюдений над случайной величиной, т. е. наблюдаемые значения случайной величины, располагают в порядке неубывания, называется ранжированием опытных данных.
После проведения операции ранжирования опытные данные группируют так, что в каждой отдельной группе значения случайной величины будут одинаковы. Расположив приведенные выше данные в порядке неубывания и сгруппировав их, получают ранжированный ряд данных наблюдения
Из ряда чисел видно, что все 60 значений случайной величины разбиты на семь групп, в пределах каждой из которых все значения случайной величины одинаковы. Таким образом, имеется семь различных значений случайной величины: 0; 1; 2; 3; 4; 5; 7. Каждое такое значение обычно называют вариантом.
Значение случайной величины, соответствующее отдельной группе сгруппированного ряда наблюдаемых данных, называется вариантом, а изменение этого значения варьированием.
Варианты будем обозначать малыми буквами конца латинского алфавита с соответствующими порядковому номеру группы индексами.
Для каждой группы сгруппированного ряда данных можно подсчитать их численность, т.е. определить число, которое показывает, сколько раз встречается соответствующий вариант в ряде наблюдений. Такие числа называют частотой варианта.
Численность отдельной группы сгруппированного ряда наблюдаемых данных называется частотой или весом соответствующего варианта и обозначается тi , где i—индекс варианта. В ряде случаев представляет практический интерес относительная частота того или иного варианта, называемая частостью. Отношение частоты данного варианта к общей сумме частот всех вариантов называется частостью или долей этого варианта и обозначается рi , где i—индекс варианта, т.е.
Нетрудно заметить, что частость является статистической вероятностью появления варианта. Естественно считать частость выборочным аналогом (вычисленной по выборочным данным) вероятности рi появления значения хi, случайной величины X. Подсчитав частоты и частости для каждого варианта, наблюдаемые данные представляют в виде таблицы, которую называют дискретным вариационным рядом. В первой строке расположены- варианты , во второй- соответствующие частоты , в третьей- соответствующие частости.
Дискретным вариационным рядом распределения называется ранжированная совокупность вариантов хi с соответствующими им частотами или частностями.