Ервичная обработка статистических данных. Гистограммы, полигоны и эмпирические функции распределения.
Все методы количественной обработки принято подразделять на первичные и вторичные.
Первичная статистическая обработка нацелена на упорядочивание информации об объекте и предмете изучения. На этой стадии «сырые» сведения группируются по тем или иным критериям, заносятся в сводные таблицы. Первично обработанные данные, представленные в удобной форме, дают исследователю в первом приближении понятие о характере всей совокупности данных в целом: об их однородности – неоднородности, компактности – разбросанности, четкости – размытости и т. д. Эта информация хорошо считывается с наглядных форм представления данных и дает сведения об их распределении.
В ходе применения первичных методов статистической обработки получаются показатели, непосредственно связанные с производимыми в исследовании измерениями.
К основным методам первичной статистической обработки относятся: вычисление мер центральной тенденции и мер разброса (изменчивости) данных.
Первичный статистический анализ всей совокупности полученных в исследовании данных дает возможность охарактеризовать ее в предельно сжатом виде и ответить на два главных вопроса: 1) какое значение наиболее характерно для выборки; 2) велик ли разброс данных относительно этого характерного значения, т. е. какова «размытость» данных. Для решения первого вопроса вычисляются меры центральной тенденции, для решения второго – меры изменчивости (или разброса). Эти статистические показатели используются в отношении количественных данных, представленных в порядковой, интервальной или пропорциональной шкале.
Для наглядности строят различные графики статистического распределения, в частности, полигон и гистограмму.
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которой служат частичные интервалы длиной h, а высоты равны отношению . Площадь гистограммы частот равна сумме всех частот, т.е. объему выборки n. В случае гистограммы относительных частот по оси ординат откладываются нормированные относительные частоты , на оси абсцисс – частичные интервалы (рис.1). Площадь гистограммы относительных частот равна сумме всех относительных частот, то есть единице.
Полигоном частот называют ломаную линию, отрезки которой соединяют точки (xi, ni), i=1, 2, … k. Для построения полигона частот на оси абсцисс откладывают варианты xi, а на оси ординат – соответствующие им частоты ni и соединяют точки (xi, ni) отрезками прямых (рис. 2).
Рис.1. Гистограмма относительных частот
Рис.2. Полигон частот
Эмпирической функцией распределения называется функция, вычисляемая для любого значения х по формуле , где n – объем выборки, – количество вариант, значения которых меньше, чем х. Для нашей выборки
1) F*(x) = 0, для всех .
2) для
3) F*(x) = 1, для всех .
Откладывая на оси абсцисс точки , а на оси ординат отрезки, параллельные оси абсцисс, получим ступенчатую функцию (рис. 4).
Рис. 4. Эмпирическая функция распределения F(x)