Тема 3. статистическая сводка и группировка
3.1. Понятие сводки и группировки, их виды
· Процесс упорядочения, систематизации и обобщения данных статистического наблюдения называется СТАТИСТИЧЕСКОЙ СВОДКОЙ.
Сводка включает комплекс операций: 1) группировка единиц наблюдения; 2) разработка системы статистических показателей для характеристики групп и объекта в целом; 3) подсчёт итогов по каждой выделенной группе и по всему объекту; 4) представление результатов группировки и сводки в виде статистических таблиц.
Отдельные единицы статистической совокупности объединяются в группы при помощи метода группировки.
· ГРУППИРОВКОЙ называется расчленение множества единиц изучаемой совокупности на группы (подсистемы, классы, подгруппы) по определённым существенным для них признакам.
· Признак, по которому производится разбивка единиц совокупности на отдельные группы, называется ГРУППИРОВОЧНЫМ ПРИЗНАКОМ (или, основанием группировки).
В зависимости от целевого назначения выделяют следующие виды статистических группировок.
1. ТИПОЛОГИЧЕСКАЯ группировка служит для выделения социально-экономических типов в разнородной совокупности (группировка государств по уровню экономического развития; населения по принадлежности к общественным группам)
2. СТРУКТУРНАЯ группировка используется для разделения однородной совокупности на группы, характеризующие её структуру, по величине (значению) варьирующего признака.
3. АНАЛИТИЧЕСКАЯ группировка служит для исследования взаимосвязи между явлениями и их признаками. Взаимосвязь проявляется в том, что с возрастанием значений факторного признака систематически возрастает или убывает среднее значение результативного признака. Особенности аналитической группировки: в основу группировки положен факторный признак; каждая выделенная группа характеризуется средним значением результативного признака.
В зависимости от количества группировочных признаков группировки бывают простые и сложные (комбинационные) группировки.
По очерёдности обработки информации выделяют первичные и вторичные группировки.
3.2. Принципы определения числа групп (интервалов) группировки
Число групп в группировке зависит от вида группировочного признака (атрибутивный или количественный), характера его вариации, а также от задач исследования.
ü Если в качестве группировочного выбран атрибутивный признак, то число групп в группировке будет таким, каково число разновидностей (видов, градаций) этого признака. В случаях, когда атрибутивный признак имеет большое число разновидностей (профессия, наименование выпускаемой продукции, наименование товара) и перечислить их все невозможно или нецелесообразно, то используют классификации.
ü Если группировка проводится по количественному признаку, то число групп определяется исходя из объема совокупности (числа единиц исследуемого объекта) и степень вариации группировочного признака:
а) при группировке по дискретному признаку, принимающему небольшое число значений, число групп будет равно числу этих значений (напр., разряд рабочего);
б) если дискретный признак принимает много значений, и выделение такого числа групп невозможно, или группировочный признак – непрерывный, в этом случае для определения числа групп (n) можно использовать формулу Стерджесса:
n = 1 + 3,322 lgN, где N - число единиц совокупности.
После определения числа групп определяют интервалы группировки.
· ИНТЕРВАЛ – промежуток между максимальным и минимальным значениями признака в группе. Интервалы бывают: равные и неравные (в свою очередь, могут быть произвольными, прогрессивно возрастающими или убывающими, специализированными); открытые и закрытые.
Если строится группировка с равными интервалами (т.е. разность между максимальным и минимальным значением признака для каждой группы одинакова), то величина интервала (h) определяется по формуле: , где xmax и xmin – соответственно, максимальное и минимальное значение группировочного признака в совокупности.
3.3. Статистические ряды распределения
После определения группировочного признака и границ групп строится ряд распределения (табл. 3).
· ВАРИАНТА (ВАРИАНТ) – это отдельные значения признака, которые он принимает в ряду распределения.
· ЧАСТОТА – число единиц совокупности, принимающих данное значение признака, численность каждой группы вариационного ряда. Сумма всех частот определяет численность всей совокупности, её объём.
· Частоты, выраженные в долях единицы или в процентах к итогу, называют ЧАСТОСТЯМИ (относительными частотами).
Таблица 3 - Понятие и виды статистических рядов распределения
· СТАТИСТИЧЕСКИЙ РЯД РАСПРЕДЕЛЕНИЯ – это упорядоченное распределение единиц совокупности на группы по определённому варьирующему признаку. Ряд распределения представляет собой простейшую группировку, в которой каждая выделенная группа характеризуется только одним показателем – числом единиц объекта (статистической совокупности), попавших в каждую группу. Ряды распределения принято оформлять в виде таблиц. В зависимости от того, по какому признаку построен ряд распределения, различают следующие их виды. | |
· АТРИБУТИВНЫЙ ряд распределения – ряд, построенный по атрибутивному (качественному) признаку. Его элементы - значения атрибутивного признака и число единиц, принимающих данное значение | · ВАРИАЦИОННЫЙ ряд распределения – ряд, построенный по количественному признаку. Вариационные ряды, в свою очередь, в зависимости от характера вариации группировочного признака могут быть дискретными и интервальными. |
· ДИСКРЕТНЫЙ ряд построен по дискретному признаку, его элементы - варианты и частоты. | · ИНТЕРВАЛЬНЫЙ ряд построен по непрерывному признаку, его элементы интервалы признака и частоты. |
Для анализа рядов распределения используется их графическое изображение, позволяющее судить о форме распределения. Для изображения дискретного ряда применяется ПОЛИГОН ЧАСТОТ (ЧАСТОСТЕЙ), а интервального – ГИСТОГРАММА.
3.4. Анализ частотных распределений
В вариационных рядах распределения можно заметить определённую зависимость между изменением значений варьирующего признака и частот: частоты в этих рядах с увеличением значения варьирующего признака сначала увеличиваются, а затем после достижения какой-то максимальной величины в середине ряда уменьшаются. Это свидетельствует о том, что частоты в вариационных рядах изменяются ЗАКОНОМЕРНО в связи с изменением варьирующего признака. Такие закономерности называются ЗАКОНОМЕРНОСТЯМИ РАСПРЕДЕЛЕНИЯ.
Цель статистического изучения вариационных рядов - выявление закономерности распределения и оценка ее характера. Закономерности распределения наиболее отчётливо проявляются только при массовом наблюдении. Поэтому основной путь выявления таких закономерностей состоит в правильном построении вариационных рядов распределения для достаточно большой численности статистической совокупности, оптимальных числе групп и величине интервала, при которых закономерность распределения видна более отчётливо.
Из математической статистики известно, что если увеличить объём совокупности и уменьшить интервал группировки, то полигон (гистограмма) распределения всё более и более будет приближаться к некоторой плавной линии - кривой распределения.
КРИВАЯ РАСПРЕДЕЛЕНИЯ - графическое изображение вариационного ряда в виде непрерывной линии изменения частот, функционально связанного с изменением вариант.
Получение кривой распределения на основе полигона (гистограммы) можно представить лишь для гипотетического случая (бесконечно большое число единиц совокупности и бесконечно малая ширина интервала ряда). Только при этих идеализированных условиях кривая распределения будет отражать функциональную связь между значениями признака и соответствующими им частотами и представлять так называемое теоретическое распределение.
ТЕОРЕТИЧЕСКОЙ КРИВОЙ РАСПРЕДЕЛЕНИЯ называется кривая, выражающая общую закономерность данного типа распределения в чистом виде, исключающая влияние случайных для него факторов. При проведении анализа вариационных рядов целесообразно свести эмпирическое распределение к одному из хорошо известных видов теоретического (рассматриваются математической статистикой). При этом теоретическое распределение играет роль некоторой идеализированной модели эмпирического распределения, а сам анализ вариационных рядов сводится к сопоставлению эмпирического и теоретического распределений и определению степени различия между ними.
В статистической практике встречаются следующие разновидности кривых распределения:
а) ОДНОВЕРШИННЫЕ КРИВЫЕ - характерны для однородных совокупностей: симметричные (в симметричных распределениях частоты любых двух вариант, равноотстоящих в обе стороны от центра распределения, равны между собой, значения средней, моды и медианы совпадают), умеренно асимметричные, крайне асимметричные;
б) МНОГОВЕРШИННЫЕ КРИВЫЕ (многовершинность свидетельствует о неоднородности изучаемой совокупности; появление двух и более вершин требует перегруппировки данных с целью выделения более однородных групп).
ВЫЯСНЕНИЕ ОБЩЕГО ХАРАКТЕРА РАСПРЕДЕЛЕНИЯ предполагает:
- оценку его однородности с использованием структурных средних (мода, мендиана, перцентили (квартили, децили)) и показателей вариации (см. тема 5);
- вычисление показателей асимметрии и эксцесса.
Наиболее распространённый способ определения показателя (коэффициента) асимметрии ( ): или , где - среднее значение признака; - мода, модальное значение признака (варианта, расположенная в центре упорядоченного ряда); - среднее квадартическое отклонение; Р – удельный вес (в %) количества тех вариант, которые превосходят среднюю арифметическую в общем количестве вариант данного ряда; 50 – удельный вес (в %) вариант, превосходящих среднюю арифметическую ряда нормального распределения.
Если As = 0, то распределение считается симметричным.
При As меньше нуля - левосторонняя асимметрия (правая ветвь кривой короче, мода больше медианы и больше средней).
При As больше нуля - правосторонняя асимметрия (левая ветвь короче, средняя больше медианы и больше моды).
As более 0,5 (независимо от знака) считается значительной; если она меньше 0,25 - незначительной.
Для симметричных распределений может быть рассчитан показатель эксцесса (Ex ).
Наиболее точно Ех определяется по формуле с использованием центрального момента четвёртого порядка:
, где - - условный центральный момент четвертого порядка.
Можно воспользоваться упрощенной формулой: , где Р – удельный вес (в %) количества вариант, лежащих в интервале, равном половине среднего квадратического отклонения (в ту или другую сторону от величины средней в общем количестве вариант данного ряда); 38,29 – удельный вес (в %) количества вариант, лежащих в интервале, равном половине среднего квадратического отклонения (в ту или другую сторону от величины средней в общем количестве вариант ряда нормального распределения).
В нормальном распределении Ex = 0, в плосковершинном распределении Ex отрицательный, и в островершинном Ех положительный.
Если на практике часто встречается один и тот же тип распределения частот (например, распределение населения по уровню доходов в различных странах), его целесообразно описать с помощью математической формулы, которая может служить для сравнения и обобщения различных совокупностей аналогичных данных.
В статистике широко используются следующие ВИДЫ ТЕОРЕТИЧЕСКИХ РАСПРЕДЕЛЕНИЙ: нормальное, биномиальное, распределение Пуассона и др. Каждое из теоретических распределений имеет свою специфику и область применения в различных отраслях знания.
Чаще всего обращаются к НОРМАЛЬНОМУ РАСПРЕДЕЛЕНИЮ, так как оно отражает распределение частот в совокупности под действием большого числа независимых факторов и причин, из которых ни одна не является преобладающей. Такая закономерность проявляется, например, в распределении отклонений в производственном процессе при нормальном уровне организации производства и технологии; в разбросе отклонений параметров качества от среднего значения; в распределении населения определённого возраста по размерам.
Нормальное распределение полностью определяется двумя параметрами (средней арифметической и СКО) и описывается формулой , где - ордината кривой нормального распределения; - стандартизованная (нормированная) величина; - математические постоянные; - варианты вариационного ряда и их средняя величина; - среднее квадратическое отклонение.
Часто возникают распределения, хотя и не отвечающие строго нормальному закону (нормальному распределению), но имеющие с ним сходство.
СВОЙСТВА НОРМАЛЬНОЙ КРИВОЙ РАСПРЕДЕЛЕНИЯ:
1) функция нормального распределения - ЧЁТНАЯ, т. е. f(-t) = f(+t). Следовательно, изображающая её кривая расположена симметрично относительно оси ординат, т. е. = Мо = Ме;
2) функция имеет бесконечно малые значения при t = ± , т.е. ветви кривой удалены в бесконечность и асимптотически приближаются к оси абсцисс; чем больше значения признака отклоняются от средней, тем реже встречаются;
3) функция имеет максимум при t = 0, т.е. кривая распределения модального значения достигает при t = 0 или при ; величина максимума составляет .
4) при t = ± 1 функция даёт точки перегиба, следовательно, при отклонении значений признака от средней в положительном и отрицательном направлениях на одно стандартное (нормированное) отклонение (± от х) кривая даёт переход от выпуклости к вогнутости;
5) если случайная величина представляет сумму двух независимых случайных величин, следующих каждая нормальному закону, то она тоже следует нормальному закону.
Объективную оценку соответствия эмпирического распределения нормальному можно получить с использованием особых статистических показателей - КРИТЕРИЕВ СОГЛАСИЯ (К.Пирсона (хи - квадрат), В.И. Романовского, А.Н. Колмогорова и Б.С. Ястремского).
3.5. Структурные характеристики вариационного ряда
В качестве характеристик вариационных рядов рассчитываются так называемые структурные средние – мода и медиана.
МОДА (модальное значение признака) отражает типичное, наиболее распространённое значение признака в изучаемой совокупности.
МОДА (Мо) - это варианта, наиболее часто повторяющаяся в изучаемой совокупности.
Пример определения моды по несгруппированным данным:
рабочие бригады, состоящей из 9 человек, имеют следующие тарифные разряды: 4 3 4 5 3 3 6 2 6;
в данной бригаде больше всего рабочих имеют 3-й разряд, он и будет модальным.
В дискретных рядах распределения модой является варианта с наибольшей частотой.
Если в ряду распределения два или несколько значений признака встречаются чаще других и одинаково часто, ряд называют мультимодальным или бимодальным. Наличие двух и более модальных значений признака говорит о неоднородности совокупности, возможно представляющей собой агрегат нескольких совокупностей с разными модами. Но всё-таки чаще встречаются ряды распределения с одной модой.
В интервальном вариационном ряду при непрерывной вариации признака, каждое значение признака встречается только один раз. В этом случае модой является условное значение признака, вблизи которого ПЛОТНОСТЬ РАСПРЕДЕЛЕНИЯ[2] достигает максимума.
Для расчёта моды в интервальном вариационном ряду сначала определяют модальный интервал (интервал, которому соответствует наибольшая плотность распределения), а затем рассчитывают моду по формуле:
, где - нижняя граница модального интервала; - величина модального интервала; - частота модального интервала; - частота предмодального и постмодального интервала.
МЕДИАНОЙ (Ме) в статистике называется значение признака, расположенное в середине упорядоченного (ранжированного) ряда. Медиана выполняет функции средней величины для неоднородной (не подчиняющейся нормальному закону распределения) совокупности.
Для определения медианы по несгруппированым данным необходимо сначала произвести ранжирование этих данных: ранжированный ряд разрядов рабочих бригады: 2 3 3 3 4 4 5 6 6, центральным в этом ряду является 4-й разряд, следовательно, данный разряд и будет медианным.
Если ранжированный ряд имеет чётное число единиц, то медиана определяется как средняя арифметическая из двух центральных значений.
В дискретном вариационном ряду медианой является не требующее расчёта значение признака в той группе, в которой накопленная частота[3] превышает половину численности совокупности.
Пример: имеется распределение рабочих участка по уровню квалификации:
Тарифный разряд 2 3 4 5 6 Итого
Число рабочих 1 5 8 4 2 20
Накопленная частота 1 6 14 18 20
В третьей группе рабочих с 4-м разрядом накопленная частота превышает половину численности совокупности, следовательно, Ме = 4.
В интервальном вариационном ряду медиана определяется по формуле:
, где - нижняя граница интервала, содержащего медиану; - величина медианного интервала; - сумма частот, численность совокупности; - сумма накопленных частот, предшествующих медианному интервалу; - частота медианного интервала.
Медианным считается интервал, для которого накопленная частота превышает половину суммы всех частот ряда.
КВАРТИЛИ, ДЕЦИЛИ, ПЕРСЕНТИЛИ (перцентили, процентили) – это значения вариант, отделяющие соответственно 1/4, 2/4, 3/4 (квартили), 1/10, 2/10, …, 9/10 (децили), 1/100, 2/100, …, 99/100 (персентили) упорядоченной совокупности.
Порядок расчета этих характеристик аналогичен расчету медианы.
УПРАЖНЕНИЯ
Задача 3.1. Имеются данные о пластовом давлении (в атм.) при насосном способе эксплуатации 90 скважин:
Произведите разведочный анализ выборки: 1) постройте статистический ряд распределения, определив число групп как квадратный корень из объема выборки ( ); 2) изобразите результаты группировки в таблице, изобразите ряд распределения с помощью гистограммы, полигона и кумуляты, оцените характер распределения; 3) вычислите характеристики вариационного ряда (размах, среднее значение, моду, медиану, дисперсию, среднее квадратическое отклонение (СКО), коэффициент, вариации, структурные характеристики вариационного ряда (децили и квартили), асимметрию (скос), эксцесс), перечисленные характеристики можно вычислить с помощью встроенных статистических функций в пакете MS Excel.
Сформулируйте выводы.
Результаты построения статистического ряда распределения
Интервалы распределения скважин по уровню пластового давления, атм. | Число скважин (частота) | Относительная частота, доли ед. | Накопленная относительная частота | Центр интервала | Взвешенный центр интервала |
от 10 до 20 | |||||
от 20 до 30 | |||||
от 30 до 40 | |||||
от 40 до 50 | |||||
от 50 до 60 | |||||
от 60 до 70 | |||||
от 70 до 80 | |||||
от 80 до 90 | |||||
90 и более | |||||
Итого | - |
Результаты расчета описательных статистик распределения
Средняя | Квартиль-1 | ||
Мода | Квартиль-2 | ||
Медиана | Квартиль-3 | ||
Дисперсия | Дециль-1 | ||
СКО (Стандартное отклонение) | Дециль-9 | ||
Коэффициент вариации | Асимметрия | ||
Размах | Эксцесс |
Задача 3.2. По данным о количестве израсходованных долот при механической скорости проходки 18 м/ч. на 100 скважинах
произведите разведочный анализ выборки: 1) постройте статистический ряд распределения, определив число групп как квадратный корень из объема выборки ( ); 2) изобразите результаты группировки в таблице, изобразите ряд распределения с помощью гистограммы, полигона и кумуляты, оцените характер распределения; 3) вычислите характеристики вариационного ряда (размах, среднее значение, моду, медиану, дисперсию, среднее квадратическое отклонение (СКО), коэффициент, вариации, структурные характеристики вариационного ряда (децили и квартили), асимметрию (скос), эксцесс), перечисленные характеристики можно вычислить с помощью встроенных статистических функций в пакете MS Excel. Сформулируйте выводы.
Результаты построения статистического ряда распределения
Число долот, шт. | Число скважин (частота) | Относительная частота, доли ед. | Накопленная относительная частота | Центр интервала | Взвешенный центр интервала |
от 23 до 25 | |||||
от 25 до 27 | |||||
от 27 до 29 | |||||
от 29 до 31 | |||||
от 31 до 33 | |||||
от 33 до 35 | |||||
от 35 до 37 | |||||
37 и более | |||||
Итого | - |
Результаты расчета описательных статистик распределения
Средняя | Квартиль-1 | ||
Мода | Квартиль-2 | ||
Медиана | Квартиль-3 | ||
Дисперсия | Дециль-1 | ||
СКО (Стандартное отклонение) | Дециль-9 | ||
Коэффициент вариации | Асимметрия | ||
Размах | Эксцесс |