Принципы построения статистических группировок
Приемы проведения статистических группировок весьма разнообразны. Это связано с разными задачами, которые в соответствии с целью исследования ставятся перед группировками.
Группировочнымпризнаком называется признак, по которому проводится разбивка единиц совокупности на отдельные группы. Его часто называют основанием группировки.
В качестве основания группировки следует использовать существенные признаки. В основание группировки могут быть положены как количественные, так и качественные признаки. Первые имеют числовое выражение (объем торгов, курс доллара в рублях, возраст человека, денежный доход семьи и т.д.), а вторые отражают состояние единицы совокупности (пол человека, его национальность, семейное положение, отраслевая принадлежность предприятия, его форма собственности и организационно-правовая форма и т.д.).
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.
Число групп зависит от задач исследования и вида признака, положенного в основание группировки, численности совокупности, степени вариации признака.
Единицы анализируемого объекта могут быть разбиты по одному и тому же признаку на разное число групп. Например, при группировке населения по возрасту с целью определения трудовых ресурсов страны все население в практической статистике делится на три группы: население моложе трудоспособного возраста, трудоспособное население и население старше трудоспособного возраста. Если же анализируется продолжительность жизни, то строится более детальная группировка и выделяются пятигодичные группы.
При построении группировки по качественному признаку групп, как правило, будет столько, сколько имеется градаций, видов, состояний у этого признака. Например, в случае проведения группировки населения по полу можно образовать только две группы: мужчины и женщины. Если проводится группировка производства товаров народного потребления по экономическим районам, то вся исследуемая совокупность делится на 11 групп: именно на столько экономических районов поделена территория страны.
Если группировка проводится по количественному признаку, то необходимо обратить особое внимание на число единиц исследуемого объекта и степень колеблемости группировочного признака.
При небольшом объеме совокупности не следует образовывать большое число групп, так как группы будут малочисленными. Поэтому показатели, рассчитанные для таких групп, не будут представительными и не позволят получить адекватную характеристику исследуемого явления.
Часто группировка по количественному признаку имеет задачу отразить распределение единиц совокупности по этому признаку. В данном случае количество групп зависит в первую очередь от степени колеблемости группировочного признака: чем больше его колеблемость, тем больше следует образовать групп. (Степень колеблемости признака измеряется показателями вариации, которые подробно рассмотрены в разделе 6.)
При использовании электронно-вычислительных машин и персональных компьютеров для обработки статистических данных группировка единиц объекта проводится с помощью стандартных процедур.
Одна из таких процедур основана на использовании следующей формулы Стерджесса для определения оптимального числа групп:
n = 1 + 3,322 Ч lgN, (3.1)
где n _ число групп;
N _ число единиц совокупности.
Получаем следующее соотношение:
После определения числа групп следует определить интервалы группировки.
Интервал _ это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет свою величину, верхнюю и нижнюю границы или хотя бы одну из них. Нижней границей интервала называется наименьшее значение признака в интервале, а верхней границей _ наибольшее значение признака в нем. Величина интервала (ее еще часто называют интервальной разностью) представляет собой разность между верхней и нижней границами интервала.
Интервалы группировки в зависимости от их величины бывают равные и неравные. Последние делятся на прогрессивно возрастающие, прогрессивно убывающие, произвольные и специализированные.
Если вариация признака проявляется в сравнительно узких границах и распределение носит более или менее равномерный характер, то строят группировку с равными интервалами.
Величина равного интервала определяется по следующей формуле:
h = R / N, (3.2)
где R = Хmax _ Хmin, т.е. размах вариации;
Хmax, Хmin _ максимальное и минимальное значение признака в совокупности.
Прежде чем определять размах вариации, из совокупности рекомендуется исключить аномальные наблюдения.
Если максимальные или минимальные значения сильно отличаются от смежных с ними значений вариантов в упорядоченном ряду значений группировочного признака, для определения величины интервала следует использовать не максимальное и минимальное значения, а значения, несколько превышающие минимум и несколько меньшие, чем максимум.
Полученную по формуле (3.2) величину округляют. Она является шагом интервала.
Существуют следующие правила определения шага интервала.
Если величина интервала, рассчитанная по формуле (3.2), представляет собой величину, имеющую один знак до запятой (например, 0,66; 1,372; 5,8), то полученные значения целесообразно округлить до десятых и их использовать в качестве шага интервала. В приведенном выше примере шагом интервала будут соответственно значения 0,7; 1,4; 5,8.
Когда рассчитанная величина интервала имеет две значащие цифры до запятой и несколько знаков после запятой; то это значение надо округлить до целого числа. Пусть величина интервала, исчисленная по формуле (3.2), равна 12,785. Тогда это значение следует округлить до целого числа, т. е. до 13.
В случае когда рассчитанная величина интервала представляет собой трехзначное, четырехзначное и так далее число, эту величину необходимо округлить до ближайшего числа, кратного 100 или 50. Например, 248 следует округлить до 250.
Рассмотрим пример. Пусть требуется произвести группировку с равными интервалами предприятий по стоимости основных фондов, при этом максимальное значение признака равно 2 040 млн руб., а минимальное его значение _ 290 млн руб. Совокупность включает 80 единиц. Согласно формуле (3.1) она должна быть разбита на 7 групп. Сначала следует найти:
R = 2040 _ 290 = 1750 млн руб.
Затем определим величину интервала:
h = 1750 : 7= 250 млн руб.
После этого построим интервалы групп (табл. 3.5).
Таблица 3.5
Варианты построения групп
Чтобы не писать каждый раз от ... до, границы групп обозначают следующим образом: 290 _ 540, 540 _ 790 и т.д.
Особенностью первого варианта построения групп является то, что у всех групп имеются закрытые интервалы. Во втором варианте первая и последняя группы _ это группы с открытыми интервалами.
Открытые _ это те интервалы, у которых указана только одна граница: верхняя _ у первого, нижняя _ у последнего. Например, открытыми будут первый и последний интервалы в группировке населения по размеру среднедушевого дохода (табл. 3.2).
Закрытыми называются интервалы, у которых обозначены обе границы.
Ширина открытого интервала принимается равной ширине смежного с ним интервала.
При группировке по количественному признаку границы интервалов могут быть обозначены по-разному. Если основанием группировки служит непрерывный признак, то одно и то же значение признака выступа ет и верхней, и нижней границами у двух смежных интервалов. Таким образом, верхняя граница i-го интервала равна нижней границе i+1-го интервала. Примером такой группировки является приведенная в табл. 3.5. группировка предприятий по стоимости основных фондов.
При таком обозначении границ может возникнуть вопрос, в какую группу включать единицы объекта, значения признака у которых совпадают с границами интервалов. Например, во вторую или третью группу должно войти предприятие со стоимостью фондов 790 млн руб. Если нижняя граница формируется по принципу «включительно», а верхняя _ по принципу «исключительно», то предприятие должно быть отнесено к третьей группе, в противном случае _ ко второй. Для того чтобы правильно отнести к той или иной группе единицу объекта, у которой значение признака совпадает с границами интервалов, можно использовать открытые интервалы. Так, единицы объекта (табл. 3.3), у которых размер среднедушевого денежного дохода равен 40 тыс. руб., попали во вторую группу (так как верхняя граница первой группы построена по принципу «исключительно»), а 80 тыс. руб. _ в третью группу и т.д.
Если в основании группировки лежит дискретный признак, то нижняя граница i-го интервала равна верхней границе i_1-го интервала, увеличенной на 1.
В этом случае возможны следующие варианты построения групп (табл. 3.6) по вышеприведенному примеру.
Таблица 3.6
Варианты построения групп
Неравные интервалы применяются в статистике, когда значения признака варьируют неравномерно и в значительных размерах, что характерно для большинства социально-экономических явлений, особенно при анализе макроэкономических показателей.