Группировка статистических данных
В результате проведения статистического наблюдения получают данные о признаках каждой обследованной единицы статистической совокупности. Однако эти массивы данных собирают не для того, чтобы получить характеристики каждого отдельного элемента совокупности, а для того, чтобы получить характеристики совокупности в целом.
Для этого необходимо обобщить и систематизировать сведения, полученные в ходе статистического наблюдения. В статистической практике этот этап статистического исследования называют сводкой и группировкой.
Группировка представляет собой разбиение совокупности на группы, однородные по какому-либо признаку. Группировка основывается на группировочном признаке и интервале, который представляет собой промежуток между минимальным и максимальным значением признака в группе.
Интервалы могут быть равными и неравными, открытыми и закрытыми. Под закрытым интервалом понимают интервал, имеющий как нижнюю, так и верхнюю границу, например (100;200)). Под открытым интервалом понимают интервал, одна из границ которого равна (например, свыше 500).
При определении числа групп и величины интервалов следует иметь в виду, что число объектов в выделенных группах должно быть достаточным, чтобы характеристики, рассчитанные для отдельных групп, были статистически достоверными.
Существуют рекомендации по выбору числа групп k:
Число наблюдений (n) | Число групп (k) |
25−40 | 5−6 |
40−60 | 6−8 |
60−200 | 8−12 |
> 200 | 10−15 |
Число групп также можно определить по формуле
Наличие равных интервалов облегчает вычисление различных статистических характеристик.
Величина интервала вычисляется по формуле
,
где xmax − максимальное значение признака в исследуемой
совокупности;
xmin − минимальное значение признака в исследуемой
совокупности.
Затем определяются границы каждого интервала:
для первого интервала: от xmin до xmin +D ;
для второго интервала: от xmin+D до xmin +2D ;
………….
для k-го интервала: от xmin+(k-1)D до xmax.
Существуют 4 типа группировок: типологическая, структурная, аналитическая и комбинационная.
Типологическая группировка служит для исследования распределения совокупности по какому-либо одному качественному признаку (цвет, тип упаковки товара и т.п.).
Структурная группировка служит для исследования распределения совокупности по одному количественному признаку. Ее результаты представляются в виде таблицы
Значение группировочного признака | Количество элементов совокупности в отдельной группе |
От ……. до …. От …… до ….. | |
Итого | Общее число элементов совокупности |
Аналитическая группировка служит для выявления зависимости между признаками. При этом выделяют признак-фактор и признак-результат. Группировка осуществляется по признаку-фактору. По каждой группе рассчитывается среднее значение признака-результата. Анализируя изменение средних значений признака-результата от группы к группе, можно сделать вывод о наличии или отсутствии взаимосвязи между признаками.
Различие групповых средних позволяет утверждать, что признаки взаимозависимы. Если изменение величины признака-фактора в определенном направлении вызывает изменение признака-результата в том же направлении, то говорят, что связь прямая, а в противном случае − обратная. Результаты аналитической группировки представляются в виде таблицы
Значение признака-фактора | Количество элементов совокупности в отдельной группе | Среднее значение признака-результата |
От ……. до …. От …… до ….. | ||
Итого | Общее число элементов совокупности |
Проследить зависимость между признаками можно также на основе комбинационной группировки, которая осуществляется одновременно по двум признакам.
Группировка по признаку- фактору | Группировка | по | признаку- | результату | |
От … до … | От … до … | ………… | От … до … | Всего | |
От … до … | n11 | n12 | ………… | n1m | |
От … до … | n21 | n22 | ………. | n2m | |
…………. | ……………... | …………… | ………… | ……………. | |
От … до … | nk1 | nk2 | ………. | nkm | |
Всего | ………… | n |
Здесь ni j− частота (количество случаев) совместного появления i-й градации признака-фактора (I = 1,…,k) и j-й градации признака-результата (j = 1,…,m).
Если наибольшие частоты каждой строки и каждого столбца располагаются вдоль "главной диагонали" таблицы, то можно сделать вывод, что связь прямая и близкая к линейной.
Если наибольшие частоты располагаются вдоль другой диагонали таблицы, то можно сделать вывод, что связь обратная и близкая к линейной.
Если частоты во всех клетках примерно одинаковые, то связи между признаками нет.
Пример 1. Собраны данные о численности работников на 30 предприятиях сферы торговли.
Номер предпр. | Число работников | Номер предпр. | Число работников | Номер предпр. | Число работников |
Провести структурную группировку этих предприятий по признаку численности работников.
В данной ситуации признак принимает ограниченное число целых значений. Поэтому нет необходимости вводить интервалы, а просто подсчитать количество предприятий, где число работников равно 10, 11, 12 и т.д.
Например, только одно предприятие имеет 10 работников, а 11 работников имеется на 3-х предприятиях.
Результаты таких расчетов приведены в таблице
Число работников | Число предприятий |
Всего |
Пример 2. Имеются данные о средней недельной заработной плате на 30 предприятиях (тыс. руб.)
Номер предпр. | Зараб. плата | Номер предпр. | Зараб. плата | Номер предпр. | Зараб. плата |
8,2 | 9,0 | 7,2 | |||
9,7 | 6,0 | 6,4 | |||
5,6 | 7,6 | 7,7 | |||
7,4 | 8,1 | 9,0 | |||
8,0 | 11,8 | 8,1 | |||
6,4 | 5,8 | 7,1 | |||
6,6 | 9,3 | 7,1 | |||
6,8 | 7,3 | 8,8 | |||
8,4 | 8,2 | 7,5 | |||
7,1 | 7,2 | 9,2 |
Заметим, что максимальная заработная плата (xmax) равна 11,8 т.р., а минимальная (xmin) равна 5,6 т.р. В соответствии с приведенными выше рекомендациями выберем число групп (k) равным 5.
Тогда
Рассчитаем границы всех интервалов.
Для первого интервала: от 5,6 до 5,6+1,24=6,84
Для второго интервала: от 6,84 до 6,84+1,24=8,08
Для третьего интервала: от 8,08 до 8,08+1,24=9,32
Для четвертого интервала: от 9,32 до 9,32+1,24=10,56
Для пятого интервала: от 10,56 до 10,56+1,24=11,8
В первый интервал (от 5,6 до 6,84) попадают предприятия с номерами 3, 6, 7, 8, 12, 16, 22 (всего 7 предприятий). Проделывая аналогичные расчеты для других интервалов, окончательно получим результаты, приведенные в таблице.
Заработная плата, т.р. | Количество предприятий |
от 5,6 до 6,84 | |
от 6,84 до 8,08 | |
от 8,08 до 9,32 | |
от 9,32 до 10,56 | |
от 10,56 до 11,8 | |
Всего |
Пример 3. В таблице приведены данные о численности работников и объемах выпуска продукции на 1 человека по 16 предприятиям.
№ предпр. | Число работников | Объем выпуска, т.р. | № предпр. | Число работников | Объем выпуска, т.р. |
33,4 | 35,4 | ||||
31,8 | 42,8 | ||||
38,0 | 36,0 | ||||
33,4 | 50,5 | ||||
42,5 | 53,4 | ||||
90,0 | 62,0 | ||||
98,0 | 64,0 | ||||
67,0 | 71,0 |
Выполним аналитическую группировку, считая число работников признаком - фактором, а объем выпуска продукции – признаком - результатом.
Зададим число групп (k), равным 3. Заметим, что
Тогда
Рассчитаем границы интервалов.
Для первого интервала: от 365 до 365+3072=3437
Для второго интервала: от 3437 до 3437+3072=6509
Для третьего интервала: от 6509 до 6509+3072=9581
Заметим, что в первый интервал попадут предприятия с номерами 1, 2, 3, 4, 5, 9, 10, 11, 12, 13, 14 (всего 11 предприятий).
Рассчитаем по этим предприятиям среднее значение признака - результата
Во второй интервал попадут предприятия с номерами 8, 15, 16 (всего 3 предприятия). Среднее значение признака – результата для этих предприятий составит
В третий интервал попадут предприятия с номерами 6 и 7. Среднее значение признака – результата для этих предприятий составит
Полученные результаты расчетов сведены в таблицу аналитической группировки
Число работников | Количество предприятий | Среднее значение признака - результата |
365 - 3437 | 41,7 | |
3437 - 6509 | 67,3 | |
6509 - 9581 | 94,0 | |
Всего |
Анализ полученных результатов показывает, что среднее значение объема выпуска продукции на 1 человека устойчиво растет от группы к группе, а следовательно между количеством работников и объемом выпуска продукции на 1 человека имеется положительная связь.
Для проведения комбинационной группировки рассчитаем интервалы для признака – результата.
Зададим число групп (m), равным 3. Заметим, что
.
Тогда
Рассчитаем границы интервалов.
Для первого интервала: от 31,8 до 31,8+22,1=53,9
Для второго интервала: от 53,9 до 53,9+22,1=76,0
Для третьего интервала: от 76,0 до 98,0
Результаты комбинационной группировки представлены в таблице
31,8 – 53,9 | 53,9 – 76,0 | 76,0 – 98,0 | Итого | |
365 - 3437 | - | |||
3437 - 6509 | - | - | ||
6509 - 9581 | - | - | ||
Итого |
Из данной таблицы видно, что наибольшие значения каждого столбца и каждой строки лежат на главной диагонали. Поэтому можно сделать вывод о прямой связи между численностью работников предприятия и объемом выпуска продукции на 1 работника.
Задание 1
В табл. 1 приведены 5 показателей деятельности торговых предприятий. В соответствии с таблицей выберите номера 2-х показателей
Номер варианта | Номер 1-го показателя | Номер 2-го показателя |
На основании имеющихся данных выполнить:
1. Структурную группировку по первому и второму показателям, приняв число групп, равным 5.
2. Аналитическую группировку, считая первый показатель признаком-фактором, а второй – признаком-результатом.
3. Комбинационную группировку при числе групп по обоим признакам, равным 3.
Т а б л и ц а 1 Показатели деятельности торговых предприятий за год
Номер предпри-ятия | Численность работников | Средняя зарплата, тыс. р. | Дебиторская задолженность на конец года, тыс. р. | Балансовая прибыль, тыс. р. | Собственные оборотные средства, тыс. р. |
17,3 | 7,0 | ||||
20,2 | 5,1 | ||||
19,1 | 1,2 | ||||
17,0 | 7,1 | ||||
20,3 | 2,2 | ||||
19,1 | 5,3 | ||||
19,2 | 4,0 | ||||
19,2 | 4,1 | ||||
17,0 | 7,8 | ||||
17,1 | 7,3 | ||||
19,3 | 2,2 | ||||
21,0 | 1,0 | ||||
20,0 | 2,3 | ||||
19,7 | 7,4 | ||||
19,2 | 5,6 | ||||
19,1 | 2,0 | ||||
21,3 | 1,5 | ||||
18,0 | 5,3 | ||||
20,0 | 3,2 | ||||
19,1 | 5,8 | ||||
19,0 | 5,0 | ||||
20,7 | 5,6 | ||||
19,6 | 6,5 | ||||
20,5 | 5,3 | ||||
18,3 | 3,7 | ||||
19,2 | 4,8 | ||||
21,8 | 4,9 | ||||
20,9 | 2,1 | ||||
18,2 | 7,0 | ||||
18,0 | 6,8 |