Группировка статистических данных

Группировка - это распределение единиц совокупности по группам в соответствии с группировочным признаком. Назначение группировки состоит в том, что этот метод обеспечивает обобщение данных, представление их в компактном, обозримом виде. На основе группировки рассчитываются сводные показатели по группам, появляется возможность их сравнения, изучения взаимосвязей между признаками.

Различия в целевом назначении группировки выражаются в существующей в нашей статистике классификации группировок: типологические, структурные, аналитические.

При осуществлении любой группировки решается вопрос об определении числа выделяемых групп. При группировке по количественному признаку вопрос о числе групп решается на основе выделения однородных, близких по значению признака единиц совокупности. Необходимо, чтобы каждая группа характеризовала существенные типы явления. Число единиц в выделенных группах должно быть достаточным, чтобы характеристики, рассчитанные для отдельных групп были статистически устойчивыми. Количество выделяемых групп зависит от вариации признака, числа наблюдений, а также от количества отдельных возможных значений признака, т.е. от числа вариант признака. При небольшом числе вариант признака, положенного в основу группировки, каждая варианта представляет отдельную группу.

Если число вариант велико, то значения группировочного признака для отдельных групп указываются в интервалах «от – до». Для этого всю область изменения признака разбивают на несколько интервалов и считают, сколько элементов попадает в отдельный интервал. Интервалы могут быть равными и неравными, открытыми и закрытыми. Группировку с неравными интервалами надо использовать, если размах вариации признака в совокупности велик, неравные интервалы применяются как прогрессивно возрастающие или убывающие. В этом случае границы каждого интервала устанавливаются исследователем. Однако необходимо учесть, что наличие равных интервалов технически значительно облегчает вычисление различных статистических характеристик.

Равные интервалы применяются в случаях, когда изменение признака внутри совокупности происходит равномерно. Расчет величины интервала при равных интервалах производится по формуле:

Группировка статистических данных - student2.ru ,

где D - величина отдельного интервала,

xmax - максимальное значение признака в исследуемой совокупности,

xmin - минимальное значение признака в исследуемой совокупности.

K - число групп,

Затем определяются границы каждого интервала:

для первого интервала: от xmin до xmin +D;

для второго интервала: от xmin + D до xmin + 2D ;

........................................................................

для интервала: K от xmin + KD до xmax.

Типологическая группировка служит для выявления типов элементов явлений.

Структурная группировка служит для исследования совокупности по одному признаку.

После того, как в результате сводки статистические данные сгруппированы, они, как правило, представляются в виде таблицы. Макет таблицы для представления результатов структурной группировки может выглядеть следующим образом:

Наименование таблицы

Наименование группировочного признака, (единицы измерения) Количество единиц совокупности в отдельной группе В процентах к итогу
... ... ...
... ... ...
... ... ...
Итого Общее число элементов совокупности

Здесь в первой графе указываются варианты (интервалы) значений признака для отдельных групп по возрастанию или убыванию.

Аналитические группировки служат для выявления аналитической зависимости между группировочными признаками. При построении аналитических группировок важно правильно определить признак-результат и признак-фактор.

Признак, влияние которого на другие признаки исследуется, называется признаком-фактором. Признак, испытывающий влияние факторного, называется признаком - результатом. Чтобы установить связь между признаками аналитическая группировка осуществляется по признаку-фактору. Затем по каждой группе отбираются соответствующие значения признака-результата и рассчитывается его среднее значение. Сопоставляя изменение средних значений признака-результата от группы к группе с изменениями признака-фактора можно сделать вывод о наличии или отсутствии взаимосвязи, а также о ее направлении. Различие групповых средних позволяет утверждать, что признаки взаимозависимы. Если изменение величины признака-фактора в определенном направлении вызывает изменение величины признака-результата в том же направлении, то связь прямая, в противном случае - связь обратная.

Макет таблицы для представления результатов аналитической группировки может выглядеть следующим образом:

Наименование таблицы

Наименование признака-фактора (единица измерения) Количество элементов совокупности в отдельной группе Среднее значение признака-результата (единица измерения)
... ... ...
... ... ...
... ... ...
Итого Общее число элементов совокупности -

Здесь в первой графе указываются варианты (интервалы) значений признака-фактора для отдельных групп по возрастанию или убыванию.

Проследить зависимость между факторами можно также на основе комбинационной группировки. Комбинационная группировка осуществляется одновременно по двум и более признакам, взятым в сочетании.

Макет комбинационной таблицы выглядит следующим образом:

Наименование таблицы

Группировка по признаку- Группировка по признаку-результату Всего
фактору            
  n11 n12 ... n1M Sn1j  
  n21 n22 ... n2M Sn2j  
  ... ... ... ... ...  
  nK1 nK2 ... nKM SnMj  
Всего Sni1 Sni2 ... SniK Snij  

Здесь nij - частота совместного появления значения i признака-фактора (i = 1, 2,..,M) и значения j признака результата (j = 1,2,...,K).

Если наибольшие частоты каждой строки и каждого столбца располагаются вдоль диагонали таблицы, идущей от левого верхнего угла таблицы к правому нижнему, то можно сделать вывод, что связь между признаками является прямой и близкой к линейной.

Если наибольшие частоты располагаются вдоль диагонали от правого верхнего угла к нижнему левому, то связь - обратная и близкая к линейной.

Если частоты во всех клетках таблицы примерно одинаковы, то связи между признаками нет.

Контрольное задание №1

На основе данных, приведенных в Приложении 1 и соответствующих Вашему варианту (таблица 1), выполнить:

1. Структурную равноинтервальную группировку по обоим признакам. Если вариация группировочного признака значительна и его значение для отдельных групп необходимо представить в виде интервалов, то при построении группировки по признаку № 1 принять число групп равным 7, а по признаку № 2 - 8. Результаты представить в таблице, сделать выводы.

2. Аналитическую группировку, для этого определить признак-результат и признак-фактор, обосновав их выбор. При построении аналитической группировки использовать равнонаполненную группировку по признаку-фактору (в каждой группе приблизительно одинаковое количество наблюдений). Результаты группировки представить в таблице. Сделать выводы о наличии и направлении взаимосвязи между признаками.

3. Комбинационную группировку по признаку-фактору и признаку-результату. Сделать выводы.

Таблица данных для формирования статистической совокупности

Таблица 1

Последние две цифры № зачетной книжки Номер начального наблюдения Номер конечного наблюдения Номера признаков из приложения 1 Последние две цифры № заченой книжки Номер начального наблюдения Номер конечного наблюдения Номера признаков из приложения 1
1,2 1,3
3,4 4,5
1,3 1,4
4,5 2,5
1,4 1,5
2,5 2,3
1,5 1,2
2,3 3,4
1,2 1,3
3,4 4,5
1,3 1,4
4,5 2,5
1,4 1,5
2,5 2,3
1,5 1,2

Окончание таблицы 1

2,3 3,4
1,2 1,3
3,4 4,5
1,3 1,4
4,5 2,5
1,4 1,5
2,5 2,3
1,5 1,2
2,3 3,4
1,2 1,3
3,4 4,5
1,3 1,4
4,5 2,5
1,4 1,5
2,5 2,3
1,5 1,2
2,3 3,4
1,2 1,3
3,4 4,5
1,3 1,4
4,5 2,5
1,4 1,5
2,5 2,3
1,5 1,2
2,3 3,4
1,2 1,3
3,4 4,5
1,3 1,4
4,5 2,5
1,4 1,5
2,5 2,3
1,5 1,2
2,3 3,4
1,2 1,3
3,4 4,5

Наши рекомендации