Механизм проведения группировки данных
1. Необходимо выделить группировочный признак, который будет положен в основание группировки.
2. Необходимо определить количество групп и величину интервала группировки.
Если в основание группировки положен качественный признак, то групп будет столько, сколько существует градаций этого признака. Например, если в основание группировки рабочих предприятия положен группировочный признак – пол, то групп будет всего две: мужчины и женщины.
Если группировка проводится по количественному признаку, то:
а) в случае малой численности статистической совокупности (менее 30 единиц) целесообразно выделить три группы, характеризующие передовую, отстающую части и «золотую середину».;
б) если изучаемая совокупность велика, то число групп определяется по формуле Стерджесса:
,
где N – количество единиц в изучаемой статистической совокупности.
Величина интервалов в этом случае принимается равной для всех групп и определяется по формуле:
,
где xmax и xmin – это максимальное и минимальное значения признака в совокупности;
m – число групп.
При этом следует соблюдать следующие правила:
· левая граница интервала формируется по принципу «включительно», а правая — «исключительно»;
· если значение признака совпадает с границами интервалов, то используются открытые интервалы.
3. В случае если в основание группировки положено несколько признаков, то необходимо привести описание того, как они комбинируются между собой.
4. Определяют статистические показатели, характеризующие каждую группу и всю совокупность в целом.
5. Результаты сводки и группировки излагают в табличном или графическом виде.
При решении задачи №2 необходимо вспомнить теорию средних величин, показатели вариации, а также методику анализа результатов выборочного наблюдения.
Средняя величина – это обобщающий показатель, характеризующий типичный уровень варьирующего признака в расчете на единицу однородной совокупности в конкретных условиях места и времени.
Средняя величина всегда именованная, она имеет ту же единицу измерения, что и признак у отдельных единиц совокупности.
В статистике применяют две категории средних: степенные и структурные.
Степенные средние в зависимости от представления исходных данных могут быть простыми и взвешенными.
Простая средняя вычисляется по несгруппированным данным, а взвешенная ¾ по сгруппированным.
Наиболее распространенной среди степенных средних является средняя арифметическая:
простая | взвешенная |
где х – значение признака,
f – частота, показывающая, сколько раз значение признака х встречается в изучаемой совокупности.
Примечание 1. Если значения осредняемого признака заданы в виде интервалов, то при расчете средней арифметической величины в качестве значений признаков в группах принимают середины этих интервалов, в результате чего образуется дискретный ряд. При этом величины открытых интервалов условно приравниваются к интервалам, примыкающим к ним.
Структурные средние применяются для изучения внутреннего строения и структуры рядов распределения значений признака.
В качестве структурных средних чаще всего используют показатели моды и медианы.
1. Мода – наиболее часто повторяющееся значение признака в изучаемой совокупности.
Для дискретных рядов распределения модой будет то значение признака, у которого наибольший удельный вес. В интервальных рядах распределения с равными интервалами мода определяется по формуле:
Мо = ,
где - начальное значение интервала, содержащего моду;
i – величина модального интервала;
- частота модального интервала (в абсолютном или относительном выражении);
- частота интервала, предшествующего модальному;
- частота интервала, следующего за модальным.
Примечание 2. Модальным является тот интервал, который содержит наибольшую частоту (fmax).
2. Медиана – величина признака, которая делит упорядоченную последовательность его значений на две равные по численности части.
Если ряд распределения дискретный, то медианой будет значение признака, находящееся в середине упорядоченного ряда.
В интервальном вариационном ряду медиана определяется по формуле:
,
где - начальное значение интервала, содержащего медиану;
- величина медианного интервала;
- сумма частот ряда;
- сумма накопленных частот, предшествующих медианному интервалу;
- частота медианного интервала.
Примечание 3. Медианным является тот интервал, кумулятивная частота которого равна полусумме или превышает полусумму всех частот ряда (fMe = ½ åf).
Если значение средней величины совпадает с модой и медианой, то ряд является симметричным. На практике строго симметричные ряды встречаются довольно редко, чаще исследователю приходится иметь дело с асимметричными рядами. Если AS = <0, то в ряду имеет место левосторонняя асимметрия, если AS = >0, то – правосторонняя.
Для оценки однородности изучаемой совокупности используют показатели вариации.
Вариация – это различие в значениях какого-либо признака у разных единиц совокупности в один и тот же период или момент времени. Например, работники одного предприятия различаются по доходам, росту, весу, хобби и т.д.
К основным показателям вариации относятся:
1. Размах вариации рассчитывается как разность между максимальной и минимальной величиной признака и показывает диапазон разброса значений признака:
R = xmax – xmin.
2. Дисперсия – характеризует площадь рассеивания значений признака вокруг их средней величины.
простая | взвешенная |
3. Среднее квадратическое отклонение равно корню квадратическому из дисперсии: = и показывает, насколько в среднем отклоняются конкретные варианты от их среднего значения.
простое | взвешенное |
4. Коэффициент вариации используется также для характеристики однородности совокупности. Совокупность считается однородной, если ее коэффициент вариации не превышает 33%.
.
Выборочное наблюдение – это такое несплошное наблюдение, при котором признаки регистрируются у отдельных единиц изучаемой статистической совокупности, отобранных случайным образом, а полученные в процессе обследования результаты с определенным уровнем вероятности распространяются на всю исходную совокупность.
Совокупность, из которой производится отбор, называется генеральной, а совокупность отобранных единиц – выборочной совокупностью или выборкой. При этом отбор единиц в выборочную совокупность может осуществляться двумя методами: повторным и бесповторным.
Любое выборочное наблюдение, как бы грамотно оно ни было организовано, всегда связано с определенными ошибками. В зависимости от исходных данных и способа отбора единиц в выборку, величина предельной ошибки выборки определяется по формулам, приведенным в таблице.
Метод отбора Вид выборки | Повторный | Бесповторный | ||
для среднего значения | для доли | для среднего значения | для доли | |
Собственно-случайная и механическая |
Основные обозначения:
- выборочная средняя;
w – выборочная доля - определяется отношением числа единиц, обладающих изучаемым признаком m, к общему числу единиц в выборке n: ;
n – число единиц в выборочной совокупности;
N – число единиц в генеральной совокупности;
t – коэффициент доверия, значение которого соответствует определенному уровню вероятности p (см. табл.).
p | 0.383 | 0.683 | 0.865 | 0.954 | 0.988 | 0.997 | 0.999 |
t | 0,5 | 1,0 | 1,5 | 2,0 | 2,5 | 3,0 | 3,5 |
На заключительном этапе на основе предельной ошибки выборки определяют доверительные интервалы, в которых может находиться генеральная средняя или генеральная доля. Выход за пределы этой области имеет весьма малую вероятность. Доверительные интервалы определяются по формулам:
§ для среднего значения: ;
§ для доли: .
При решении задачи №3 следует предварительно усвоить сущность рядов динамики, виды и их назначение, некоторые особенности и основные принципы построения. Важно помнить, что сопоставимость уровней ряда динамики - необходимое условие достоверности и правильности результатов его анализа.
Ряд динамики – это последовательность изменяющихся во времени значений статистического показателя, расположенных в хронологическом порядке.
Ряд динамики состоит из 2 элементов:
§ конкретных значений показателей или уровней ряда (у),
§ периодов или моментов времени (t).
Виды рядов динамики
1. По форме представления уровней ряды динамики делятся на ряды абсолютных, относительных и средних величин.
2. По времени различают моментные и интервальные ряды динамики.
3. По расстоянию между датами или интервалам времени выделяют ряды динамики с равноотстоящими уровнями (даты регистрации следуют друг за другом с равными интервалами) и неравноотстоящими уровнями во времени (если в рядах даются прерывающиеся периоды или неравномерные промежутки между датами).
Для количественной оценки динамики проводят расчет аналитических показателей динамики (см.табл.).
В основе расчета показателей ряда динамики лежит сравнительный анализ уровней ряда либо с постоянной, либо с переменной базой сравнения. При постоянной базе сравнения каждый уровень ряда сравнивается с одним и тем же показателем (уровнем), принятым за базу сравнения (у0). В этом случае получают базисные показатели. При переменной базе сравнения каждый уровень ряда сравнивают с предыдущим уровнем (yi-1) получают цепные показатели.
Показатель динамики | Формулы расчета | Взаимосвязь показателей | |
базисные | цепные | ||
Абсолютный прирост | |||
Темп роста | |||
Темп прироста | или | или | |
Темп наращивания | ¾ | ¾ | |
Абсолютное значение одного процента прироста | ¾ | ¾ |
Средний уровень ряда динамики – характеризует обобщенную величину абсолютных уровней.
Методы расчета среднего уровня интервального и моментного рядов динамики различны.
Для интервальных рядов динамики средний уровень за период времени определяется по формуле средней арифметической:
а) при равных интервалах применяется средняя арифметическая простая:
.
б) при неравных интервалах применяется средняя арифметическая взвешенная:
.
Средний уровень моментного ряда динамики с равноотстоящими датами определяется по формуле средней хронологической простой:
.
Для моментных рядов с неравноотстоящими датами расчет среднего уровня ряда производится по формуле средней хронологической взвешенной:
.
При решении задачи №4 следует вспомнить теорию индексов. Важно обратить внимание не только на индивидуальные, но прежде всего на общие и групповые индексы, методология расчета которых и составляет предмет индексной теории.
Индекс – это обобщающий показатель, который выражает соотношение величин какого-либо сложного явления во времени, в пространстве или дает сравнение фактических данных с любым эталоном (план, прогноз, норматив и т.д.).
В статистике индексы классифицируются по ряду признаков:
а) по содержанию изучаемых величин:
1. Индексы количественных показателей – все индексируемые показатели этих индексов являются объемными, т.е. характеризуют общий, суммарный размер (объем) изучаемого явления и выражаются абсолютными величинами. К таким индексам относятся, например, индекс физического объема промышленной продукции, розничного товарооборота, национального дохода и т.д.
2. Индексы качественных показателей – характеризуют уровень явления в расчете на ту или иную единицу совокупности. Например, индекс себестоимости единицы продукции, индекс заработной платы, индекс производительности труда, индексы цен и т.д. Они измеряют не общий объем, а интенсивность, эффективность явления или процесса.
б) по степени охвата единиц совокупности:
1. Индивидуальные индексы характеризуют изменение отдельных элементов сложного явления, например, показывает изменение количества или цен по какому-либо одному виду продукции. Он определяется путем деления величины показателя за отчетный период на величину этого же показателя за базисный период.
2. Сводные (общие) индексы отражают изменение всех элементов сложного явления, например, изменение физического объема продукции, включающей разноименные товары.
3. Субиндексы (групповые) используются, если охватываются не все элементы сложного явления, а только их часть, например индексы физического объема продукции по отдельным отраслям промышленности, индексы цен по группам продовольственных и непродовольственных товаров.
в) по методам расчета общие индексы делят на:
1. Агрегатные индексы - сложные относительные показатели, которые характеризуют среднее изменение социально-экономического явления, состоящего из несоизмеримых элементов. Числитель и знаменатель агрегатного индекса представляют собой сумму произведений двух величин, одна из которых меняется (индексируемая величина), а другая остается неизменной в числителе и знаменателе (вес индекса).
2. Средние из индивидуальных - делятся на арифметические и гармонические и являются производными, т.е. они получаются в результате преобразования агрегатных и индивидуальных индексов.
Для того чтобы рассчитать общий индекс, необходимо преодолеть несуммарность отдельных элементов изучаемого явления, это достигается путем введения в индекс дополнительного неизменного показателя, тесно связанного с индексируемой величиной. Этот показатель называется весом агрегатного индекса.
При выборе веса индекса руководствуются следующим правилом: если индекс количественный, то обычно используют вес базисного периода, а если качественный – то отчетного.
В международной статистике для построения индексов применяются следующие обозначения:
q – физический объем произведенной продукции (количество);
p – цена;
z – себестоимость;
w – производительность труда;
t – трудоемкость;
1 – отчетный период;
0 – базисный период.
Рассмотрим построение самых распространенных индексов.