Группировка, как метод обработки статистической информации. Обоснование выбора группировочного признака и количества групп характеристик.
Группировка - это распределение множества единиц исследуемой совокупности по группам в соответствии с существенным для данной группы признаком. Метод группировки позволяет обеспечивать первичное обобщение данных, представление их в более упорядоченном виде. Благодаря группировке можно соотнести сводные показатели по совокупности в целом со сводными показателями по группам. Появляется возможность сравнивать, анализировать причины различий между группами, изучать взаимосвязи между признаками. Группировка позволяет делать вывод о структуре совокупности и о роли отдельных групп этой совокупности. Именно группировка формирует основу для последующей сводки и анализа данных.
Признаки, по которым проводится группировка, называют группировочными признаками. Группировочный признак иногда называют основанием группировки. Правильный выбор существенного группировочного признака дает возможность сделать научно обоснованные выводы по результатам статистического исследования. Группировочные признаки могут иметь как количественное выражение (объем, доход, курс валюты, возраст и т.д.), так и качественное (форма собственности предприятия, пол человека, отраслевая принадлежность, семейное положение и т.д.).
При определении числа групп, как правило, учитываются задача исследования, объем совокупности и виды признаков, которые берутся в качестве основания группировки. Например, по количественному признаку возраст населения может быть разбит на самые различные группы. Их число будет зависеть от поставленных задач. Например, это могут быть группы по возрасту трудоспособного населения; экономически активного населения и т.д.
Если берется, предположим, такой качественный признак, как образование, то групп будет ровно столько, сколько существует ступеней или профилей образования. В образовании по ступеням групп будет шесть (неполное среднее; среднее; неполное среднее специальное; специальное среднее; неполное высшее; высшее). По профилю образования количество групп может совпадать или с числом профессиональных групп, или с числом сфер образования (гуманитарное; инженерно-техническое; естественнонаучное).
Основные приемы группировки
Если для построения группировки используется только один признак, то такую группировку называются простой, если группировка проводится по нескольким признакам, ее называют сложной. Сложная группировка бывает или комбинационная, или многомерная.
Комбинационная группировка выполняется последовательно: группы, выделенные по одному признаку, затем выделяются в подгруппы по другому признаку, которые, в свою очередь, могут выделяться по следующему другому признаку. В этом случае число групп будет равно произведению числа выделенных групп на число группировочных признаков. Процедура определения оптимального числа групп основана на применении формулы Стерджесса
Из формулы видно, что выбор числа групп зависит от объема совокупности. Если групп оказывается много и они включают малое число единиц, то групповые показатели могут стать ненадежными. Поэтому альтернативой комбинационной группировке является многомерная группировка, которая осуществляется по комплексу признаков одновременно. Ее применение требует использования электронной вычислительной техники. С помощью специально разработанных электронных программ формируются однородные группы на основании близости по всему комплексу признаков.
Определение числа групп тесно связано с понятием величина интервала: чем больше число групп, тем меньше величина интервала, и наоборот. Интервал - разница между максимальным и минимальным значениями признака в каждой группе. Он определяет количественные границы групп, что для статистической практики имеет большое значение, особенно когда нужно образовать качественно однородные группы. Например, исследуется совокупность предприятий по выполнению коллективных договоров. Здесь нельзя объединять предприятия, которые не выполнили обязательства, и те, которые их перевыполнили. Показатель здесь - величина интервала.
Другим примером является невозможность образовывать группу 95 - 105%, поскольку это разные части совокупности. Следует образовать две группы: 95 - 100% и 101 - 105%. В этом случае границы, по которым различаются совокупности, абсолютно соблюдаются.
Каждый интервал имеет нижнюю (наименьшее значение признака) и верхнюю (наибольшее значение признака) границы или одну из них. Поэтому величина интервала есть разность между верхней и нижней границами интервала. Если у интервала указана лишь одна граница (у первого - верхняя, у последнего - нижняя), то речь идет об открытых интервалах. Если у интервала имеются и нижняя, и верхняя границы, то речь идет о закрытых интервалах. Закрытые интервалы подразделяются на равные и неравные (прогрессивно возрастающие, прогрессивно убывающие), а также специализированные и произвольные.
Группировку с равными интервалами строят тогда, когда исследуются количественные различия в величине признака внутри групп одинакового качества, а также если распределение носит более или менее равномерный характер. Если можно заранее установить определенное количество групп, то величину равного интервала можно вычислить по формуле
где i - величина равного интервала; xmax , xmin - наибольшее и наименьшее значения признака; n - число групп.
Если не требуется предварительного установления числа групп, то используется другой способ определения величины равного интервала - по формуле Стерджесса
где n - число наблюдений.
Если величина равного интервала рассчитывается по данной формуле, то следует знаменатель предварительно округлить до целого числа (как правило, всегда большего), так как количество групп не может быть дробным числом.
В статистической практике чаще применяются неравные интервалы (постепенно возрастающие или постепенно убывающие). При этом исследуемая совокупность делится на группы примерно равного заполнения с большим числом единиц. Неравные интервалы могут использоваться, например, в таких случаях:
а) при исследовании группировки с применением нескольких признаков, дающих возможность составить несколько подгрупп, где требуются уже и более длинные и более короткие интервалы;
б) при образовании крупных групп с новым качеством на базе мелких групп при условии сохранения их однородности, что приводит к увеличению интервалов.
В статистической практике используются также специализированные интервалы. Интервалы называют специализированными, если речь идет об установлении границ интервала в группах, схожих по типу и по признаку, но имеющих отношение, скажем, к разным отраслям производства.
виды группировок зависят от целей и задач, которые они выполняют. С помощью метода статистических группировок выделяют качественно однородные совокупности, изучают структуры совокупности и изменения, происходящие в них, а также решают задачи по исследованию существующих связей и зависимостей.
С известной мерой условности для выполнения этих задач группировки соответственно делят на типологические, структурные и аналитические.
Средние характеристики в статистических наблюдениях: виды, расчет показателей. Примеры использования в практике социально-экономического анализа.
Средние величины используются на этапе обработки и обобщения полученных первичных статистических данных. Потребность определения средних величин связана с тем, что у различных единиц исследуемых совокупностей индивидуальные значения одного и того же признака, как правило, неодинаковы.
Средней величиной называют показатель, который характеризует обобщенное значение признака или группы признаков в исследуемой совокупности.
Если исследуется совокупность с качественно однородными признаками, то средняя величина выступает здесь как типическая средняя. Например, для групп работников определенной отрасли с фиксированным уровнем дохода определяется типическая средняя расходов на предметы первой необходимости, т.е. типическая средняя обобщает качественно однородные значения признака в данной совокупности, каковым является доля расходов у работников данной группы на товары первой необходимости.
При исследовании совокупности с качественно разнородными признаками на первый план может выступить нетипичность средних показателей. Такими, к примеру, являются средние показатели произведенного национального дохода на душу населения (разные возрастные группы), средние показатели урожайности зерновых культур по всей территории России (районы разных климатических зон и разных зерновых культур), средние показатели рождаемости населения по всем регионам страны, средние температуры за определенный период и т.д. Здесь средние величины обобщают качественно разнородные значения признаков или системных пространственных совокупностей (международное сообщество, континент, государство, регион, район и т.д.) или динамических совокупностей, протяженных во времени (век, десятилетие, год, сезон и т.д.). Такие средние величины называют системными средними.
Таким образом, значение средних величин состоит в их обобщающей функции. Средняя величина заменяет большое число индивидуальных значений признака, обнаруживая общие свойства, присущие всем единицам совокупности. Это, в свою очередь, позволяет избежать случайных причин и выявить общие закономерности, обусловленные общими причинами.
- величины, для которых исчисляется средняя
средняя, где черта сверху свидетельствует о том, что имеет место осреднение индивидуальных значений
частота (повторяемость индивидуальных значений признака).
Средняя арифметическая - самый распространенный вид средней. Она используется, когда расчет осуществляется по несгруппированным статистическим данным, где нужно получить среднее слагаемое. Средняя арифметическая - это такое среднее значение признака, при получении которого сохраняется неизменным общий объем признака в совокупности.
где n - численность совокупности.
Простая средняя гармоническая используется тогда, когда веса значений признака одинаковы.
Средняя геометрическая. Чаще всего средняя геометрическая находит свое применение при определении средних темпов роста (средних коэффициентов роста), когда индивидуальные значения признака представлены в виде относительных величин. Она используется также, если необходимо найти среднюю между минимальным и максимальным значениями признака (например, между 100 и 1000000). Существуют формулы для простой и взвешенной средней геометрической.
Средняя квадратическая величина. Основной сферой ее применения является измерение вариации признака в совокупности (расчет среднего квадратического отклонения).
В итоге можно сказать, что от правильного выбора вида средней величины в каждом конкретном случае зависит успешное решение задач статистического исследования. Выбор средней предполагает такую последовательность:
а) установление обобщающего показателя совокупности;
б) определение для данного обобщающего показателя математического соотношения величин;
в) замена индивидуальных значений средними величинами;
г) расчет средней с помощью соответствующего уравнения.
Средняя арифметическая. Вывод формулы простой и взвешенных средних арифметических: средняя хронологическая. Примеры расчета.
Средняя арифметическая – самый распространенный вид средней величины. Когда речь идет о средней величине без указания ее вида, подразумевается именно средняя арифметическая. Она исчисляется в тех случаях, когда объем усредняемого признака образуется как сумма его значений у отдельных единиц изучаемой статистической совокупности.
Средняя арифметическая - самый распространенный вид средней. Она используется, когда расчет осуществляется по несгруппированным статистическим данным, где нужно получить среднее слагаемое. Средняя арифметическая - это такое среднее значение признака, при получении которого сохраняется неизменным общий объем признака в совокупности.
Формула средней арифметической (простой) имеет вид
(5.2)
где n - численность совокупности.
При расчете средних величин отдельные значения признака, который осредняется, могут повторяться, поэтому расчет средней величины производится по сгруппированным данным. В этом случае речь идет об использовании средней арифметической взвешенной, которая имеет вид
(5.3)
Средняя хронологическая.
Средней хронологической называется величина, исчисленная из абсолютных величин, образующих ряды динамики.
Ее расчет производится по формуле:
Средними хронологическими величинами пользуются для характеристики средних уровней явлений за определенные промежутки времени.
Средние геометрическая и квадратическая. Примеры их расчета и использования на практике.
Средняя геометрическая применяется в тех случаях, когда индивидуальные значения признака представляют собой относительные величины динамики, построенные в виде цепных величин, как отношение к предыдущему уровню каждого уровня в ряду динамики, т. е. характеризует средний коэффициент роста.
В контрольных по статистике она исчисляется извлечением корня степени n из произведений отдельных значений — вариантов признака Х по формуле:
где П — оператор умножения, знак произведения;
n — число вариантов.
средняя квадратичная применяется, например, для вычисления средней величины сторон n квадратных участков, средних диаметров стволов, труб и т. д. Она подразделяется на два вида.
Средняя квадратичная простая. Если при замене индивидуальных величин признака на среднюю величину необходимо сохранить неизменной сумму квадратов исходных величин, то средняя будет являться квадратичной средней величиной.
Она является квадратным корнем из частного от деления суммы квадратов отдельных значений признака на их число:
Средняя квадратичная взвешенная вычисляется по формуле:
где f — признак веса.
Мода и медиана, как показатели статистического ряда. Правила их расчета. Примеры практического применения.
Кроме степенных средних в статистике для относительной характеристики величины варьирующего признака и внутреннего строения рядов распределения пользуются структурными средними, которые представлены ,в основном, модой и медианой.
Мода — это наиболее часто встречающийся вариант ряда. Мода применяется, например, при определении размера одежды, обуви, пользующейся наибольшим спросом у покупателей. Модой для дискретного ряда является варианта, обладающая наибольшей частотой. При вычислении моды для интервального вариационного ряда необходимо сначала определить модальный интервал (по максимальной частоте), а затем — значение модальной величины признака по формуле:
где: - — значение моды
- нижняя граница модального интервала
— величина интервала
— частота модального интервала
— частота интервала, предшествующего модальному
— частота интервала, следующего за модальным
Медиана — это значение признака, которое лежит в основе ранжированного ряда и делит этот ряд на две равные по численности части.
Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение варианта приходится на нее. (Если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле: Ме = (n(число признаков в совокупности) + 1)/2,
случае четного числа признаков медиана будет равна средней из двух признаков находящихся в середине ряда).
При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем — значение медианы по формуле:
где:
— искомая медиана
— нижняя граница интервала, который содержит медиану
— величина интервала
— сумма частот или число членов ряда
сумма накопленных частот интервалов, предшествующих медианному
— частота медианного интервала