Средняя арифметическая, ее свойства и техника исчисления
Средняя арифметическая – самый распространенный вид средней величины. Когда речь идет о средней величине без указания ее вида, подразумевается именно средняя арифметическая. Она исчисляется в тех случаях, когда объем усредняемого признака образуется как сумма его значений у отдельных единиц изучаемой статистической совокупности. Например, общий фонд заработной платы – это сумма заработных плат отдельных работников, общее число рабочих в промышленности – это сумма их численностей на отдельных промышленных предприятиях, общий сбор урожая – сумма урожаев с каждого гектара площади и т.д.
При исчислении средней арифметической выполняют две операции:
· суммируют индивидуальные значения признаков
· полученную сумму делят на число значений
В зависимости от характера исходных данных средняя арифметическая может быть рассчитана по формуле простой или взвешенной средней.
Если исходные данные не систематизированы, то применяется формула простой средней арифметической.
Если исходные данные сгруппированы и представлены весами (частотами), т.е. с числом единиц, имеющих одинаковые значения признака, то среднюю арифметическую исчисляют по формуле взвешенной средней
.
При расчете средней арифметической взвешенной:
· необходимо умножить варианты на все ;
· сложить полученные произведения;
· сложить веса (частоты);
· сумму произведений вариант на веса разделить на сумму весов.
Обычно средняя арифметическая исчисляется по формуле взвешенной средней. Простую среднюю используют только в тех случаях, когда у каждой варианты частота равна единице или если частоты у всех вариант равны друг другу.
Принято различать три основных приема расчета средней арифметической:
· если статистические данные по индивидуальным значениям признака, полученные из наблюдения не упорядочены, то техника вычисления средней арифметической сводится к суммированию варианта и делению полученной суммы на число вариант варьирующего признака. Используется формула средней арифметической простой. В тех случаях, когда варианта повторяется и это выражено частотами, применяют формулу средней арифметической взвешенной.
· Если исходные данные представлены общей суммой значений варьирующего признака и численностью единиц совокупности то общий объем признака делится на число единиц совокупности. Такого рода данные имеются в периодической статистической отчетности.
В этом случае необходимо проверить, соответствует ли объем признака численности единиц совокупности. Ведь объем осредняемых признаков часто являются самостоятельными категориями и показателями (например, фонд заработной платы), которые подсчитываются независимо от расчета средних величин. Поэтому прежде чем исчислить среднюю, необходимо проверить выполнение вышеуказанного требования.
Более того можно привести немало примеров, когда каждое отдельное значение признака вовсе не фиксируется по тем или иным причинам. Так, иногда не подсчитывается урожайность на каждом отдельном гектаре площади, занятой той или иной культурой, но средняя для всей площади урожайность является одним из важных показателей продуктивности земледелия; никогда не подсчитывается, сколько валовой продукции произвел тот или иной рабочий.
Такие средние по способу расчета и по своему аналитическому значению мало отличаются от относительных величин интенсивности.
По-видимому, хотя выше говорили о том, что между средними и относительными величинами есть разница, но в то же время средняя – это отношение двух абсолютных величин, т.е. по сути относительная величина. Только средняя эта должна иметь отношение к любой единице совокупности. Относительная величина этим свойством не обладает.
· Среднюю арифметическую вычисляют на основе вариационных рядов. Для расчета средней в дискретных рядах варианты (значения которых известно) нужно умножить на частоту и сумму произведений разделить на сумму частот.
Вариационные ряды могут быть и интервальными. В этом случае для расчета средней полезно вспомнить, что арифметическая средняя как бы распределяет поровну между отдельными единицами совокупности общую величину признака, в действительности варьирующую у каждой из них.
Исходя из этого для расчета средней арифметической по интервальному вариационному ряду надо в каждом интервале определить серединное значение [X’], после чего произвести взвешивание обычным порядком, т.е. [X’f]. Среднее значение интервала находится как полусумма нижней границы данного интервала и нижней границы следующего интервала.
Если имеются интервалы с так называемыми открытыми границами, то для расчета средней условно определяют неизвестные границы. Обычно в этих случаях берут значение последующего интервала для первого интервала и предыдущего – для последнего.
После того как найдены средние значения интервалов, расчет средней арифметической делают так же, как и в дискретном ряду: варианты (средние значения интервалов) умножаются на частоты (веса), и сумму произведений делят на сумму частот (весов).
Частоты при расчете средних арифметических могут быть выражены не только абсолютными величинами, но и относительными величинами – частостями (W).
Результаты применительно к одинаковым вариантам будут совпадать.
Необходимо небольшое пояснение применительно к расчету средней в интервальных рядах распределения. В действительности распределение отдельных вариантов в пределах интервала может оказаться неравномерным. В этом случае середина интервала будет в той или иной степени отличаться от фактической средней по интервалу. Это в свою очередь может повлиять на правильность общей средней, исчисленной по данным интервального ряда.
Степень расхождения зависит от ряда причин. Во-первых, от числа вариант, чем больше число вариант, тем вероятнее, что середина интервала будет мало отличаться от групповой средней. Во-вторых, от величины интервала. Если интервал невелик, то ошибка будет незначительной, т.к. групповая средняя будет мало отличаться от середины интервала. В-третьих, от характера распределения. Чем симметричнее распределение, тем ошибка меньше. В-четвертых, размер ошибки зависит от принципа построения интервального ряда. При равных интервалах середина интервала будет ближе к средней по данной группе. При наличии открытых интервалов расхождение, как правило, взрастает из-за условного обозначения неизвестных границ.
Рассматривая общие и групповые средние можно вывести следующее соотношение:
.
Обозначим групповые средние как , и т.д.
Тогда имеем .
Общая средняя равна средней из частных (групповых) средних, взвешенных по численности соответствующих частей совокупности.
Это правило имеет большое значение для всей статистики – организации сбора и обработки данных, их анализа.
Теперь рассмотрим важнейшие свойства средней арифметической:
1. Произведение средней на сумму частот всегда равно сумме произведений вариант на частоты:
.
Другими словами, постоянный множитель может быть вынесен за знак средней
.
2. Если от каждой варианты отнять (прибавить) какое-либо произвольное число, то новая средняя уменьшится (увеличится) на то же число:
.
Отсюда .
3. Если каждую варианту умножить (разделить) на какое-то произвольное число, то средняя арифметическая увеличится (уменьшится) во столько раз
. Откуда .
. Откуда
4. Если все частоты (веса) разделить или умножить на какое-либо число, то средняя арифметическая от этого не изменится.
Дело в том, что веса при исчислении средней арифметической выполняют роль удельного веса (соотношений между группами по количеству единиц). Поэтому замена частот частостями не меняет средней.
5. Сумма отклонений отдельных вариантов от средней арифметической всегда равняется нулю:
.
Перечисленные свойства могут быть использованы для того, чтобы облегчить технику исчисления средней арифметической.
Например. Можно из всех значений признака вычесть произвольную постоянную величину (лучше значение серединной варианты или варианты с наибольшей частотой), полученные разности сократить на общий множитель (лучше на величину интервала), а частоты выразить частостями (в процентах) и исчисленную среднюю умножить на общий множитель и прибавить произвольную постоянную величину. Получится искомая средняя с использованием способа моментов по формуле
, где .
Средняя [ ] из значений называется моментом первого порядка.
Иногда этот способ расчета средней арифметической также называется способом расчета от условного нуля.
Широкое применение для обработки статистических материалов современных ЭВМ сужает необходимость исчисления средних по упрощенным схемам.
Средняя гармоническая
Рассмотрим следующий пример. Требуется рассчитать среднюю зарплату по 3 предприятиям на основании данных о средней зарплате по каждому предприятию и фонде зарплаты по этим предприятиям:
Предприятие | №1 | №2 | №3 | Итого |
Средняя зарплата, тыс. руб. | ? | |||
Фонд заработной платы, млн. руб. |
Для расчета средней зарплаты по предприятию по формуле средней арифметической не известна численность совокупности (в данном примере численность работников неизвестна). Обычно ее можно определить поделив ФЗП каждого предприятия на его среднюю зарплату.
Отсюда имеем:
тыс. руб.
Нетрудно заметить, что в данном расчете в качестве весов применяются не единицы совокупности, а произведения этих единиц на значения признака ( - объем признака). Отсюда приходится варианты взвешивать по объемам признака.
Такой расчет средней в статистике называется средней гармонической взвешенной и выражается формулой
.
(Известны индивидуальные значения признака и объемы признака по группам).
Следовательно, средняя гармоническая это величина, равная средней арифметической, из обратных значений признака.
В зависимости от характера имеющегося материала ее применяют тогда, когда веса приходится не умножать, а делить на варианты или, что то же самое, умножать на обратное их значение.
С применением формулы средней арифметической взвешенной расчет в рассмотренном примере имел бы следующий вид:
тыс. руб.
Рассмотрим второй пример. Три партии материала А куплены по разным ценам (50, 100 и 150 тыс. руб.). Требуется определить среднюю покупную цену материала А. В первой партии куплено 100 кг за 5 млн. руб., во второй 200 кг за 20 млн. руб., и в третьей 300 кг за 45 млн. руб.
Если при исчислении средней цены за веса принять количество товаров, то верный результат дает формула средней арифметической взвешенной:
Если же в качестве весов будем применять стоимость партий, то верный результат дает средняя гармоническая:
Расчет средней может производиться как по формуле средней арифметической, так и средней гармонической. Преобразуем формулы этих средних, учитывая, что
; .
Получим, что формула средней гармонической переходит в среднюю арифметическую и обратно.
Учитывая, что средняя гармоническая является средней из обратных величин признака по сравнению к средней арифметической, формулы для ее расчета нередко записываются так:
Средняя гармоническая простая ;
Средняя гармоническая взвешенная: .
Только надо помнить, что в качестве весов (n и ) принимаются объемы признаков ( ).
Можно из сказанного выше сделать вывод, что строго говоря, средняя гармоническая является не особым видом средней, а скорее особым методом расчета средней арифметической. В статистике же принято выделять среднюю гармоническую как отдельный вид средней; т.к. с ее помощью может быть упрощена техника расчета средней арифметической и, что более важно, учтен характер имеющегося статистического материала.
Правильность выбора формы средней (арифметической или гармонической) может быть проверена также дополнительным критерием: если в качестве весов выступают абсолютные величины, всякие промежуточные действия при расчете средней должны давать значимые показатели. Например, для расчета средней цены умножением цены на количество товаров получается их стоимость. А деление стоимости товаров на их цены дает количество товаров.
С помощью гармонической средней в статистике определяется средний процент выполнения плана (по данным фактического выполнения плана), средние затраты времени на выполнение операций (по данным о средних затратах времени на одну операцию и общее время работы по отдельным работникам) и т.д.
8.5. Структурные средние величины (мода и медиана)
Средние, о которых шла речь в предыдущих параграфах данной темы, являются обобщающими статистическими характеристиками изучаемого массового явления (совокупности) по тому или иному варьирующему признаку и одновременно своего рода абстракцией. Они отражают то общее, что присуще всем единицам совокупности. При этом может случиться, что величина средней не имеет точного равенства ни с одним из конкретных встречающихся в совокупности вариантов (значений единиц совокупности по признаку). Например, изучается распределение семей по количеству членов семьи:
Число членов семьи | ∑ | |||||||
Число семей |
Среднее число членов семьи равно 3,81. Дробного числа членов семьи не может быть. Средняя показывает некоторое центральное значение, около которого группируются реально существующие варианты.
Поэтому наравне со средними в качестве общих статистических характеристик изучаемого признака могут быть использованы величины конкретных вариантов, занимающих в ранжированном (построенном в прядке возрастания или убывания) ряду индивидуальных значений признака определенное положение.
В статистических исследованиях в качестве вспомогательных описательных статистических характеристик распределения варьирующего признака широко применяются мода и медиана.
Модой в статистике называется величины признака (варианта), которая чаще всего встречается в данной совокупности. Обозначаются символом .
Медианой в статистике называется варианта, которая находится в середине вариационного ряда. Медиана делит ряд пополам. Обозначают медиану символом .
Определение моды и медианы в дискретном ряду, где значения признака заданы определенными числами, не представляет большой трудности.
В рассмотренном примере наиболее часто встречаются семьи, имеющие 4 члена семьи, т.е. =4 (семья имеющая 4 члена семьи).
Могут быть распределения, где все варианты встречаются одинаково часто. В этом случае моды нет. В других случаях не одна, а две варианты могут иметь наибольшие частоты. Тогда у признака будут две моды и распределение будет бимодальным.
Чтобы найти медиану в дискретном ряду, нужно сумму частот разделить пополам и к полученному результату добавить ½ или, что то же самое использовать формулу
.
Для нашего примера . Такой номер семьи делит ряд пополам. Поскольку частоты с дробным номером не бывают, то медиана находиться посредине между 50-й и 51-й частотами. Затем по накопленным частотам (частостям) определяют величину варианта (признака), обладающего таким номером.
Число членов семьи | Число семей (частоты) | Накопленные частоты |
Всего | - |
В нашем примере 50-й и 51-й члены ряда имеют число семьи 4, т.е. =4 члена семьи.
Однако если единиц (частот) в совокупности достаточно много и различия между величинами рядом стоящих членов ряда небольшие, то можно считать медианой (с достаточной степенью точности) один из центральных вариантов с порядковым номером n/2. Так обычно поступают, определяя медиану при четном числе членов ряда.
Рассмотрим, как определяется мода и медиана для интервального ряда.
Прежде закрывают открытые интервалы (первый и последний) и определяют интервалы, в которых находятся мода и медиана. Их называют соответственно модальным и медианным интервалом.
Модальный интервал – интервал с наибольшей частотой. В приведенном ниже примере, модальным является интервал 170-175 см.
Для расчета определенного значения модальной величины признака, заключенного в этом интервале, применяют формулу
,
где - минимальная граница модального интервала (в нашем примере 170);
- величина модального интервала (в примере 5);
- частота интервала, предшествующего модальному (в нашем примере 100);
- частота модального интервала (в примере 130);
- частота интервала, следующего за модальным (в нашем примере 114).
Пример 2. Распределение студентов по росту.
Рост, см. | Число студентов | Накопленные частоты |
0-155 | ||
155-160 | ||
160-165 | ||
165-170 | ||
170-175 | ||
175-180 | ||
180-185 | ||
185-190 | ||
190 и выше | ||
Всего | - |
В нашем примере:
.
Смысл этой формулы заключается в следующем: величину той части модального интервала, которую нужно добавить к его минимальной границе, определяют в зависимости от величины частот предшествующего и последующего интервалов.
Медианный интервал (содержащий частоту, который делит ряд пополам) определяется по накопленным частотам. Это будет интервал, накопленная частота которой равна или превышает половину суммы частот.
В нашем примере . Отсюда медианным интервалом будет интервал со значением роста от 170 до 175 см. До этого интервала сумма накопленных частей составила 175. Следовательно, чтобы получить значение медианы, необходимо прибавить 75 [или 76 единиц] (250,5-75).
При определении значения медианы предполагают, что значение признака в границах этого медианного интервала распределяется равномерно. Следовательно, если 130 студентов (единиц), находящихся в этом интервале, распределяются равномерно в интервале 5 см, то 75,5 единицам (75 или 76 единицам) будет соответствовать следующая его величина:
Прибавив полученную величину к минимальной границе интервала, получим искомую величину медианы:
;
т.е. половина студентов имеет рост меньше 172.9 см, а вторая половина – больше.
Формула для исчисления медианы в вариационном интервальном ряду будет иметь такой вид:
,
где - нижняя граница медиального интервала;
- величина медианного интервала;
- сумма частот ряда (численность ряда);
- сумма накопленных частот в интервалах, предшествующих медианному;
- частота медианного интервала.
Строго говоря, приведенная формула моды пригодна только для рядов с равными интервалами. Формула медианы применима для любого интервального ряда.
Определим среднюю арифметическую для второго примера:
Для первого примера имеем: средняя = 3,81; мода = 4; медиана = 4 члена семьи.
Для второго примера: средняя = 172,85; мода равна 173.3 и медиана = 172.9 см.
Соотношение этих трех величин указывает направление и степень ассиметрии рядов распределения. Более подробно эти вопросы рассматриваются в дисциплине “Математическая статистика”.
Таким образом мода и медиана является важными дополнительными характеристиками к средней изучаемой совокупности. Особенно ценны эти показатели для характеристик небольших по численности совокупностей. При этом следует помнить, что мода и медиана являются описательными статистическими характеристиками, т.к. в них не погашаются индивидуальные отклонения, они всегда соответствуют определенной варианте.
В то же время можно привести немало примеров, когда мода или медиана являются более эффективной характеристикой, чем средняя.
Например, при статистических методах контроля качества продукции, при оценке качества передачи информации, надежности работы средств труда широкого применяются мода и медиана. Так, таксофон, почтовый ящик следует разместить не на середине улицы, а в точке, которая делит численность проживающих пополам. Используется медиана. Показатель «вероятность безотказной работы» оценивается модой.
Считается, что медиана по своему положению более определена, чем мода.
Выше было сказано, что средняя, мода и медиана совместно используются при анализе ряда распределения по структуре (на симметрию). Если , то данный ряд симметричный. Если , то в ряду имеются группы с очень высокими частотами и если таких групп нет. Если совокупность неоднородна и т.д.
Для характеристики структуры вариационного ряда кроме моды и медианы в статистике исчисляются и другие характеристики: квартили, децили, процентили. Они рассматриваются в дисциплине “Общая теория статистики” для студентов статистических специальностей.
Показатели вариации
Как видели выше, средняя величина дает обобщенную характеристику изучаемой совокупности по некоторому варьирующему (изменяющемуся) признаку, т.е. показывает типичный для данных условий уровень этого признака. Поскольку средняя величина - абстрактная величина, то для характеристики структуры ряда привлекаются описательные показатели – мода и медиана. Однако в двух совокупностях средние, мода и медиана могут быть одинаковыми, но отдельные значения признака при этом могут близко примыкаться к средней и мало от нее отличаться или, наоборот, могут далеко отставать (стоять) от средней и сильно от нее отличаться. Нетрудно сделать важный вывод по совокупности: в первом случае средняя будет хорошо представлять (характеризовать) всю совокупность, во втором случае средняя будет плохо представлять всю совокупность.
Следовательно наряду со средними величинами большое практическое и теоретическое значение имеет изучение отклонений от средних.
Оценки колеблемости отдельных значений от средней называют показателями вариации.
Термин “вариация” происходит от латинского слова variation – изменение, колеблемость, различие. Однако не всякие различия принято называть вариацией. Под вариацией в статистике понимают такие количественные изменения величин исследуемого признака в пределах качественно однородной совокупности, которые обусловлены взаимосвязанным (перекрещивающимся) воздействием различных факторов. Отсюда различают случайную и систематическую вариацию признака.
В статистических исследованиях особый интерес представляет анализ систематической вариации, т.к. изучая силу и характер вариации в исследуемой совокупности можно оценить насколько однородной является данная совокупность в количественном, а иногда и качественном отношении, а следовательно насколько характерной является исчисленная средняя величина. Поэтому средние характеристики необходимо дополнять показателями, измеряющими отклонения от средних.
Степень близости индивидуальных значений признака (вариант) к средней измеряется рядом абсолютных, средних и относительных статистических показателей. К ним относятся размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение, показатели степени вариации с порядковыми (ранговыми) характеристиками распределения, показатели относительного рассеивания.
Для всех показателей вариации общим является следующие:
· если показатель вариации близко к нулю (т.е. индивидуальные значения признака мало отличаются друг от друга), то средняя арифметическая будет достаточно показательной (надежной) характеристикой данной совокупности;
· если же ряд распределения характеризуется значительным рассеиванием (величина показателя вариации сильно отличается от нуля, является большой), то средняя арифметическая будет ненадежной и ее практическое применение будет ограничено.
В соответствии с рабочей программой нашей дисциплины, ниже будут рассмотрены наиболее часто применяемые на практике показатели вариации.