Показатели центральной тенденции
Ряды распределения численностей, изображенные на рис. 2.5 и 2.7, показывают, что варианты концентрируются около некоторого центрального их значения. Следовательно, можно найти такое значение варианты или абстрактное среднее число, которое будет наиболее представительной характеристикой данной совокупности.
Ряд показателей центральной тенденции включает:
· среднюю арифметическую;
· среднюю квадратическую;
· среднюю геометрическую;
· среднюю гармоническую;
· моду;
· медиану.
Назначение средних величин состоит в том, чтобы отразить какое-нибудь одно свойство совокупности, например, среднюю длину, среднюю массу, средний объем. То свойство (или тот признак) совокупности, которое остается неизменным при замене индивидуальных значений их средним значением, называется определяющим свойством.
Средняя арифметическая.Средняя арифметическая - наиболее часто употребляемый статистический показатель центральной тенденции. Она является центром тяжести распределения.
Среднюю арифметическую генеральной совокупности обычно обозначают m, а ее выборочную оценку, т. е. среднюю арифметическую выборочных наблюдений - М (или ). Она имеет ту же размерность, что и варианты.
Средняя арифметическая получается путем деления суммы всех вариант (x1, x2, ..., xn) на объём выборки:
M = (x1+ x2 + ... + xn)/N= (Sx)/N, (2.1)
где
N - общее число вариант;
S - знак суммирования.
Без указания в знаке пределов суммирования производится суммирование всех измеренных (наблюденных) вариант ряда от 1 до N.
Пример 2.4. Для вариант (предположим, это высота деревьев, м) 15, 20, 20, 20, 25
M=(15+20+20+20+25)/5 = 100/5 = 20м.
Для ряда, разделенного на классы, т. е. для вариационного ряда, среднюю арифметическую вычисляют как взвешенную величину:
M= (n1x1+ n2x2 + ... + nnxn)/N= (Snixi)/N, (2.2)
где
x1, x2, ..., xn - классовые варианты (срединные значения классов);
n1, n2, ...,nn - частоты соответствующих классов;
N - общее число вариант (объем ряда) или общее число наблюдений.
Группируя варианты рассмотренного примера 2.4 по их величине, получим следующий ряд:
x | |||
n |
M= (1*15+3*20+ 1*25)/5 = 20 см.
В дальнейшем рассмотрим другие формулы вычисления арифметической средней, основанные на использовании ее основного свойства. Это свойство состоит в том, что сумма отклонений всех вариант от арифметической средней равна нулю. Оно вытекает из содержания средней арифметической как центра тяжести ряда. Сумма вариант, которые больше средней M, равна сумме вариант, которые меньше ее.
Пример 2.5 использована функция СРЗНАЧ() MSExcel для расчета средней арифметической своих аргументов.
Синтаксис: СРЗНАЧ(число1; число2; ...), число1, число2, ... - это от 1 до 30 аргументов, для которых вычисляется среднее.
На рис. 2.8 приведено окно программы MSExcel, демонстрирующее применение функции СРЗНАЧ()для определения выборочной средней арифметической M распределения диаметров деревьев сосны, записанных в ячейках А2-А21 (см. пример 2.1). СРЗНАЧ(A2:A21) равняется 35,5 см.
Рис. 2.8.
Средняя геометрическая. При рассмотрении среднего темпа роста изучаемого признака средняя арифметическая не пригодна. Вместо нее вычисляют среднюю геометрическую Mg (или g) по формуле:
Mg = (2.3)
где
x1, x2, ..., xn - темпы роста (величины, показывающие, во сколько раз увеличивался признак от периода к периоду);
n -число периодов.
При n>2 формулу удобнее применять в логарифмическом виде:
lgMg = (lgx1+ lgx2 + ... + lgxn)/n. (2.4)
Если данные, для которых вычисляют среднюю геометрическую, должны быть взвешены, то формула имеет вид:
lgMg = (n1lgx1+n2lgx2 + ... +nnlgxn)/N .(2.5)
Исходя из содержания формул (2.4) и (2.5), среднюю геометрическую называют также средней логарифмической, так как ее логарифм есть арифметическая средняя логарифмов составляющих величин.
Поясним применение средней геометрической примером.
Пример 2.6. Измеренное растение в конце 1-й, 2-й, 3-й и 4-й декад роста имело объем в дм3: 1, 2, 8, 64.
Относительный темп прироста как отношение результатов двух последовательных наблюдений выразится числами 2/l=2; 8/2=4; 64/8=8. В формулах (2.3)-(2.5) они обозначены x1, x2, ..., xn. Средняя геометрическая чисел 2, 4, 8 (n=3) no формуле (2.3) равна:
Mg =
По формуле (2.4) имеем:
lgМg = (1/3) (0,3010 + 0,6021 + 0,9031) = 0,6020.
Отметим, что арифметическая средняя из дат 2, 4, 8 равна 4,7
M= 14/3 = 4,7.
Проверим пригодность двух видов найденных средних - геометрической и арифметической - для выражения среднего темпа роста. Определяющим свойством здесь будет объем, достигаемый к концу последнего периода. Он равен первоначальному объему, умноженному последовательно на x1, x2, x3, т. е. на числа 2, 4, 8. Эти числа показывают, во сколько раз увеличивался объем за каждый последующий период.
Для примера, в котором каждое значение x получено на основе одного или равного числа наблюдений, истинный объем в конце третьего периода равен 1дм´2´4´8=64 дм3.
Используя среднюю геометрическую, имеем такое же значение объема 1дм´4´4´4=64 дм3.
Применение средней арифметической дает объем к концу третьего периода, равный 1дм´4,7´4,7´4,7 = 103,8 дм3, что не соответствует действительности.
Следовательно, для средней арифметической величины характерно постоянство суммы вариант, а для геометрической средней характерно равенство произведений из первоначальных данных измерений (x1, x2, ..., xn) и из геометрических средних Mg1, Mg2, ..., Mgn, представленных n раз.
Пример 2.7 использования функции СРГЕОМ() MSExcel для расчета среднего геометрическое значений массива или интервала положительных чисел. Например, функцию СРГЕОМможно использовать для вычисления средних темпов роста, если задан составной доход с переменными ставками.
Синтаксис: СРГЕОМ(число1;число2; ...), где число1, число2, ... - это от 1 до 30 аргументов, для которых вычисляется среднее геометрическое. Можно использовать массив или ссылку на массив вместо аргументов, разделяемых точкой с запятой.
Средняя квадратическая. В лесном хозяйстве нередко приходится находить сумму площадей сечений деревьев в древостое располагая распределением числа деревьев по ступеням толщины.
Так, для ряда распределения 94 деревьев по ступеням толщины:
X | |||||||
N | |||||||
Sn |
получена сумма площадей сечений всех деревьев равная 69586 см2. Средний арифметический диаметр по формуле (2.2) равен 30,08 см. Площадь сечения g дерева, соответствующая этому диаметру, равна 710,7 см2, а площадь сечений 94 деревьев, найденная как произведение gN=G, составляет 66806 см2. Она на 4% меньше истинной площади сечений.
Такое же расхождение наблюдалось бы и в объеме деревьев. Определяющее свойство - площадь сечения всех деревьев древостоя выражается формулой:
G = (p/4) (n1d12 + n2d22 +…+ nndn2),
где
p=3,14;
n1n2, ...,nn- количество деревьев в ступенях толщины;
d1, d2, ..., dn - диаметры ступени толщины, см.
Очевидно, что величина G пропорциональна не диаметрам, а их квадратам.
Поэтому истинная площадь сечений может быть получена через число деревьев и величину среднего квадратического диаметра.
Mq = (2.6)
или
Mq = , (2.7)
где
x2 - квадраты диаметров;
n- численности деревьев в классах или группах;
N - общее число деревьев в выборке.
Найденный по формуле (2.7) среднеквадратический диаметр равен Mq=30,7 см. Площадь сечения, соответствующая этому диаметру, равна 740,3 см2, а сумма площадей сечений 94 таких деревьев, равна 69586 см2.
Таким образом, для получения истинного значения площади сечений или объемов всех деревьев посредством среднего дерева и числа деревьев диаметр дерева - модели следует находить как среднюю квадратическую величину. В лесной таксации его находят через среднюю арифметическую площади сечения, что то же самое.
LECTURE
Средняя гармоническая — используется в тех случаях когда известны индивидуальные значения признака x и произведение , а частоты неизвестны.
Среднегармоническую величину можно определить по следующей формуле:
В примере ниже — прирост древесины на гектар известен, — площадь выдела неизвестна, — прирост древесины с выдела.
Пример. Вычислить прирост древесины по трем выделам
Выдел | прирост древесины м3/га (х) | прирост древесины с выдела П (z = x*f) |
18,2 | ||
20,4 | ||
23,5 | ||
Итого |
Ответ: 20,1 м3/га
Мода и медиана.
Мода (Мо) это наиболее часто встречающийся вариант ряда. Модой для дискретного ряда является варианта, обладающая наибольшей частотой.
В ряду:
X | |||||||
n |
Mo=28 см.
При вычислении моды для интервального вариационного ряда необходимо сначала определить модальный интервал (по максимальной частоте), а затем — значение модальной величины признака по формуле:
где:
- — значение моды
- — нижняя граница модального интервала
- — величина интервала
- — частота модального интервала
- — частота интервала, предшествующего модальному
- — частота интервала, следующего за модальным
.
Медианой (Mе) называют возможное значение признака, которое делит вариационный ряд выборки на две равные части: 50 % «нижних» единиц ряда данных будут иметь значение признака не больше, чем медиана, а «верхние» 50 % — значения признака не меньше, чем медиана..
Среди значений 5; 6; 7; 8; 9 Mе = 7.
Для определения медианы в дискретном ряду при наличии частот сначала вычисляют полусумму частот , а затем определяют, какое значение варианта приходится на нее. (Если отсортированный ряд содержит нечетное число признаков, то номер медианы вычисляют по формуле:
Ме = (n(число признаков в совокупности) + 1)/2,
в случае четного числа признаков медиана будет равна средней из двух признаков находящихся в середине ряда).
При вычислении медианы для интервального вариационного ряда сначала определяют медианный интервал, в пределах которого находится медиана, а затем — значение медианы по формуле:
где:
- — искомая медиана
- — нижняя граница интервала, который содержит медиану
- — величина интервала
- — сумма частот или число членов ряда
- - сумма накопленных частот интервалов, предшествующих медианному
- — частота медианного интервала
Пример 1. Найти моду и медиану.
Возраст | Число деревьев | Сумма накопленных частот |
До 20 лет | ||
20 — 25 | ||
25 — 30 | ||
30 — 35 | ||
35 — 40 | ||
40 — 45 | ||
45 лет и более | ||
Итого |
Решение:
В данном примере модальный интервал находится в пределах возрастной группы 25-30 лет, так как на этот интервал приходится наибольшая частота (1054).
Рассчитаем величину моды:
Это значит что модальный возраст древостоя равен 27 годам.
Вычислим медиану. Медианный интервал находится в возрастной группе 25-30 лет, так как в пределах этого интервала расположена варианта, которая делит совокупность на две равные части (∑fi/2 = 3462/2 = 1731). Далее подставляем в формулу необходимые числовые данные и получаем значение медианы:
Это значит что одна половина деревьев имеет возраст до 27,4 года, а другая свыше 27,4 года.
Пример 2.
Для ряда распределения 94 деревьев по ступеням толщины Ме = 30
X | |||||||
n | |||||||
Sn |
Me = 26 + 4 [(47 - 19)/28] = 30 см.
Использование функции МОДА()и МЕДИАНА() в MSExcel
Функция МОДА()возвращает наиболее часто встречающееся значение в массиве или интервале данных. Синтаксис: МОДА(число1;число2; ...), где число1, число2, ... - это от 1 до 30 аргументов, для которых вычисляется мода. Можно использовать один массив или одну ссылку на массив вместо аргументов, разделяемых точкой с запятой.МОДА({5,6; 4; 4; 3; 2; 4}) равняется 4.
Функция МЕДИАНА() возвращает число, которое является серединой множества заданных чисел. Синтаксис: МЕДИАНА(число1;число2; ...), где число1, число2, ... - это от 1 до 30 чисел, для которых определяется медиана.МЕДИАНА(1; 2; 3; 4; 5) равняется 3.МЕДИАНА(1; 2; 3; 4; 5; 6) равняется 3,5, среднее 3 и 4.
Показатели вариации
Средняя величина не дает полного представления о свойствах изучаемой совокупности. Являясь показателем центральной тенденции, т. е. наиболее представительной характеристикой изучаемого объекта, она не характеризует степени изменчивости, варьирования составляющих его единиц. Действительно, ряды из вариант 1, 3, 4, 5, 7 и 3, 4, 4, 4, 5 характеризуются одинаковой средней арифметической х=4, но отличаются по степени вариации значений признака.
Доверие к средней величине может быть определено лишь постольку, поскольку дана оценка варьированию величин в рассматриваемой совокупности вариант. Одной из целей статистических методов является выявление вариации, которая характеризуется рядом показателей:
· размах варьирования;
· дисперсия;
· среднее квадратическое отклонение;
· коэффициент вариации.
Размах варьирования. Разность между наибольшим и наименьшим значением признака называется размахом, который является грубым показателем варьирования признака. Опираясь лишь на два крайних члена ряда, величина размаха не учитывает внутреннего, между этими крайними значениями, рассеяния вариант. Кроме того, крайние значения как редко встречающиеся члены ряда весьма неустойчивы по своему размеру и сильно зависят от объема выборочных наблюдений. Несмотря на это, при малых выборках, повторяемых несколько раз, размах варьирования нашел широкое применение.
Среднее квадратическое отклонение и дисперсия.Основным показателем вариации (изменчивости) считается среднее квадратическое отклонение, которое определяется как корень квадратный из средней арифметической квадратов отклонений вариант от их средней арифметической величины.
Среднее квадратическое отклонение для выборки обозначают через s, а для генеральной совокупности -s. Согласно определению:
s= = , (2.11)
В математической статистике оперируют средним квадратом отклонений (s2 для выборки и s2 для генеральной совокупности), называемым дисперсией, которая рассчитывается по формуле (2.12).
s2 = = (2.12)
Для расчетов по вариационному ряду среднее квадратическое отклонение выразится формулой:
s= =
= , (2.13)
а дисперсия
s2 = =
= (2.14)
В уравнениях (2.11-2.14)
x1, x2, ..., xn - варианты ряда (средние значения классов);
M- средняя арифметическая;
n1, n2, ...,nn- частоты в классах;
N - общий объем ряда.
Оценивая величину s по выборочному значению s, при обработке выборки с числом наблюдений N меньше 30 в качестве делителя в формулах (2.11) - (2.14) принимают не N, а N-1. (Это связано с тем, что матожидание выборки не равно матожиданию генеральной совокупности).
Таким образом, общей формулой для нахождения среднего квадратического отклонения будет:
s = = , (2.15)
а для дисперсии
s2 = = (2.16)
При обработке вариационных рядов формулы принимают вид:
s= =
= , (2.17)
s2 = =
= (2.18)
Использования функции ДИСП() MSExcel для оценивания дисперсии по выборке.
Синтаксис: ДИСП(число1;число2; ...), где число1, число2, ... - это от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности.
Коэффициент вариации. Коэффициент вариации является показателем изменчивости признака, выражая ее в относительных единицах. Он представляет собой среднее квадратическое отклонение отдельных вариант ряда в долях средней величины, выраженное в процентах:
v = (s / M) 100%. (2.19)
Являясь показателем, не зависящим от принятых единиц измерения вариант, коэффициент вариации может применяться для сравнительной оценки величины варьирования различных признаков