Вычисление основных статистик

Для того чтобы можно было всесторонне проанализировать ис­следуемый признак, необходимо вычислить целый ряд статистиче­ских показателей, характеризующих объект исследования. Основные из них - следующие.

2.1 Средние величины. Среднее арифметическое значение.

Этот показатель вычисляет­ся по формуле

Вычисление основных статистик - student2.ru ,

где к — количество классов; xi— значение i-гo класса (середина интер­вала, если ряд интервальный); Вычисление основных статистик - student2.ru —частота i-го класса. Средняя арифметическая величина, вычисленная по формуле , называется - взвешенной.

Средняя арифметическая величина используется для оценки математического ожидания исследуемой случайной величины.

В том случае, если исходные данные сгруппированы в статистический ряд, среднее квадратическое значение можно вычислить следующим образом:

Вычисление основных статистик - student2.ru

Среднее квадратическое значение используется лесоводами в качестве таксационного среднего диаметра древостоя. Это вызвано тем, что, согласно определяющему свойству, при замене всех элемен­тов выборки на среднее квадратическое остается постоянной сумма квадратов элементов выборки. А эта величина позволяет вычислить сумму площадей сечений древостоя, являющуюся важнейшим такса­ционным показателем:

Вычисление основных статистик - student2.ru

где G - сумма площадей сечения древостоя; Вычисление основных статистик - student2.ru — площадь сечения i-го дерева; dt —диаметр i-го дерева, Вычисление основных статистик - student2.ru = 3,14; Вычисление основных статистик - student2.ru - среднеквадратический диаметр древостоя.

Рассмотрим порядок вычисления средних величин на примере вариационных рядов по диаметрам и высотам. Для вы­полнения вычислений составим вспомогательную таблицу.

Таблица 5 ─ Вычисление средних значений (диаметры)

Xi fi Xifi Xi2 Xi2fi gi gi fi
15,6 46,8 730,08 0,0191 0,0573 15,6
18,5 129,5 2395,75 0,0268 0,1876 18,5
21,4 385,2 8243,28 0,0359 0,6462 21,4
24,3 656,1 15943,23 0,0463 1,2501 24,3
27,2 870,4 23674,88 0,0580 1,856 27,2
30,1 933,1 28086,31 0,0711 2,2041 30,1
0,0854 1,6226
35,9 861,6 30931,44 0,1011 2,4264 35,9
38,8 698,4 27097,92 0,1181 2,1258 38,8
41,7 250,2 10433,34 0,1365 0,819 41,7
44,6 178,4 7956,64 0,1561 0,6244 44,6
47,5 332,5 15793,75 0,1771 1,2397 47,5
50,4 201,6 10160,64 0,1994 0,7976 50,4
Сумма 6170,8 202138,26   15,8568 Сумма

Теперь, пользуясь формулами, вычислим среднее арифметическое значение:

Вычисление основных статистик - student2.ru см

и среднее квадратическое:

Вычисление основных статистик - student2.ru см

Теперь на основе полученной средней квадратической вычис­лим сумму площадей сечений древостоя. Для этого определим пло­щадь сечения, соответствующую среднеквадратическому диаметру:

Вычисление основных статистик - student2.ru

Умножив полученную величину на число стволов, получим сумму площадей сечений древостоя:

Вычисление основных статистик - student2.ru

Сравнивая полученную величину с площадью сечения, вычис­ленной по данным ряда диаметров, видим, что среднее квад­ратическое значение позволяет очень точно определять важнейший таксационный показатель — сумму площадей сечений древостоя.

Аналогичным образом определим средние значения для ряда высот. Сначала составим вспомогательную таблицу.

Таблица 6 ─ Вычисление средних значений (высоты)

Xi fi Xifi Xi2fi
17,7 70,8 1253,16
18,6 55,8 1037,88
19,5
20,4 2080,8
21,3 149,1 3175,83
22,2 355,2 7885,44
23,1 438,9 8339,1
24,9 647,4 16120,26
25,8 29953,8
26,7 667,5 17822,25
27,6 331,2 9141,12
28,5 1624,5
29,4 58,8 1728,72
Сумма 4892,7 118963,86

Далее, подставляя полученные суммы в формулы, вы­числяем среднее арифметическое значение:

Вычисление основных статистик - student2.ru

и среднее квадратическое:

Вычисление основных статистик - student2.ru

Показатели вариации

Средние величины указывают на то значение признака, вокруг которого группируются анализируемые наблюдения. Однако вокруг одного и того же значения признака наблюдения могут располагаться совершенно по-разному. Для того чтобы отразить характер располо­жения наблюдений вокруг среднего, и служат показатели вариации. Рассмотрим некоторые из них.

Размах вариации.Это наиболее простой показатель, характери­зующий распределение вариант вокруг среднего. Он вычисляется как разность между максимальным и минимальным значениями признака, которые в биометрии называют также лимитами(от латинского слова limes - предел) и обозначают символом lim:

Вычисление основных статистик - student2.ru

Если наблюдения плотно группируются вокруг среднего, то ли­миты располагаются близко друг к другу и размах вариации оказыва­ется небольшим. Если же разброс данных велик, то, как правило, минимальная и максимальная варианты располагаются далеко друг от друга и размах вариации получается большим.

Однако размах вариации является ненадежным показателем, так как он вычисляется на основании значений лимитов, а последние, в свою очередь, являются очень неустойчивыми статистиками и могут значительно варьировать от выборки к выборке. Кроме того, так как при вычислении размаха вариации используются только две крайние варианты, то он не дает нам никакой информации о характере распре­деления всех остальных вариант, располагающихся ближе к среднему.

Эмпирическая дисперсия.Этот показатель получил свое назва­ние от латинского слова dispersio - рассеяние. Это не что иное, как средний квадрат отклонений вариант от среднего арифметического. Вычисляется дисперсия так:

Вычисление основных статистик - student2.ru Вычисление основных статистик - student2.ru ,

Выборочная дисперсия, рассчитанная по формуле, дает сме­щенную оценку генеральной дисперсии. Для того чтобы получить несмещенную оценку, в формулу необходимо добавить сомножитель Вычисление основных статистик - student2.ru , называемый поправкой Бесселя:

Вычисление основных статистик - student2.ru ,

Величина n—1 из формулы называется числом степеней свободы. Она показывает, сколько в данном случае имеется независи­мых наблюдений.

Среднеквадратическое отклонение.Дисперсия часто применя­ется для оценки вариации данных, однако иногда для характеристики изменчивости признака удобнее использовать среднеквадратическое отклонение, которое

является квадратным корнем из дисперсии:

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

В отличие от дисперсии, среднеквадратическое отклонение вы­ражается в тех же единицах измерения, что и анализируемый признак. В связи с этим данный показатель является более естественным и легче поддается анализу.

Коэффициент вариации.Дисперсия и среднеквадратическое от­клонение довольно полно характеризуют вариацию, однако часто удобнее иметь показатель, оценивающий разброс данных не в абсо­лютных величинах, а в относительных. Таким показателем является коэффициент вариации. Он показывает, сколько процентов составляет среднеквадратическое отклонение от среднего арифметического:

Вычисление основных статистик - student2.ru

В биометрии этот показатель часто оказывается весьма полез­ным. Дело в том, что анализу подвергаются, как правило, объекты живой природы, а они с течением времени изменяют свои размеры, растут. В связи с этим часто необходимо анализировать выборки, сделанные для объектов с разным средним возрастом, а следователь­но, и с разными средними размерами. Если в таких случаях необхо­димо сравнить степень изменчивости признака в разных выборках, то удобнее оперировать коэффициентом вариации, так как он даст нам величину вариации по отношению к среднему значению.

Коэффициент асимметрии.Рассмотренные выше показатели довольно полно характеризуют анализируемые признаки, однако ни один из них не отражает степень симметричности распределения наблюдений относительно среднего значения.

Для того чтобы оценить степень такой неравномерности рас­пределения наблюдений относительно среднего арифметического, используют коэффициент асимметрии, который можно вычислить по формуле:

Вычисление основных статистик - student2.ru

Коэффициент асимметрии может принимать как положитель­ные, так и отрицательные значения. В том случае, если левая ветвь распределения более пологая и длинная, а вершина кривой смещена вправо относительно среднего арифметического, то коэффициент асимметрии для такого распределения имеет отрицательное значение. Такая асимметрия называется левосторонней или отрицательной.

Если распределение имеет более длинную и пологую правую ветвь, а его вершина смещена влево относительно среднего арифме­тического, то в таком случае имеет место правосторонняя, или поло­жительная, асимметрия. Коэффициент асимметрии в таком случае будет положительным.

Эмпирический коэффициент эксцесса. Кроме того, что распре­деления наблюдений могут отличаться друг от друга по степени асимметричности, они могут иметь разную крутизну. Распределения могут быть островершинными и плосковершинными. В случае остро­вершинной кривой, когда большое число наблюдений группируется в непосредственной близости от центра распределения, говорят о нали­чии положительного эксцесса. Кривая распределения имеет отрица­тельный эксцесс, если она является плосковершинной. Для оценки степени крутизны кривой распределения используется коэффициент эксцесса, который вычисляется по формуле:

Вычисление основных статистик - student2.ru

Этот коэффициент построен таким образом, что его значение для нормального распределения, как для наиболее изученного и часто используемого, равен нулю. В том случае, если коэффициент эксцесса принимает положительное значение (положительный эксцесс), рас­пределение вариант будет более крутым, чем нормальное распределе­ние. Когда этот показатель меньше нуля (отрицательный эксцесс), наблюдения будут образовывать более плосковершинную кривую, чем нормальное распределение.

Эмпирические моменты.Кроме рассмотренных выше показате­лей, для характеристики массовых данных используется система ста­тистик, называемых моментами. Если с - константа, то выражением:

Вычисление основных статистик - student2.ru ,

задается момент относительно точки с порядка q.

Моменты, вычисленные относительно средней арифметической Вычисление основных статистик - student2.ru , называются центральными:

Вычисление основных статистик - student2.ru

Для того чтобы определить остальные показатели вариации, со­ставим по данным вариационных рядов диаметров и высот вспомога­тельные таблицы.

Таблица 7 ─ Вычисление показателей вариации (диаметры)

Xi fi xi − x. (xi − x)2 (xi − x)3 ⋅fi (xi − x)4 ⋅ fi
15,6 -15,524 722,98 -11223,54 174234,24
18,5 -12,354 1068,34 -13198,27 163051,43
21,4 -9,454 1608,80 -15209,59 143791,46
24,3 -6,55 1158,37 -7587,32 49696,95
27,2 -3,65 426,32 -1556,07 5679,66
30,1 -0,75 17,44 -13,08 9,81
2,15 87,83 188,83 405,98
35,9 5,05 612,06 3090,90 15609.05
38,8 7,95 1137,64 9044,23 71901,63
41,7 10,85 706,335 7663,73 83151,47
44,6 13,75 756,25 10398,44 142978,55
47,5 16,65 1940,55 32310,16 537964,164
50,4 19,55 1528,81 29888,24 584315,09
Сумма 27,938 11771,73 43796,66 1972789,48

Таблица 8 ─ Вычисление показателей вариации (высоты)

Xi fi xi − x. (xi − x)2 (xi − x)3 ⋅fi (xi − x)4 ⋅ fi
17,7 -6,76 182,79 -1235,66 8353,06
18,6 -5,86 103,01 -603,69 3537,62
19,5 -4,96 98,41 -488,09 2420,95
20,4 -4,06 82,42 -334,61 1358,64
21,3 -3,16 69,90 -220,88 697,98
22,2 -2,26 81,72 -184,69 417,40
23,1 -1,36 35,14 -47,79 64,99
-0,46 6,35 -2,92 1,34
24,9 0,43 4,81 2,06 0,88
25,8 1,33 79,60 105,86 140,81
26,7 2,23 124,32 277,24 618,24
27,6 3,13 117,56 367,97 1151,75
28,5 4,03 32,48 130,90 527,52
29,4 4,93 49,20 242,57 1195,87
Сумма -9,16 1067,71 -880,75 20487,05

Подставляя значения из этих таблиц в формулы , полу­чим оценки остальных показателей вариации для диаметров и высот:

Диаметры:

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Высоты

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru

Для того чтобы определить точность полученных оценок стати­стических показателей, вычислим их стандартные ошибки:

Диаметры: Высоты:

Вычисление основных статистик - student2.ru Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru Вычисление основных статистик - student2.ru

Вычисление основных статистик - student2.ru Вычисление основных статистик - student2.ru

Чтобы сравнивать точность оценки среднего для объектов, имеющих разную размерность, часто используют показатель точно­сти, который представляет собой стандартную ошибку оценки средне­го, выраженную в процентах от самой средней величины. Вычислим показатель точности для рассматриваемого примера:

Вычисление основных статистик - student2.ru -диаметры;

Вычисление основных статистик - student2.ru -высоты.

Наши рекомендации