Анализ распределения случайных величин с помощью ПЭВМ

Анализ распределения случайных величин с помощью пакета Statistica 6.0 можно выполнить следующим образом.

1. Запустить программу Statistica и открыть файл с данными, как описано в подразделе 2.4.

2. Выбрав опцию «Настройка Распределения» из меню «Ста­тистика» открыть диалоговое окно «Distribution Fitting», содержащее список распределений, для которых можно выполнить вычисления. Из данного списка надо выбрать распределение и нажать кнопку «ОК».

3. В открывшемся диалоговом окне «Fitting Continuous distri­butions» или «Fitting Discrete Distributions» в зависимости от того, какое распределение - непрерывное или дискретное - выбрано, на­жать кнопку «Variables». После того как на экране появится еще одно диалоговое окно, содержащее список переменных, выбрать какую-нибудь переменную и нажать кнопку «ОК» для возврата в окно настройки распределения.

4. Далее во вкладке «Parameters» при необходимости можно отредактировать такие поля, как «Number of categories» - число ин­тервалов при группировке данных, «Lower limit» - нижняя граница первого интервала, «Upper limit» - верхняя граница последнего интер­вала а также поля, содержащие параметры распределения.

5. Для выполнения вычислений надо нажать кнопку «Summary: Observed and expected distribution» на вкладке «Quick». На экране появится таблица, содержащая эмпирические и теоретические частоты. В данной таблице в колонке «Upper Boundary» при­ведены верхние границы интервалов; в колонке «Observed Frequency» эмпирические частоты; в колонке «Cumulative Observed» - накоп­ленные эмпирические частоты; в колонке «Percent Observed» - эмпи­рические частоты, выраженные в процентах от общего количества наблюдений; «Cumul.% Observed» - накопленные эмпирические час­тоты выраженные в процентах; «Expected Frequency» - теоретические частоты; «Cumulative Expected» - накопленные теоретические часто­ты; «Percent Expected» - теоретические частоты, выраженные в про­центах; «Cumul. % Expected» - накопленные теоретические частоты, выраженные в процентах; «Observed - Expected» - отклонение эмпи­рических частот от теоретических. Кроме того, в окне результатов приводится информация, необходимая для проверки нулевой гипотезы о согласованности эмпирического и теоретического распре­делений. Это статистика Пирсона χ2 - величина «Chi-Square», число степеней свободы - «df», и вероятность совершения ошибки первого рода (вероятность отклонения справедливой нулевой гипотезы) - «р».

6. Если на той же вкладке «Quick» нажать кнопку «Plot of ob­served and expected distribution», на экране появится график, на кото­ром будут сравниваться эмпирическое (изображено в виде гистограм­мы) и теоретическое распределения (рис. 11). На этом же графике приведена информация для проверки гипотезы о согласованности эмпирического и теоретического распределений с помощью критерия Пирсона.

Рассмотрим процесс анализа распределения случайной величи­ны на примере диаметров и высот деревьев. С этой целью выполним расчеты для всех непрерывных распределений, поддерживаемых па­кетом Statistica. Для этого, воспользовавшись кнопкой «Variables» из диалогового окна «Fitting Continuous distributions», выбрать переменную «D» - диаметры. Установить необходимые параметры для формирования вариационного ряда, отредактировав соответст­вующие поля на вкладке «Parameters». Для диаметров установить следующие значения: «Number of categories»; «Lower limit»; «Upper limit». Далее, выбирая по очереди различные теоретические распределения с помощью поля с выпадающим спи­ском «Distribution» в диалоговом окне «Fitting Continuous distributions», выполнить расчеты. Полученные результаты свести в табл. 16.

Таблица 14 ─ Анализ распределения диаметров деревьев в древостое

Распределение Название распределения в программе Statistica Критерий Пирсона χ2   Число степеней свободы Вероятность совершения ошибки 1-го рода Критерий Колмогорова
Нормальное Normal 27,30458 0,00029 0,09845
Равномерное Rectangular 122,2485 0,0000 0,27478
Экспоненциальное Exponential 1596,654 0,0000 0,51533
Гамма Gamma 34,97693 0,00003 0,11144
Лог-нормальное Log-normal 39,54262 0,0000 0,11762
Хи-квадрат Chi-Square 325,047 0,0000 0,27746

Анализ полученных результатов показывает, что в отношении трех распределений (гамма, лог-нормальное, хи-квадрат) гипотезу можно принять. Гипотезы, выдвинутые в отношении других распределений, следует отвергнуть. Из трех распределений, которые хорошо подходят к экспериментальным данным, лучшим следует считать гамма распределение, так как вероятность совершения ошибки 1-го рода для него максимальная.

Аналогичным образом выполним расчеты для вариационного ряда высот.

Таблица 15 ─ Анализ распределения высот деревьев в древостое

Распределение Название распределения в программе Statistica Критерий Пирсона χ2   Число степеней свободы Вероятность совершения ошибки 1-го рода Критерий Колмогорова
Нормальное Normal 13,87523 0,08508 0,0678
Равномерное Rectangular 74,72549 0,000 0,21211
Экспоненциальное Exponential 419,617 0,000 0,43173
Гамма Gamma 8,84680 0,35
Лог-нормальное Log-normal 6,50733 0,59059 0,03703
Хи-квадрат Chi-Square 8,22051 0,51209 0,3524

В данном случае гипотезы в отношении всех распределений, кроме нормального, гамма и лог-нормального (лучшим следует считать нормальное распределение) следует отвергнуть, так как для них вероятность сделать при этом ошибку ниже, чем уровень значимости α = 0,05.

В рассматриваемых примерах с помощью программы Statistica были получены несколько иные значения, чем ранее, когда мы под­робно рассматривали процесс вычисления теоретических частот и проверку гипотезы о нормальном распределении диаметров и высот. Это вызвано тем, что в программе Statistica параметры нормального распределения оценивались на основании исходных данных без вы­полнения группировки. В рассматриваемом ранее примере вычисле­ния выполнялись по данным интервальных вариационных рядов, что всегда связано с потерей точности. Кроме того, при вычислениях функции нормального распределения программа Statistica использует аппроксимирующие алгоритмы, а в первом варианте расчета приме­нялись табличные значения функции нормального распределения. С учетом сказанного, целесообразно принять во внимание результаты, полученные с помощью программы Statistica, и принять гипотезу о нормальном распределении высот.

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru

Корреляционный анализ

В предыдущих разделах высоты и диаметры анализировались по отдельности, вне связи друг с другом. Однако в природе многие случайные величины в той или иной степени связаны друг с другом. Для того чтобы оценить тесноту связи между случайными величина­ми, удобно использовать коэффициент корреляции. Его можно вы­числить по формуле

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (8)

Данный показатель оценивает тесноту связи между случайными величинами в случае линейных зависимостей, однако в природе чаще встречаются нелинейные. В таких случаях коэффициент корреляции не может выразить всю полноту связи. Для нелинейных зависимостей лучше использовать показатель, предложенный Пирсоном, который называется корреляционным отношением. Он вычисляется как квад­ратный корень из отношения межгрупповой дисперсии зависимой случайной величины к ее общей дисперсии. В данном случае группы формируются в пределах интервалов вариационного ряда независи­мой переменной. Корреляционное отношение можно вычислить с помощью следующей формулы:

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (9)

Стандартные ошибки коэффициента корреляции и корреляци­онного отношения можно оценить с помощью выражений:

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (10)

и

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (11)

По соотношению величины коэффициента корреляции и корреляционного отношения можно сделать вывод о характере связи: прямолинейна она или криволинейна. Чем значительнее корреляционное отношение превышает коэффициент корреляции, тем более криволинейной является эта связь. Для оценки степени криволинейности связи вычисляют меру криволинейности как разницу между квадратами корреляционного отношения и коэффициента корреляции:

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (12)

Вычислим рассмотренные выше показатели связи для пары слу­чайных величин - диаметры и высоты деревьев в древостое. Для того, чтобы выполнить вычисления, составим вспомогательную табл. 18. Подставляя значения сумм из данной таблицы в формулы (8) и (9), получим

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru

или

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru

Теперь, пользуясь выражениями (9) и (10), вычислим стан­дартные ошибки коэффициента корреляции и корреляционного отношения

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru

Полученные результаты говорят о том, что между диаметрами и высотами деревьев в древостое существует связь, а тот факт, что корреляционное отношение значительно превышает коэффициент корреляции, показывает нам, что эта зависимость скорее криволинейная, чем прямолинейная. Вычислим, пользуясь формулой (31), меру криволинейности для зависимости высот и диаметров:

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru

Таблица 16 ─ Вспомогательная таблица для вычисления коэффициента корреляции и корреляционного отношения

H\D 15,6 18,5 21,4 24,3 27,2 30,1 35,9 38,8 41,7 44,6 47,5 50,4 Всего Yi-ȳ
29,4                       4,94
28,5                       4,04
27,6               3,14
26,7           2,24
25,8         1,34
24,9           0,44
            -0,46
23,1               -1,36
22,2                 -2,26
21,3                   -3,16
20,4                     -4,06
19,5                     -4,96
18,6                       -5,86
17,7                     -6,76
Итого  
ȳx 19,20 19,11 21,95 23,37 24,39 24,73 25,04 25,80 26,15 26,55 26,48 26,96 27,15    
ȳx-ȳ -5,26 -5,35 -2,51 -1,09 -0,07 0,27 0,58 1,34 1,69 2,09 2,02 2,50 2,69    
fx(ȳx-ȳ)^2 83,00 200,04 113,40 32,28 0,14 2,19 6,44 43,09 51,41 26,21 16,24 43,65 28,94 647,03  
xi-X -15,25 -12,35 -9,45 -6,55 -3,65 -0,75 2,15 5,05 7,95 10,85 13,75 16,65 19,55    
  240,645 462,137 426,951 193,356 7,738 -6,18 23,779 162,408 241,839 136,059 110,825 291,042 210,358 2500,957  

Регрессионный анализ

В предыдущем разделе было установлено, что между диаметра­ми и высотами деревьев существует связь. Наличие связи между слу­чайными величинами, как правило, ставит перед исследователем сле­дующую задачу - построение модели этой связи. Эта задача чаще всего решается с помощью регрессионного анализа. В данном случае наличие модели, позволяющей оценивать значения высот деревьев в древостое исходя из их диаметра, может оказать большую практиче­скую пользу, так как трудоемкость измерения высоты растущего де­рева значительно выше, чем трудоемкость измерения его диаметра.

Для построения регрессионного уравнения связи используют метод наименьших квадратов, позволяющий оценить коэффициенты уравнения заданного вида таким образом, чтобы сумма квадратов отклонений эмпирических значений зависимой переменной от теоре­тических значений была наименьшей.

Оценка коэффициентов прямой

Для того чтобы получить оценку коэффициентов Анализ распределения случайных величин с помощью ПЭВМ - student2.ru и Анализ распределения случайных величин с помощью ПЭВМ - student2.ru уравне­ния прямой линии методом наименьших квадратов, следует решить систему нормальных уравнений:

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru(10)

Рассмотрим процесс вычисления коэффициентов уравнения прямой, моделирующей зависимость между высотами и диаметрами. Для этого на основе корреляционной решетки (табл. 4) составим вспомогательную таблицу для вычисления всех необходимых сумм (табл. 17). В данной таблице суммы вычисляются сначала по интерва­лам, а затем складываются. Подставив значения сумм в систему нор­мальных уравнений (10), получим

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (11)

Решим полученную систему уравнений. Для этого разделим ка­ждое из уравнений системы (12) на коэффициенты при параметре Анализ распределения случайных величин с помощью ПЭВМ - student2.ru :

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (12)

Теперь вычтем первое уравнение системы (14) из второго:

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (13)

и выразим из полученного уравнения (15) коэффициент Анализ распределения случайных величин с помощью ПЭВМ - student2.ru :

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (14)

Таблица 17 ─ Вспомогательная таблица для вычисления коэффициента регрессии прямой

H\D 15,6 18,5 21,4 24,3 27,2 30,1 35,9 38,8 41,7 44,6 47,5 50,4 Всего  
29,4                       58,8
28,5                      
27,6               331,2
26,7           667,5
25,8        
24,9           647,4
           
23,1               438,9
22,2                 355,2
21,3                   149,1
20,4                    
19,5                    
18,6                       55,8
29,4 4821,9
fx 46,8 129,5 385,2 656,1 870,4 933,1 627,0 861,6 698,4 250,2 178,4 332,5 201,6 6170,8  
∑fi*xi 730,1 2395,8 8243,3 15943,2 23674,9 28086,3 20691,0 30931,4 27097,9 10433,3 7956,6 15793,8 10160,6 202138,3  
∑fi*xi2 898,6 1820,4 8076,4 14900,8 21232,3 23071,7 15701,4 22229,3 18263,2 6642,8 4723,1 8963,3 5473,4 151996,5  
∑fij*yj*xi 19,9 20,7 21,5 22,3 23,1 23,9 24,7 25,5 26,3 27,1 27,9 28,7 29,5    
i 2,1 10,9 25,8 128,4 143,6 67,0 48,0 31,4 28,1 5,6 8,5 29,9 24,0 553,4  
∑fij*(yi-yi˜)2 15,6 18,5 21,4 24,3 27,2 30,1 35,9 38,8 41,7 44,6 47,5 50,4 Всего  

Подставляя вычисленное значение коэффициента Анализ распределения случайных величин с помощью ПЭВМ - student2.ru в первое уравне­ние системы (34) и выразив из него коэффициент Анализ распределения случайных величин с помощью ПЭВМ - student2.ru , получим

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (14)

Таким образом, у нас получилась регрессионная модель зависимости высоты от диаметра деревьев в сосновом древостое следующего вида:

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (15)

или, используя другие обозначения:

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (16)

Пользуясь полученным регрессионным уравнением прямой ли­нии, определим теоретические высоты Анализ распределения случайных величин с помощью ПЭВМ - student2.ru и сумму квадратов отклоне­ний эмпирических высот от теоретических (табл. 19). Полученное значение суммы квадратов отклонений 553,4 мы можем использовать для вычисления стандартной ошибки регрессионного уравнения пря­мой:

Анализ распределения случайных величин с помощью ПЭВМ - student2.ru (17)

На рис. 12 изображено полученное регрессионное уравнение прямой линии.

Наши рекомендации