Анализ распределения случайных величин с помощью ПЭВМ
Анализ распределения случайных величин с помощью пакета Statistica 6.0 можно выполнить следующим образом.
1. Запустить программу Statistica и открыть файл с данными, как описано в подразделе 2.4.
2. Выбрав опцию «Настройка Распределения» из меню «Статистика» открыть диалоговое окно «Distribution Fitting», содержащее список распределений, для которых можно выполнить вычисления. Из данного списка надо выбрать распределение и нажать кнопку «ОК».
3. В открывшемся диалоговом окне «Fitting Continuous distributions» или «Fitting Discrete Distributions» в зависимости от того, какое распределение - непрерывное или дискретное - выбрано, нажать кнопку «Variables». После того как на экране появится еще одно диалоговое окно, содержащее список переменных, выбрать какую-нибудь переменную и нажать кнопку «ОК» для возврата в окно настройки распределения.
4. Далее во вкладке «Parameters» при необходимости можно отредактировать такие поля, как «Number of categories» - число интервалов при группировке данных, «Lower limit» - нижняя граница первого интервала, «Upper limit» - верхняя граница последнего интервала а также поля, содержащие параметры распределения.
5. Для выполнения вычислений надо нажать кнопку «Summary: Observed and expected distribution» на вкладке «Quick». На экране появится таблица, содержащая эмпирические и теоретические частоты. В данной таблице в колонке «Upper Boundary» приведены верхние границы интервалов; в колонке «Observed Frequency» эмпирические частоты; в колонке «Cumulative Observed» - накопленные эмпирические частоты; в колонке «Percent Observed» - эмпирические частоты, выраженные в процентах от общего количества наблюдений; «Cumul.% Observed» - накопленные эмпирические частоты выраженные в процентах; «Expected Frequency» - теоретические частоты; «Cumulative Expected» - накопленные теоретические частоты; «Percent Expected» - теоретические частоты, выраженные в процентах; «Cumul. % Expected» - накопленные теоретические частоты, выраженные в процентах; «Observed - Expected» - отклонение эмпирических частот от теоретических. Кроме того, в окне результатов приводится информация, необходимая для проверки нулевой гипотезы о согласованности эмпирического и теоретического распределений. Это статистика Пирсона χ2 - величина «Chi-Square», число степеней свободы - «df», и вероятность совершения ошибки первого рода (вероятность отклонения справедливой нулевой гипотезы) - «р».
6. Если на той же вкладке «Quick» нажать кнопку «Plot of observed and expected distribution», на экране появится график, на котором будут сравниваться эмпирическое (изображено в виде гистограммы) и теоретическое распределения (рис. 11). На этом же графике приведена информация для проверки гипотезы о согласованности эмпирического и теоретического распределений с помощью критерия Пирсона.
Рассмотрим процесс анализа распределения случайной величины на примере диаметров и высот деревьев. С этой целью выполним расчеты для всех непрерывных распределений, поддерживаемых пакетом Statistica. Для этого, воспользовавшись кнопкой «Variables» из диалогового окна «Fitting Continuous distributions», выбрать переменную «D» - диаметры. Установить необходимые параметры для формирования вариационного ряда, отредактировав соответствующие поля на вкладке «Parameters». Для диаметров установить следующие значения: «Number of categories»; «Lower limit»; «Upper limit». Далее, выбирая по очереди различные теоретические распределения с помощью поля с выпадающим списком «Distribution» в диалоговом окне «Fitting Continuous distributions», выполнить расчеты. Полученные результаты свести в табл. 16.
Таблица 14 ─ Анализ распределения диаметров деревьев в древостое
Распределение | Название распределения в программе Statistica | Критерий Пирсона χ2 | Число степеней свободы | Вероятность совершения ошибки 1-го рода | Критерий Колмогорова |
Нормальное | Normal | 27,30458 | 0,00029 | 0,09845 | |
Равномерное | Rectangular | 122,2485 | 0,0000 | 0,27478 | |
Экспоненциальное | Exponential | 1596,654 | 0,0000 | 0,51533 | |
Гамма | Gamma | 34,97693 | 0,00003 | 0,11144 | |
Лог-нормальное | Log-normal | 39,54262 | 0,0000 | 0,11762 | |
Хи-квадрат | Chi-Square | 325,047 | 0,0000 | 0,27746 |
Анализ полученных результатов показывает, что в отношении трех распределений (гамма, лог-нормальное, хи-квадрат) гипотезу можно принять. Гипотезы, выдвинутые в отношении других распределений, следует отвергнуть. Из трех распределений, которые хорошо подходят к экспериментальным данным, лучшим следует считать гамма распределение, так как вероятность совершения ошибки 1-го рода для него максимальная.
Аналогичным образом выполним расчеты для вариационного ряда высот.
Таблица 15 ─ Анализ распределения высот деревьев в древостое
Распределение | Название распределения в программе Statistica | Критерий Пирсона χ2 | Число степеней свободы | Вероятность совершения ошибки 1-го рода | Критерий Колмогорова |
Нормальное | Normal | 13,87523 | 0,08508 | 0,0678 | |
Равномерное | Rectangular | 74,72549 | 0,000 | 0,21211 | |
Экспоненциальное | Exponential | 419,617 | 0,000 | 0,43173 | |
Гамма | Gamma | 8,84680 | 0,35 | ||
Лог-нормальное | Log-normal | 6,50733 | 0,59059 | 0,03703 | |
Хи-квадрат | Chi-Square | 8,22051 | 0,51209 | 0,3524 |
В данном случае гипотезы в отношении всех распределений, кроме нормального, гамма и лог-нормального (лучшим следует считать нормальное распределение) следует отвергнуть, так как для них вероятность сделать при этом ошибку ниже, чем уровень значимости α = 0,05.
В рассматриваемых примерах с помощью программы Statistica были получены несколько иные значения, чем ранее, когда мы подробно рассматривали процесс вычисления теоретических частот и проверку гипотезы о нормальном распределении диаметров и высот. Это вызвано тем, что в программе Statistica параметры нормального распределения оценивались на основании исходных данных без выполнения группировки. В рассматриваемом ранее примере вычисления выполнялись по данным интервальных вариационных рядов, что всегда связано с потерей точности. Кроме того, при вычислениях функции нормального распределения программа Statistica использует аппроксимирующие алгоритмы, а в первом варианте расчета применялись табличные значения функции нормального распределения. С учетом сказанного, целесообразно принять во внимание результаты, полученные с помощью программы Statistica, и принять гипотезу о нормальном распределении высот.
Корреляционный анализ
В предыдущих разделах высоты и диаметры анализировались по отдельности, вне связи друг с другом. Однако в природе многие случайные величины в той или иной степени связаны друг с другом. Для того чтобы оценить тесноту связи между случайными величинами, удобно использовать коэффициент корреляции. Его можно вычислить по формуле
(8)
Данный показатель оценивает тесноту связи между случайными величинами в случае линейных зависимостей, однако в природе чаще встречаются нелинейные. В таких случаях коэффициент корреляции не может выразить всю полноту связи. Для нелинейных зависимостей лучше использовать показатель, предложенный Пирсоном, который называется корреляционным отношением. Он вычисляется как квадратный корень из отношения межгрупповой дисперсии зависимой случайной величины к ее общей дисперсии. В данном случае группы формируются в пределах интервалов вариационного ряда независимой переменной. Корреляционное отношение можно вычислить с помощью следующей формулы:
(9)
Стандартные ошибки коэффициента корреляции и корреляционного отношения можно оценить с помощью выражений:
(10)
и
(11)
По соотношению величины коэффициента корреляции и корреляционного отношения можно сделать вывод о характере связи: прямолинейна она или криволинейна. Чем значительнее корреляционное отношение превышает коэффициент корреляции, тем более криволинейной является эта связь. Для оценки степени криволинейности связи вычисляют меру криволинейности как разницу между квадратами корреляционного отношения и коэффициента корреляции:
(12)
Вычислим рассмотренные выше показатели связи для пары случайных величин - диаметры и высоты деревьев в древостое. Для того, чтобы выполнить вычисления, составим вспомогательную табл. 18. Подставляя значения сумм из данной таблицы в формулы (8) и (9), получим
или
Теперь, пользуясь выражениями (9) и (10), вычислим стандартные ошибки коэффициента корреляции и корреляционного отношения
Полученные результаты говорят о том, что между диаметрами и высотами деревьев в древостое существует связь, а тот факт, что корреляционное отношение значительно превышает коэффициент корреляции, показывает нам, что эта зависимость скорее криволинейная, чем прямолинейная. Вычислим, пользуясь формулой (31), меру криволинейности для зависимости высот и диаметров:
Таблица 16 ─ Вспомогательная таблица для вычисления коэффициента корреляции и корреляционного отношения
H\D | 15,6 | 18,5 | 21,4 | 24,3 | 27,2 | 30,1 | 35,9 | 38,8 | 41,7 | 44,6 | 47,5 | 50,4 | Всего | Yi-ȳ | |
29,4 | 4,94 | ||||||||||||||
28,5 | 4,04 | ||||||||||||||
27,6 | 3,14 | ||||||||||||||
26,7 | 2,24 | ||||||||||||||
25,8 | 1,34 | ||||||||||||||
24,9 | 0,44 | ||||||||||||||
-0,46 | |||||||||||||||
23,1 | -1,36 | ||||||||||||||
22,2 | -2,26 | ||||||||||||||
21,3 | -3,16 | ||||||||||||||
20,4 | -4,06 | ||||||||||||||
19,5 | -4,96 | ||||||||||||||
18,6 | -5,86 | ||||||||||||||
17,7 | -6,76 | ||||||||||||||
Итого | |||||||||||||||
ȳx | 19,20 | 19,11 | 21,95 | 23,37 | 24,39 | 24,73 | 25,04 | 25,80 | 26,15 | 26,55 | 26,48 | 26,96 | 27,15 | ||
ȳx-ȳ | -5,26 | -5,35 | -2,51 | -1,09 | -0,07 | 0,27 | 0,58 | 1,34 | 1,69 | 2,09 | 2,02 | 2,50 | 2,69 | ||
fx(ȳx-ȳ)^2 | 83,00 | 200,04 | 113,40 | 32,28 | 0,14 | 2,19 | 6,44 | 43,09 | 51,41 | 26,21 | 16,24 | 43,65 | 28,94 | 647,03 | |
xi-X | -15,25 | -12,35 | -9,45 | -6,55 | -3,65 | -0,75 | 2,15 | 5,05 | 7,95 | 10,85 | 13,75 | 16,65 | 19,55 | ||
240,645 | 462,137 | 426,951 | 193,356 | 7,738 | -6,18 | 23,779 | 162,408 | 241,839 | 136,059 | 110,825 | 291,042 | 210,358 | 2500,957 |
Регрессионный анализ
В предыдущем разделе было установлено, что между диаметрами и высотами деревьев существует связь. Наличие связи между случайными величинами, как правило, ставит перед исследователем следующую задачу - построение модели этой связи. Эта задача чаще всего решается с помощью регрессионного анализа. В данном случае наличие модели, позволяющей оценивать значения высот деревьев в древостое исходя из их диаметра, может оказать большую практическую пользу, так как трудоемкость измерения высоты растущего дерева значительно выше, чем трудоемкость измерения его диаметра.
Для построения регрессионного уравнения связи используют метод наименьших квадратов, позволяющий оценить коэффициенты уравнения заданного вида таким образом, чтобы сумма квадратов отклонений эмпирических значений зависимой переменной от теоретических значений была наименьшей.
Оценка коэффициентов прямой
Для того чтобы получить оценку коэффициентов и уравнения прямой линии методом наименьших квадратов, следует решить систему нормальных уравнений:
(10)
Рассмотрим процесс вычисления коэффициентов уравнения прямой, моделирующей зависимость между высотами и диаметрами. Для этого на основе корреляционной решетки (табл. 4) составим вспомогательную таблицу для вычисления всех необходимых сумм (табл. 17). В данной таблице суммы вычисляются сначала по интервалам, а затем складываются. Подставив значения сумм в систему нормальных уравнений (10), получим
(11)
Решим полученную систему уравнений. Для этого разделим каждое из уравнений системы (12) на коэффициенты при параметре :
(12)
Теперь вычтем первое уравнение системы (14) из второго:
(13)
и выразим из полученного уравнения (15) коэффициент :
(14)
Таблица 17 ─ Вспомогательная таблица для вычисления коэффициента регрессии прямой
H\D | 15,6 | 18,5 | 21,4 | 24,3 | 27,2 | 30,1 | 35,9 | 38,8 | 41,7 | 44,6 | 47,5 | 50,4 | Всего | ||
29,4 | 58,8 | ||||||||||||||
28,5 | |||||||||||||||
27,6 | 331,2 | ||||||||||||||
26,7 | 667,5 | ||||||||||||||
25,8 | |||||||||||||||
24,9 | 647,4 | ||||||||||||||
23,1 | 438,9 | ||||||||||||||
22,2 | 355,2 | ||||||||||||||
21,3 | 149,1 | ||||||||||||||
20,4 | |||||||||||||||
19,5 | |||||||||||||||
18,6 | 55,8 | ||||||||||||||
29,4 | 4821,9 | ||||||||||||||
fx | 46,8 | 129,5 | 385,2 | 656,1 | 870,4 | 933,1 | 627,0 | 861,6 | 698,4 | 250,2 | 178,4 | 332,5 | 201,6 | 6170,8 | |
∑fi*xi | 730,1 | 2395,8 | 8243,3 | 15943,2 | 23674,9 | 28086,3 | 20691,0 | 30931,4 | 27097,9 | 10433,3 | 7956,6 | 15793,8 | 10160,6 | 202138,3 | |
∑fi*xi2 | 898,6 | 1820,4 | 8076,4 | 14900,8 | 21232,3 | 23071,7 | 15701,4 | 22229,3 | 18263,2 | 6642,8 | 4723,1 | 8963,3 | 5473,4 | 151996,5 | |
∑fij*yj*xi | 19,9 | 20,7 | 21,5 | 22,3 | 23,1 | 23,9 | 24,7 | 25,5 | 26,3 | 27,1 | 27,9 | 28,7 | 29,5 | ||
y̅i | 2,1 | 10,9 | 25,8 | 128,4 | 143,6 | 67,0 | 48,0 | 31,4 | 28,1 | 5,6 | 8,5 | 29,9 | 24,0 | 553,4 | |
∑fij*(yi-yi˜)2 | 15,6 | 18,5 | 21,4 | 24,3 | 27,2 | 30,1 | 35,9 | 38,8 | 41,7 | 44,6 | 47,5 | 50,4 | Всего |
Подставляя вычисленное значение коэффициента в первое уравнение системы (34) и выразив из него коэффициент , получим
(14)
Таким образом, у нас получилась регрессионная модель зависимости высоты от диаметра деревьев в сосновом древостое следующего вида:
(15)
или, используя другие обозначения:
(16)
Пользуясь полученным регрессионным уравнением прямой линии, определим теоретические высоты и сумму квадратов отклонений эмпирических высот от теоретических (табл. 19). Полученное значение суммы квадратов отклонений 553,4 мы можем использовать для вычисления стандартной ошибки регрессионного уравнения прямой:
(17)
На рис. 12 изображено полученное регрессионное уравнение прямой линии.