Построение вариационной кривой
Количественные признаки поддаются определенному описанию. Если измерить величину семян тыквы одного растения, то окажется, что они имеют разную длину. То же самое можно наблюдать, если измерить высоту стеблей различных особей одного сорта гороха. Следовательно, для того чтобы охарактеризовать количественные признаки организмов (величину семян или длину стебля), необходимо произвести множество измерений и определить среднее значение признака.
В качестве примера определим среднюю величину семян тыквы одного сорта. Измерим длину (в мм) 50 взятых произвольно семян.
Расположим числа, отображающие последовательное изменение признака, в порядке его увеличения: от самого малого до самого большого. Каждая величина
семени в ряду представляет собой варианту. Если расположить все значения величины семян в порядке их возрастания, то получится вариационный ряд.
Вариационный ряд- это ряд изменчивости признака, который образован отдельными значениями вариант, расположенных в порядке увеличения или уменьшения количественного выражения признака.
Для определения предела изменчивости признака определим частоту встречаемости каждой варианты. Подсчитаем количество семян, имеющих одинаковую величину. Составим на основе данных первый ряд чисел, отображающий величину изменения признака, и второй ряд чисел, соответствующий частоте встречаемости этих изменений (количество семян каждой величины).
Величина семян (мм) | ||||||||||||
Частота встречаемости признака | I | III | IV | IV | V | VI | VII | VII | VI | IV | II | I |
Таблица отражает распределение частоты встречаемости признака в зависимости от величины. Представим полученные результаты в виде графика. Для этого на оси абсцисс отложим значение отдельных вариант (величину семян), по оси ординат - числа, соответствующие частотам встречаемости каждой варианты (признака). Соединив точки на графике, получим кривую, которая является графическим выражением изменчивости признака. Вариационная кривая- это графическое выражение характера изменчивости признака, которая отражает размах вариаций и частоту встречаемости вариант (рис. 1).
Из графика видно, что варианты со средним значением встречаются наиболее часто. Варианты с двумя крайними значениями встречаются наиболее редко.
Они являются отклонениями от средней величины нормы. Чем сильнее отклонение, тем меньше частота встречаемости варианты.
Эта закономерность касается не только рассмотренного примера, а распространяется и на другие количественные признаки. Впервые на это свойство обратил внимание датский ученый В.Иогансен, изучая варьирование массы семян в чистой линии фасоли. Так как в чистой линии фасоли все семена имели одинаковый генотип, то различия в их массе были связаны с влиянием каких-либо внешних факторов (глубины заделки семян, различий в количестве влаги, структуре почвы, распределении минеральных веществ почвы). Комбинация благоприятных и неблагоприятных факторов оказывает влияние на формирование семян, что приводит к различию в массе.
Для объективной характеристики изменчивости признака определяется среднее значение по формуле:
M = ∑ u( )r• / n,
где M - средняя величина; ∑ - знак uсуммирования; - варианта; r - частота встречаемости вариант; n - общее число вариант вариационного ряда.
Определим среднее значение величины семян тыквы, исходя из данных, приведенных в таблице.
u | r | u( )r• |
n = 50 | ∑ = 679 |
M =.679 : 50 = 13,58
Средней величине признака на графике соответствует самая высокая точка.
Норма реакции.Вариационная кривая любого признака показывает распределение частоты встречаемости особей с данным значением. Для получения достоверных результатов число исследуемых вариант должнo быть достаточно большим.
В биологии по характеру вариационной кривой судят о степени изменчивости признака. Две крайние точки графика означают предел изменчивости признака, его верхнюю и нижнюю границу. Весь полигон распределения означает норму реакции признака. Норма реакции- это предел изменчивости признака, который обусловлен данным генотипом. Центральная часть графика - это средняя величина признака.
Исследуя график нормального распределения, можно сделать вывод, что наследуется не признак, а норма реакции. Она бывает широкой, т. е. изменяется в большом диапазоне, или узкой. Чем шире норма реакций, тем пластичнее признак, тем он более адаптирован к условиям среды. Это приводит к увеличению вероятности выживания вида в изменяющихся условиях. Широкой нормой реакции обладают такие признаки у человека, как вес, цвет волос; у коров - масса тела, надои молока. Узкая норма реакции характерна для таких признаков, как рост человека, степень жирности молока у коров, длина шерсти у овец. Однако есть признаки, которые остаются неизменными независимо от факторов среды. Примером может служить группа крови у человека.
Критерий Пирсона
Критерий согласия Пирсона (χ2) применяют для проверки гипотезы о соответствии эмпирического распределения предполагаемому теоретическому распределению F(x) при большом объеме выборки (n ≥ 100). Критерий применим для любых видов функции F(x), даже при неизвестных значениях их параметров, что обычно имеет место при анализе результатов механических испытаний. В этом заключается его универсальность.
Использование критерия χ2 предусматривает разбиение размаха варьирования выборки на интервалы и определения числа наблюдений (частоты) nj для каждого из e интервалов. Для удобства оценок параметров распределения интервалы выбирают одинаковой длины.
Число интервалов зависит от объема выборки. Обычно принимают: при n = 100 e = 10 ÷ 15, при n = 200 e = 15 ÷ 20, при n = 400 e = 25 ÷ 30, при n = 1000 e = 35 ÷ 40.
Интервалы, содержащие менее пяти наблюдений, объединяют с соседними. Однако, если число таких интервалов составляет менее 20 % от их общего количества, допускаются интервалы с частотой nj ≥ 2.
Статистикой критерия Пирсона служит величина
, (3.91)
где pj - вероятность попадания изучаемой случайной величины в j-и интервал, вычисляемая в соответствии с гипотетическим законом распределением F(x). При вычислении вероятности pj нужно иметь в виду, что левая граница первого интервала и правая последнего должны совпадать с границами области возможных значений случайной величины. Например, при нормальном распределении первый интервал простирается до -∞, а последний - до +∞.
Нулевую гипотезу о соответствии выборочного распределения теоретическому закону F(x) проверяют путем сравнения вычисленной по формуле (3.91) величины с критическим значением χ2α, найденным по табл. VI приложения для уровня значимости α и числа степеней свободы k = e1 - m - 1. Здесь e1 - число интервалов после объединения; m - число параметров, оцениваемых по рассматриваемой выборке. Если выполняется неравенство
χ2 ≤ χ2α (3.92)
то нулевую гипотезу не отвергают. При несоблюдении указанного неравенства принимают альтернативную гипотезу о принадлежности выборки неизвестному распределению.
Недостатком критерия согласия Пирсона является потеря части первоначальной информации, связанная с необходимостью группировки результатов наблюдений в интервалы и объединения отдельных интервалов с малым числом наблюдений. В связи с этим рекомендуется дополнять проверку соответствия распределений по критерию χ2 другими критериями. Особенно это необходимо при сравнительно малом объеме выборки (n ≈ 100).
Пример 3.18. Проверить с помощью критерия согласия χ2 гипотезу о нормальном распределении логарифма числа циклов до разрушения при усталостных испытаниях по данным табл. 2.3 и 2.4. Принять уровень значимости α = 0.05.
Все результаты вычислений приведены в табл. 3.18, данные первых трех граф которой заимствованы из табл. 2.4. В связи с малым числом наблюдений объединяем интервалы 1-й со 2-м и 9-й с 10-м и 11-м.
В 4-й графе приводим границы интервалов, выраженные через нормированную случайную величину
где xср и s - соответственно выборочное среднее значение и среднее квадратическое отклонение логарифма числа циклов до разрушения образцов. Значения этих оценок были найдены в примере 2.2, xср = lg(N) = 6.515 и s = 0.315. С помощью табл. I приложения с учетом (1.29) находим значения функции Лапласа (1.27) для границ интервалов и заносим их в 5-ю графу. Оценка вероятности попадания значений механической характеристики в интервалы (6-я графа) представляет собой разность значений функции Лапласа на правой и левой границе интервала. Если интервалы объединяются, вычисляют разность значений функции на границах объединенного интервала. Сумма чисел pj, в графе 6 всегда будет равна единице. В 7-ю графу заносят оценки математических ожиданий числа наблюдений по интервалам, которые определяем умножением оценки вероятности pj на общее число образцов в выборке n =100. Итог 7-й графы должен равняться итогу 3-й графы.
Таблица 3.18. Проверка гипотезы о нормальности распределения логарифма числа циклов до разрушения | |||||||||
j | Границы интервалов xj | Число наблюдений в интервале nj | Координаты границ интервалов zj | Значение функции Лапласа на границах интервала Φ(zj) | Оценка вероятности попадания в интервал pj | n•pj | nj-n•pj | (nj-n•pj)2/n•pj | |
5.825; 5.975 | -∞; -1.71 | 0.0000; 0.0436 | 0.1075 | 10.75 | 3.25 | 0.984 | |||
5.975; 6.125 | -1.71; -1.24 | 0.0436; 0.1075 | |||||||
6.125; 6.275 | -1.24; -0.76 | 0.1075; 0.2236 | 0.1161 | 11.61 | -1.61 | 0.223 | |||
6.275; 6.425 | -0.76; -0.29 | 0.2236; 0.3859 | 0.1623 | 16.23 | -3.23 | 0.643 | |||
6.425; 6.575 | -0.29; 0.19 | 0.3859; 0.5753 | 0.1894 | 18.94 | 2.06 | 0.224 | |||
6.575; 6.725 | 0.19; 0.67 | 0.5753; 0.7486 | 0.1733 | 17.33 | -0.33 | 0.006 | |||
6.725; 6.875 | 0.67; 1.14 | 0.7486; 0.8729 | 0.1243 | 12.43 | 1.57 | 0.198 | |||
6.875; 7.025 | 1.14; 1.61 | 0.8729; 0.9463 | 0.0734 | 7.34 | -1.34 | 0.244 | |||
7.025; 7.175 | 1.61; 2.09 | 0.9463; 0.9817 | 0.0537 | 5.37 | -0.37 | 0.025 | |||
7.175; 7.325 | 2.09; 2.57 | 0.9817; 0.9949 | |||||||
7.325; 7.475 | 2.57; +∞ | 0.9949; 1.0000 | |||||||
Сумма | 1.0000 | χ2 = 2.547 |
Сумма 9-й графы дает значение статистики χ2. В данном случае χ2 = 2.547.
По табл. VI приложения для α = 0.05 и k = 8 - 2 - 1 = 5 (8 - число интервалов после объединения, 2 - число параметров, оцениваемых по выборке, (xср, s) находим критическое значение критерия χ20.05 = 11.1. Условие (3.92) выполняется, значит опытные данные не противоречат нормальному закону распределения, т. е. нулевую гипотезу не отбрасываем. К аналогичному выводу приходим и на основании графического метода (см. рис. 2.4).
Наблюденная в данном случае величина χ2 = 2.547 соответствует фактическому уровню значимости α ≈ 0.75 (табл. VI приложения). Это означает, что если бы многократно повторить выборки по n = 100 из генеральной заведомо нормально распределенной совокупности, то значение χ2 ≥ 2.547 встречалось бы примерно в 75 %.
Пример 3.19. Проверить с помощью критерия Пирсона нулевую гипотезу о распределении числа циклов до разрушения при усталостных испытаниях по закону Вейбулла - Гнеденко (1.46) для уровня значимости α = 0.06 по данным табл. 2.3 и 2.8.
Оценки параметров функции (1.46) были произведены в примере 2.4 (b = 0.721; xH = 0.736•106 циклов и c = 3.235•106 циклов).
Вычисление статистики χ2 показано в табл. 3.19. В условиях рассматриваемого примера χ2 = 35.091.
По табл. VI приложения для α = 0.05 и k = 11 - 3 - 1 =7 (11 - число интервалов после объединения, 3 - число оцениваемых по выборке параметров) находим критическое визчеине критерия Пирсона χ20.05 = 14.1. Условие (3.92) не выполняется, значит опытные данные противоречат трехпараметрическому распределению Вейбулла - Гнеденко (1.46), т. е. нулевую гипотезу отвергаем. Нулевую гипотезу отбрасываем даже при уровне значимости α = 0.001, для которого критическое значение критерия χ20.001 = 24.3.
К аналогичному выводу приходим и на основании графического анализа (см. рис. 2.5).
Таблица 3.19 Проверка гипотезы о соответствии распределения числа циклов до разрушения трехпараметрическому распределению Вейбулла - Гнеденко | ||||||||
j | Границы интервалов, млн. циклов | Частота nj | Значение функции (1.46) | Оценка вероятности попадания в интервал, pj | npj | nj - npj | (nj - n•pj)2/npj | |
0.736; 1.4 | 0.0000; 0.2733 | 0.2733 | 27.33 | -13.33 | 6.502 | |||
1.4; 2.1 | 0.2733; 0.4152 | 0.1419 | 14.19 | -3.19 | 0.717 | |||
2.1; 2.8 | 0.4152; 0.5148 | 0.0996 | 9.96 | +3.04 | 0.928 | |||
2.8; 3.5 | 0.5148; 0.5905 | 0.0757 | 7.57 | +5.43 | 3.895 | |||
3.5; 4.2 | 0.5905; 0.6503 | 0.0598 | 5.98 | +6.02 | 6.060 | |||
4.2; 4.9 | 0.6503; 0.6987 | 0.0484 | 4.84 | +1.16 | 0.278 | |||
4.9; 5.6 | 0.6987; 0.7386 | 0.0399 | 3.99 | +6.01 | 9.053 | |||
5.6; 6.3 | 0.7386; 0.7720 | 0.0334 | 3.34 | +1.66 | 0.822 | |||
6.3; 7.0 | 0.7720; 0.8242 | 0.0522 | 5.22 | -0.25 | 0.012 | |||
7.0; 7.7 | ||||||||
7.7; 8.4 | 0.8242; 0.8624 | 0.0382 | 3.82 | +2.18 | 1.244 | |||
8.4; 9.1 | ||||||||
9.1; +∞ | 0.8624; 1.0000 | 0.1376 | 13.76 | -8.76 | 5.574 | |||
Сумма | 1.0000 | χ2 = 35.091 |
1. Понятия статистической сводки и группировки. Виды группировок
Собранный в результате статистического наблюдения статистический материал подвергается логическому и арифметическому контролю (проверке смысловой согласованности сведений первичного документа и проверке счетной согласованности). Затем приступают к статистической сводке.
Статистическая сводка– систематизация единичных фактов, позволяющая перейти к обобщающим показателям, относящимся ко всей изучаемой совокупности и ее частям, и осуществлять анализ и прогнозирование изучаемых явлений и процессов.
Сводка определяет общий размер изучаемого явления по заданным показателям, представляя общие итоги по изучаемой совокупности в целом без какой-либо предварительной систематизации собранного материала.
Статистическая сводка в широком ее понимании предполагает систематизацию и группировку данных, характеристику образованных групп системой показателей, подсчет соответствующих итогов и представление результатов сводки в виде таблиц, графиков.
Группировка – это процесс образования однородных групп на основе расчленения статистической совокупности на части или объединение изучаемых единиц в частные совокупности по существенным для них признакам.
Признаки, по которым производится распределение единиц наблюдаемой совокупности на группы, называются группировочными признаками, илиоснованием группировки.
С помощью метода группировок решаются задачи: выделение социально-экономических типов явлений; изучение структуры явления и структурных сдвигов, происходящих в нем; выявление связи и зависимости между явлениями. Для решения этих задач применяют соответственно типологические, структурные и аналитические группировки. Данная классификация видов статистических группировок по выполняемым ими задачам имеет несколько условный характер, поскольку на практике они применяются в комплексе.
Типологическаягруппировка - это расчленение разнородной совокупности на отдельные качественно однородные группы и выявление на этой основе экономических типов явления. При использовании метода типологических группировок важное значение имеет правильный выбор группировочного признака. При атрибутивном признаке с незначительным разнообразием его значений число групп определяется свойствами изучаемого явления (например, группировка предприятий по формам собственности). Выделение типов на основе количественного признака состоит в определении групп с учетом значений изучаемых признаков.
Структурнаягруппировка предназначена для изучения состава однородной совокупности по какому-либо варьирующему признаку. Другими словами, выделенные с помощью типологической группировки типы явления могут изучаться с точки зрения их структуры и состава. Однако нередко структурные группировки применяются и без предварительного расчленения совокупности на части.
Для изучения связи между отдельными признаками явления используются аналитическиегруппировки.
Образование групп по двум и более признакам называется комбинированнойгруппировкой.