Структурные характеристики статистического ряда
Наряду со степенными средними и показателями вариации для характеристики экспериментальных данных используются т. н. структурные характеристики. Они обычно располагаются в определенных местах вариационного ряда. Ниже будут рассмотрены некоторые структурные характеристики вариационного ряда.
Мода. Значение признака, которое наиболее часто встречается в выборке, называется модой. Если речь идет о сгруппированных данных, то класс, в который попало максимальное число наблюдений, называется модальным.
Распределение, имеющее один модальный класс, называется унимодальным.Если распределение имеет два или более максимума, то такое распределение называется бимодальнымили мулътимодальнымсоответственно.
В том случае, если анализируется дискретный признак и данные сгруппированы в классы, созданные для каждого значения признака, мода непосредственно равна значению модального класса.
Если при анализе непрерывно варьирующего признака небедные данные сгруппированы в интервальный ряд, то мода может находиться в любом месте модального интервала. Ее местоположение можно оценить, смоделировав зависимость частоты от величины исследуемого признака в модальном и двух соседних с ним интервалах с помощью параболы второго порядка. Такой подход позволяет получить формулу для приближенной оценки моды:
где хт — центр модального интервала; λ— величина интервала; — частота класса, предшествующего модальному; —частота класса, следующего за модальным; fm - частота модального интервала.
Медиана.Положение экспериментальных данных достаточно хорошо характеризуется различными степенными средними. Однако в случае малой выборки на величину этих статистик могут оказывать довольно значительное влияние крайние варианты, которые являются наименее характерными элементами выборки. Этого недостатка лишена медиана, значение которой определяется наиболее типичными элементами выборки. Медиана - это значение признака, которое делит всю выборку на две равные части. Половина вариант имеет значения меньшие, чем медиана, а половина — большие.
Проще всего значение медианы определяется в случае несгруппированного набора данных. Для того чтобы определить медиану, надо предварительно упорядочить все элементы выборки по возрастанию (ранжировать). В том случае, если число элементов в выборке нечетное, мода будет равна варианте, имеющей в ранжированном ряду порядковый номер:
, т.е. , где .
В том случае, если выборка будет иметь четное число наблюдений, медиана будет находиться посередине между n/2 -m и n/2 +1 -m наблюдением, т. е.:
, где .
В том случае, если медиану надо определить для сгруппированного набора данных, начинают с того, что определяют, в каком классе она находится. Проще всего это сделать, если имеются в наличии накопленные частоты вариационного ряда. Класс, в котором находится медиана (медианный класс) - это первый класс, у которого накопленная частота окажется больше, чем n/2. В случае дискретной вариации, когда данные группировались в без интервальный вариационный ряд, значение этого класса и будет медианой. Если группировка производилась в интервальный вариационный ряд, то, предполагая, что внутри медианного интервала наблюдения располагаются равномерно, медиану можно определить по формуле:
,
где — центр медианного интервала; λ — величина интервала; n — объем выборки; j - номер медианного интервала; — накопленная частота предшествующего медианному класса; — частота медианного класса.
Квантили. Медиана делит вариационный ряд на две равные части. В более общем случае мы можем разделить вариационный ряд на две неравные части в любом соотношении. Статистики, которые отделяют от вариационного ряда определенную часть его членов, называются квантилями.
Квантили, которые отделяют от вариационного ряда 1, 2, ..., 99 процентов его членов, называются перцентилями. С помощью 99 перцентилей Р1,Р2,...,Р99 вариационный ряд делится на 100 равных частей. Девять статистик, которые делят вариационный ряд на десять одинаковых частей, называются децилями. Квартилями называют три квантиля (Q1 Q2 и Q3), которые делят вариационный ряд на четыре равные части. Они соответствуют перцентилям, отделяющим от ранжированного ряда наблюдений 25, 50 и 75% вариант соответственно:
, , .
Кроме того, квартиль и перцентиль, делящие вариационный ряд на две равные части, соответствуют медиане ряда наблюдений:
Q2=P50=Me.
На практике чаще всего используют перцентили Р3, Р10, Р25, Р50, Р75, Р90 и Р97. Определяют квантили аналогично тому, как определяют медиану. В том случае, если анализируется интервальный вариационный ряд, можно воспользоваться формулой:
,
где РL — квантиль, отделяющий от ранжированного ряда L процентов наблюдений; — центр интервала, в который попадает квантиль PL ;j — номер интервала, в который попадает квантиль PL; L — процент наблюдений в выборке, которые меньше, чем квантиль — накопленная частота интервала, предшествующего интервалу, в котором находится квантиль PL.
Чтобы определить, в каком интервале находится квантиль, следует воспользоваться накопленными частотами ряда распределения. Первый интервал, у которого накопленная частота окажется больше, чем величина L * n/100, и будет таким классом.
Рассмотрим процесс вычисления структурных характеристик на примере вариационных рядов по диаметру и высоте. Пользуясь формулами вычислим структурные характеристики для диаметров и высот:
Диаметры:
высоты