Раздел ii. основные понятия и термины
БИОЛОГИЧЕСКОЙ СТАТИСТИКИ
Генеральная совокупность и выборка
Пусть требуется изучить множество однородных объектов (это множество называется статистической совокупностью) относительно некоторого качественного или количественного признака, характеризующего эти объекты. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным — контролируемый размер детали.
Лучше всего произвести сплошное обследование, т. е. изучить каждый объект. Однако в большинстве случаев по разным причинам это сделать невозможно. Препятствовать сплошному обследованию может большое число объектов, недоступность их. Если, например, нужно знать среднюю глубину воронки при взрыве снаряда из опытной партии, то, производя сплошное обследование, мы уничтожим всю партию.
Если сплошное обследование невозможно, то из всей совокупности выбирают для изучения часть объектов.
Множество объектов, конечное или бесконечное, относительно которого делаются статистические выводы, носит название генеральной совокупности. Реально же мы имеем дело с конечными генеральными совокупностями, размеры которых, правда, могут колебаться в очень широких пределах.
Например, вся генеральная совокупность уссурийских тигров насчитывает около двухсот особей, в то время как число таких деревьев, как березы или осины, измеряется миллионами. В статистических выводах важен не сам по себе объем генеральной совокупности, а та доля от него, которую составляет выборка. Во всех случаях, когда объем выборки меньше сотой части всей генеральной совокупности, последнюю по отношению к выборке принято считать практически бесконечной и использовать математический аппарат, основанный на таком представлении.
Множество объектов, случайно отобранных из генеральной совокупности, называется выборкой.
Плоды одного дерева (200 штук) обследуют на наличие специфического для данного сорта вкуса. Для этого отбирают 10 шт. Здесь 200 — объем генеральной совокупности, а 10 — объем выборки.
Число объектов генеральной совокупности и выборки называется соответственно объемом генеральной совокупности и объемом выборки.
Если выборку отбирают по одному объекту, который обследуют, и снова возвращают в генеральную совокупность, то выборка называется повторной. Если объекты выборки уже не возвращаются в генеральную совокупность, то выборка называется бесповторной. На практике чаще используется бесповторная выборка. Если объем выборки составляет небольшую долю объема генеральной совокупности, то разница между повторной и бесповторной незначительна.
Непреднамеренный отбор. Метод последовательных номеров.
Случайный и механический методы отбора
Особенностью биологических исследований является то, что подопытный материал, находящийся в распоряжении исследователя, поступает к нему случайно. Поэтому не всегда удается соблюсти метод случайного отбора. Пренебрежение методами случайного отбора приводит к тому, что результаты одинаковых исследований различны у различных исследователей.
Можно опять применить случайный отбор по таблице случайных чисел. Кроме этого существует метод, называемый механическим (Россия) или систематическим (США, Англия). Сущность этого метода в следующем: делят общее число случаев на число случаев, за которыми надо наблюдать, и получают так называемую интервальную стопу. Затем по таблице находят первое число и 5, 10, 15, 20.
Признаки и показатели
ПРИЗНАКОМ в статистике называют свойство, характерную черту или иную особенность единиц совокупности, которые могут быть наблюдаемы и измерены. Признаки, принимающие различные значения или видоизменения у отдельных единиц совокупности, называются варьирующими, а отдельные их значения или видоизменения - вариантами.
В литературе приняты различные принципы классификации признаков по шкалам измерений. Классификация в зависимости от числа допустимых арифметических операций над признаками, измеренными в данных шкалах, включает:
Номинальные признаки (признаки с неупорядоченными состояниями, классификационные признаки), например: велосипед, мотоцикл, автомобиль. Номинальные признаки могут быть оцифрованы — 0,1,2, однако смысла эти цифры, за исключением возможности различать признаки между собой, не имеют. Частным случаем номинальных признаков являются бинарные (качественные, дихотомические) признаки, представляющие собой номинальные признаки с двумя градациями, например: «нет» — 0, «да» — 1. Рекомендуется для бинарных признаков использовать оцифровку типа 0 и 1, а не какую-либо иную (например, -1 и +1), так как только эти две цифры предполагается использовать в методах анализа бинарных признаков.
Порядковые признаки (признаки с упорядоченными состояниями, ординальные признаки), например: отлично, хорошо, удовлетворительно, плохо. Порядок состояний имеет смысл, признаки могут быть осмысленно оцифрованы (в данном примере: 5, 4, 3, 2) и могут сравниваться между собой, однако расстояния между ними не определены. Как и предыдущие, подобного типа признаки часто используются в задачах диагностики, в том числе медицинской.
Количественные (численные, вариационные) признаки, иногда подразделяемые на интервальные и относительные, различающиеся положением нулевой отметки на шкале измерения. Например, год рождения — относительный количественный признак, а срок службы в рядах вооруженных сил — интервальный количественный признак. Если в первом примере определены только операции различения, сравнения и вычитания, то во втором к ним добавляются операции сложения и отношения. Численные признаки определяют измеряемые или исчислимые количества (величины) и являются истинными количественными, причем могут измеряться как непрерывные, так и целочисленные признаки.
Действия над признаками, измеренными в различных шкалах
Шкала измерения | Допустимые действия | Пример применения |
Номинальная | Различение | Наличие или отсутствие симптома |
Порядковая | Различение, сравнение | Школьная оценка |
Количественная | Различение, сравнение, все арифметические операции | Температура, масса, время, длина |
Шкалы могут приводиться одна к другой: количественная шкала — к порядковой или номинальной, порядковая шкала — к номинальной. Обратные операции считаются некорректными. Приведение одной шкалы к другой обычно называют понижением шкалы. Приведение признаков к шкале, отличной от тех, в которых первоначально признаки были измерены, необходимо при анализе групп признаков, измеренных в разных шкалах. Понижение шкалы ведет к потере некоторой части информации об изучаемых признаках.
Правила ранжирования
Использование порядковой шкалы позволяет присваивать ранги объектам по какому-либо признаку. Таким образом, метрические значения переводятся в ранговые. При этом фиксируются различия в степени выраженности свойств. В процессе ранжирования следует придерживаться 2 правил.
Правило порядка ранжирования. Надо решить, кто получает первый ранг: объект с самой большей степенью выраженности какого-либо качества или наоборот. Чаще всего это абсолютно безразлично и не отражается на конечном результате. Традиционно принято первый ранг приписывать объектам с большей степенью выраженности качества (большему значению – меньший ранг). Например, чемпиону присуждают первое место, а не наоборот. Хотя, и здесь если бы был принят обратный порядок, то результаты от этого не изменились бы. Так что порядок ранжирования каждый исследователь вправе определять сам. Например, Е.В. Сидоренко рекомендует меньшему значению приписывать меньший ранг. В некоторых случаях это удобнее, но непривычнее.
Например: имеется неупорядоченная выборка, данные которой необходимо проранжировать. {2, 7, 6, 8, 11, 15, 9}. После упорядочивания выборки ранжируем ее.
Метрические данные | Ранги | Альтернативный вариант: | Метрические данные | Ранги |
Отдельно следует сказать следующее. Существует группа редко используемых непараметрических критериев (Т-критерий Вилкоксона, U-критерий Манна-Уитни, Q-критерий Розенбаума и др.), при работе с которыми всегда надо меньшему значению приписывать меньший ранг.
Правило связанных рангов. Объектам с одинаковой выраженностью свойств приписывается один и тот же ранг. Этот ранг представляет собой среднее значение тех рангов, которые они получили бы, если бы не были равны. Например, надо проранжировать выборку, содержащую ряд одинаковых метрических данных: {4, 5, 9, 2, 6, 5, 9, 7, 5, 12}. После упорядочивания выборки следует вычислить среднее арифметическое значение связанных рангов.
Метрические данные | Предварительное ранжирование | Окончательное ранжирование |
(2+3)/2=2,5 | ||
(2+3)/2=2,5 | ||
(6+7+8)/3=7 | ||
(6+7+8)/3=7 | ||
(6+7+8)/3=7 | ||
Рассмотренная классификация признаков по шкалам измерений не исчерпывает всех мыслимых типов классификаций. Так, для применения статистических методов, оперирующих частотами распределений, более существенной может оказаться классификация по такому критерию, как непрерывность теоретической функции эмпирического распределения. Для других методов определяющим является решение вопроса о том, какому теоретическому типу распределения соответствует эмпирическое распределение либо, в более узком смысле, является ли распределение нормальным. Если же различать условия исследования того или иного явления, признаки могут подразделяться на факториальные признаки (причина) и результативные признаки (следствие). Успех применения любого метода зависит от того, насколько хорошо анализируемые данные соответствуют основным предположениям, принятым при разработке статистического метода. Методы анализа, разработанные для определенного типа признаков, могут привести к совершенно неверным выводам при их применении к признакам другого типа, поэтому нужно быть особенно внимательным при выборе метода, адекватного анализируемым данным. Тип исходных данных определяет, какими методами эти данные могут быть обработаны. Формулы нельзя применять слепо и автоматически, без рассмотрения вопроса об их пригодности в каждом данном случае.
ПОКАЗАТЕЛЬ - одно из основных понятий статистики, под которым имеется в виду обобщенная количественная характеристика явлений и процессов в их качественной определенности в условиях конкретного места и времени. Примерами конкретных показателей служат: численность населения, плодородие почв, уровень производительности труда и др.
Величина показателя определяется в результате измерения объектов (элементов) и меняется в зависимости от методологических особенностей его построения обусловленных, в свою очередь степенью охвата изучаемых процессов.
Показатели называются натуральными, когда они выражены в единицах счета или в различных физических единицах измерения (в мерах линейных, площади, объема, массы и др.), и денежными, или стоимостными, когда они представляют собой денежную оценку экономических объектов.
ВАРИАЦИЯ - различия в значениях того или иного признака у отдельных единиц, входящих в данную статистическую совокупность. Например, студенты учебной группы различаются по успеваемости, затратам времени на подготовку к занятиям, любимым занятиям в свободное время, росту, полу и т. д. Для изучения вариации используют ряды распределения и показатели размеров вариации. Изучение вариации позволяет судить об исходных данных с точки зрения их однородности. Чем больше вариация, больше различия между единицами, тем более неоднородны исходные данные.