Репрезентативность и ее виды
Выборочная совокупность должна быть репрезентативной (от англ. representative – представительный), т.е. должна правильно представлять генеральную совокупность, достаточно точно отражать ее свойства.
Выборка должна быть репрезентативной и в плане количества, и в плане качества.
· Количественная репрезентативность обеспечивается достаточным количеством единиц наблюдения в выборке, таким количеством, которое гарантирует получение надежных, доказательных, статистически достоверных результатов. Закон больших чисел говорит именно об этом.
· Качественная репрезентативность обеспечивается одинаковой структурой выборочной и генеральной совокупностей (по полу, возрасту, расовой принадлежности, национальности, уровню образования и пр. факторным признакам, которые могут оказать влияние на полученные результаты).
Чтобы понятнее была суть качественной репрезентативности, расскажем следующую историю. Одним из наиболее ярких примеров фиаско в истории применения статистики является заключение, сделанное при обработке результатов опроса, проведенного в США в 1936 году журналом «Literary Digest». Редакцией этого журнала было разослано 10 миллионов (!!!) опросных листов, в которых респондентам было предложено ответить на вопрос, за кого они будут голосовать на предстоящих президентских выборах – за республиканца А.Лэндона или демократа Ф.Рузвельта. Было возвращено более 2 миллионов (!!!) заполненных опросных листов. Это была огромная выборка из генеральной совокупности американских избирателей. Количественная репрезентативность такой выборки не может вызывать никаких сомнений. На основании полученных сведений с большой долей уверенности был сделан вывод, что выборы несомненно выиграет республиканец Альфред М. Лэндон. Настал день выборов. Теперь свое мнение высказали все избиратели (т.е. была получена характеристика всей генеральной совокупности). С большим отрывом, набрав более 60% голосов избирателей, победил Франклин Делано Рузвельт.
Причиной ложного статистического прогноза стало то, что выборка потенциальных избирателей, хотя и была репрезентативной в количественном отношении, не обладала качественной репрезентативностью. Работники «Literary Digest» плохо продумали технологию отбора единиц наблюдения для своего выборочного исследования. Опросные листы были разосланы людям:
· по адресам, полученным из телефонных книг,
· по адресам из полицейской базы данных о владельцах автомобилей.
Иметь телефон или автомобиль в 30-е годы ХХ века могли себе позволить только достаточно обеспеченные американцы. В выборке практически не было представителей огромной массы малообеспеченных слоев населения, которые как раз и собирались голосовать за Ф.Рузвельта.
Отсутствие репрезентативности выборки приводит к неверным результатам расчетов и некорректным выводам, т.е. к появлению статистических ошибок. Для статистики ошибки являются очень серьезной проблемой, и многие вдающиеся люди, не скрывая иронии, это отмечали. Например, великий американский писатель, журналист и общественный деятель Марк Твен (1835-1910) сказал следующее: «Существует три вида лжи – ложь, наглая ложь и статистика.» Британскому премьер-министру Бенджамину Дизраэли (1804-1881) приписывают похожее высказывание: «Имеются четыре вида лжи – ложь, наглая ложь, предвыборные обещания и статистика.» Разберемся, какие же бывают статистические ошибки, и как можно их избежать, или хотя бы уменьшить.
Статистические ошибки
Существует два принципиально разных вида статистических ошибок:
а) случайная ошибка,
б) систематическая ошибка (смещение).
А) Случайная ошибка
Случайная ошибка – это отклонение результата выборочного исследования от истинных характеристик генеральной совокупности вследствие разнообразия (вариабельности) изучаемого признака.
Если бы все единицы генеральной совокупности имели одно и то же значение изучаемого признака, то никакой случайной ошибки в статистических исследованиях не было бы.
· Если бы изучаемое лекарственное средство было одинаково эффективным для всех больных данным заболеванием, то какую бы выборку этих больных мы ни рассматривали, результаты оценки эффективности лекарства были бы всегда одинаковы – 100%.
· Если бы все студенты российских вузов были курильщиками, то какую бы выборку студентов мы ни изучали, в нее попадали бы только курящие студенты.
· Если бы все 10 летние мальчики имели рост 140 см, то в любой выборке 10-летних мальчиков средний рост был бы 140 см.
· Если бы все дети рождались с массой тела 3200 г., то в любой выборке новорожденных средняя масса тела была бы 3200 г.
Перечень примеров может быть бесконечен.
Но мир устроен иначе. Английский статистик Фрэнк Йейтс в 1937 году писал: «Большинству биологических объектов свойственна вариабельность и прелесть простоты и воспроизводимости физических или химических экспериментов утрачивается. А значит – на передний план начинают выдвигаться статистические проблемы.»
Исследователь знает, что у единиц генеральной совокупности изучаемые им учитываемые признаки имеют разные значения. А вот какие именно единицы оказались в его выборке, часто или редко встречающиеся в генеральной совокупности, исследователю неизвестно.
· Эффективность лекарств для разных людей различна. А какие люди, чувствительные или малочувствительные к этому лекарству, случайно попали в выборку, исследователь не знает.
· Исследователь, изучающий распространенность табакокурения среди студентов, не может знать, кто преимущественно попал в его выборку – студенты из числа курящих или же из числа некурящих.
· Исследователь, изучающий физическое развитие 10-летних мальчиков, понимает, что в его выборку могут случайно попасть преимущественно дети из числа невысоких или же преимущественно высокие дети.
· Исследователь, изучающий акушерские проблемы конкретной соматической патологии и замеряющий массу тела детей, которые родились у женщин с данной патологией, предполагает, что в его выборке могут случайно оказаться как преимущественно дети с малой массой, так и преимущественно с высокой массой.
Исследователь стремится изучить, охарактеризовать генеральную совокупность. Но сделать это невозможно. Тогда исследователь изучает выборку. Затем, пользуясь статистическими методами, он описывает выборочные данные, т.е. получает выборочные оценки (частоты, доли, средние и пр.). Он предполагает, что истинные характеристики генеральной совокупности несколько отличаются от полученных им выборочных оценок. Насколько отличаются? Это как раз и показывает случайная ошибка.
Кратко охарактеризуем случайную ошибку:
ü Случайная ошибка – это неизбежная ошибка любого выборочного исследования, связанная со случайностью отбора единиц из генеральной совокупности. Часть никогда не сможет абсолютно точно охарактеризовать целое, какой бы большой она ни была. При сплошном исследовании (т.е. изучении всей генеральной совокупности) случайной ошибки не будет, т.к. исследователь узнает истинные характеристики изучаемого объекта.
ü Случайная ошибка связана с количественной репрезентативностью. Величину случайной ошибки можно уменьшить, увеличив объем выборки (вспомним закон больших чисел).
ü Результаты выборочного исследования могут оказаться как завышенными, так и заниженными по сравнению с истинными характеристиками генеральной совокупности.
ü Величину случайной ошибки можно рассчитать по статистическим формулам, опираясь на оценки вариабельности признака и объем наблюдения (с этими формулами мы будем знакомиться в следующем семестре).
ü Выборочные оценки (т.е. результаты, полученные по выборке) часто представляют с указанием рассчитанной величины случайной ошибки. Поскольку выборочные оценки могут быть как завышены, так и занижены, случайную ошибку откладывают как в меньшую, так и в большую сторону, т.е. ставят знак «±» («плюс-минус»). Например:
o «При использовании лекарственного средства «А» отметили улучшение самочувствия 78,3±2,5 из 100 пациентов»
o «Распространенность табакокурения среди студентов российских вузов составляет 43,4±5,8 на 100 опрошенных»
o «Средний рост 10-летних мальчиков в городе М. составляет 138,1±1,7 см»
o «Средняя масса тела детей, родившихся у женщин с данной соматической патологией, составляет 4145±68 граммов»