Теоретические основы выборочного наблюдения

1. Теория выборочного наблюдения базируется на статисти­ческих закономерностях, которые формируются и обнаружива­ются в массовых явлениях и процессах. Это свойство закономер­ностей получило название закона больших чисел. Математической основой закона больших чисел, да и статистической науки в це­лом, служит теория вероятностей. Последняя представляет собой раздел математики, в котором изучаются случайные явления (собы­тия), имеющие устойчивую частость, а следовательно, и вероят­ность, что помогает выявлять закономерности при массовом повто­рении явлений. О законе больших чисел, теоретической и опытной вероятности в первом приближении рассказывалось в главе 2 на статистических примерах, в том числе и на хрестоматийном примере с бросанием монет.

В целях дальнейшего углубления знаний о действии закона больших чисел и теории вероятностей приведем более сложный экспериментальный пример распределения случайных величин, заимствованный из статистической литературы и приближенный к нашим проблемам.

Были взяты 10 пачек по 10 карточек, пронумерованных от 1 до 10. Каждую пачку тщательно перемешали. После этого из каждой пачки по жребию было извлечено по одной карточке. Сумма номеров вынутых карточек составила 52. Карточки были возвращены в свои пачки, которые вновь перемешивались. При втором извлечении сумма номеров вынутых карточек составила 46. Подобные операции были проделаны 30 раз. Полученные дан­ные: 52, 46, 72 и т. д. (табл. 1).

Таблица 1

Индивидуальные суммы при 30 извлечениях

На втором этапе эксперимент усложнялся: было сделано не по одному извлечению карточек из каждой пачки, а последова­тельно по 10 извлечений 30 раз, или 30 выборок. Сделав 10 извле­чений по одной карточке из каждой пачки (извлекалась одна карта, возвращалась в пачку, пачка перемешивалась, и т. д.), подсчитав общую сумму номеров вынутых карточек (526) и разделив на 10, получили среднюю сумму 52,6. Так повторили 30 раз (табл. 2).

Таблица 2

Средние суммы из 10 извлечений в 30 выборках

,6 58,4 54,6 52,6 48,6 ,0 52,8 50,8 46.0 55,8
,4 59,4 55,0 56,2 61,6 ,6 54,2 56,8 52,3 54,0
,7 55,2 56,3 52,3 53,8 .8 55,9 61,8 58,6 49,2

При проведении третьего этапа эксперимента в каждую из таких 30 случайных выборок входило уже по 40 извлечений. Сред­нее число из первых 40 извлечений составило 54,6, из вторых -51,6 и т. д. (табл. 3).

Таблица 3

Средние суммы из 40 извлечений в 30 выборках

54, 51,6 53,6 56,6 54,3 55,1 57.Л 54,4 56,0 55,
55, 54,1 55,8 55,4 56,0 53,2 55,1 54,3 54,8 54,
54, 57,2 53,2 56,0 54,5 5U. 53,7 56,0 54,8 53,

Полученные эмпирические вероятности сравнивались с тео­ретической вероятностью. Последняя в данном примере равна средней сумме номеров десяти карточек в пачке, которая пред­ставляет собой как бы среднюю в исходной совокупности. Она равняется: 1+2+3+4+5+6+7+8+9+10=55. По значению отклонений от этой средней можно судить, насколько эмпирическая вероят­ность приближается к теоретической.

Размах колебаний индивидуальных сумм (указанных в табл. 1) был самым большим и равнялся 36. Это не что иное, как разность между максимальной и минимальной суммой (они в таблицах выделены и подчеркнуты). В табл. 1 максимальная сумма равня­лась 72, минимальная 36 (72 - 36 = 36). Отклонение этих показате­лей от средней (55) было наибольшим: 72-55 = +17 и 36-55 = -19.

При выборках, состоящих каждая из 10 извлечений (см. табл. 2), размах колебаний уменьшился более чем вдвое, до 15,8 (61,8 -

- 46,0 = 15,8), а максимальные отклонения от средней составили' 61,8 -55=+6,8 и 46,0-55=-9.

В выборках, состоящих каждая из 40 извлечений, размах ко­лебаний по сравнению с результатами первой части эксперимен­та уменьшился более чем в 6 раз, составив только 5,8 (57,3-

- 51,5=5,8), Максимальные отклонения от средней равнялись при этом: 57,3-55=+2,3 и 51,5-55=-3,5.

Распределение выборочных сумм отражено на графике рис.1, на оси абсцисс которого отложены суммы выборки с указанием средней (55) в исходной совокупности, а на оси ординат — эта­пы эксперимента.

Результаты эксперимента показывают, что чем больше извле­чений, тем их усредненные показатели плотнее группируются вок­руг средней (теоретической вероятности) в исходной совокупно­сти. То есть, чем больше явлений изучено, тем надежнее получен­ные данные, тем точнее выявленные закономерности. Данный вы­вод — краеугольный камень всех статистических выборочных ис­следований.

2. Теоретические основы выборочного метода были бы не­полными, если бы мы не коснулись законов распределения слу­чайных величин, к которым подвел нас проведенный экспери­мент.

Поскольку за внешними случайными явлениями стоят скры­тые законы, то данные, характеризующие эти явления, должны распределяться определенным образом. Исходя из закона боль­ших чисел, чем больше изученная совокупность случайных явле­ний, тем должно быть более упорядоченным распределение по­лученных данных. Обратимся к результатам различных этапов эк­сперимента. Из табл. 1—3 и рис. 1 видно, что на первом этапе эксперимента при 30 индивидуальных извлечениях числовые зна­чения вынутых карточек, имея большое рассеяние, все же груп­пировались вокруг средней суммы, равной 55. На втором этапе при 30 выборках по 10 извлечений эта тенденция стала более явной, а на третьем этапе при 30 выборках по 40 извлечений -очевидной.

Представим данные табл. 3 в виде вариационного ряда, ран­жировав их от меньшего к большему по значению извлеченных карточек (табл. 4). Данные для простоты исчисления округлены до целых чисел.

Таблица 4

Усредненные суммы значений карточек (х) Частоты извлечения карточек (/) Произведения W)

Сумма S/ = 30

Сумма 1х/= 1637

Из табл. 4 видно, что с увеличением варьирующего признака (усредненной суммы значения карточек) частота извлечения этих сумм вначале увеличивается, а затем, после достижения макси­мального значения (/=8), уменьшается. Налицо закономерность. Упорядоченность изменения частот в вариационных рядах име­нуется закономерностью распределения. Данные табл. 4, изобра­женные графически в виде столбиковой диаграммы, гистограм­мы или полигона распределения, представлены на рис. 2.

Гистограмма, или полигон распределения, представляет со­бой ломаную кривую, характеризующую фактическое распреде­ление полученных данных. Она позволяет выявить лишь прибли­женную картину распределения всей (генеральной) совокупнос­ти. Чем больше выборочное изучение, тем в большей мере будут сглаживаться влияние случайных причин и явственнее будет про­ступать действительная закономерность распределения. В этом слу­чае кривая распределения фактических данных будет приближаться к теоретической кривой распределения.

В математической статистике теоретическую кривую распреде­ления обычно называют кривой Лапласа-Гаусса, или нормаль­ным распределением (рис.3).

Нормальное распределение в чистом виде при выборочных ис­следованиях в юридических или других социальных науках встре­чается нечасто. Тем не менее большинство распределений близки к нормальному. Факти­ческое распределение выбороч­ных показателей отличается от теоретического, главным обра­зом, нарушением симметрии, т. е. если в нормальном распреде­лении частоты анализируемого признака убывают по обе сторо­ны от вершины кривой равномерно, то в фактическом распреде­лении вершина кривой может быть смещена влево или вправо от теоретической средней, быть крутой с одной стороны и поло­гой — с другой (см. рис. 2). Причина таких смещений — ошибки наблюдения и сбора данных.

Распределение показателей характеризуется размахом вариа­ции и отклонением от средней.

Размах вариации (колебаний) — наиболее простой параметр измерения разброса значений варьирующего признака. Он исчис­ляется по формуле R = Хтт — Хт.п. Вспомним результаты экспери­мента. На его первом этапе размах вариации был наибольшим — 36, на втором — 15,8, на третьем — 5,8. В связи с этими данными, на первый взгляд, можно сказать, что чем меньше размах вариа­ции, тем однороднее совокупность. В действительности этот па­раметр свидетельствует лишь о значении амплитуды колебаний.

Но при одном и том же размахе вариации совокупности могут существенно различаться по структуре, т. е. быть более или менее однородными.

Наиболее полная характеристика распределения раскрывает­ся через значение отклонения всех вариант от средней или значе­ние отклонения эмпирических вариант от теоретических. Причем важно не столько отклонение каждой варианты от средней, сколь­ко среднее отклонение всех вариант от средней, или дисперсия (колеблемость, пестрота) изучаемого признака. Упрощенно мы ее тоже рассчитывали. На первом этапе эксперимента значение отклонения от среднего находилось в диапазоне от + 17 до —19, на втором — от +6,8 до -9, на третьем — от +2,3 до -3,5.

Средние величины — наиболее распространенные показатели в статистике. Это объясняется тем, что только с помощью сред­ней можно охарактеризовать совокупность по количественно ва­рьирующему признаку. Приведем пример, характерный для сту­денческой аудитории. Строгое сравнение по баллам успеваемости студентов двух или более учебных групп нельзя произвести по оценкам одного или нескольких студентов из каждой группы. Но, рассчитав средний балл по группам, можно точно сопоставить их по успеваемости.

Средняя величина может раскрыть лишь общую тенденцию изучаемого явления и только тогда, когда она выведена из боль­шого числа фактов и при изучении однородной совокупности. При несоблюдении этих условий средние показатели лишь введут в заблуждение. Примером может служить средняя заработная шта­та в нашей стране, когда в одну совокупность зачисляют и бога­тых, и бедных, разрыв в уровне обеспечения которых в 1997 г. составил соответственно 24:1.

В статистике разработано множество средних величин: степен­ные (средняя арифметическая, средняя гармоническая, средняя геометрическая и др.), мода и медиана. Каждая из средних вы­полняет свои аналитические функции. Для расчета дисперсии и других показателей выборочного наблюдения нам необходима лишь средняя арифметическая.

Средний арифметический показатель — наиболее распростра­ненный вид средних. Он используется в качестве центрального значения в рядах распределения и выполняет функцию теорети­ческой вероятности. Все другие варианты расцениваются как слу­чайные отклонения от него. Чем больше отклоняется какое-либо значение признака от среднего арифметического, тем более слу­чайным оно является.

Средняя арифметическая простая, известная из школьных учебников по математике, рассчитывается по формуле

*i + х2 +х3 + ... + *„

где xl х2, х3,..., х„ — значения признака; п — число значений.

При изучении больших совокупностей некоторые варианты име­ют большие частоты повторения. Из табл. 4, например, видно, что варианта 52 повторяется дважды, 53 — трижды, 54 — восемь раз и т. д. В этом случае целесообразнее вначале каждую варианту ум­ножить на частоту ее встречаемости, как это показано в графе (xf) упомянутой таблицы. Такое умножение в статистике называют взве­шиванием. Средняя арифметическая в данном случае именуется взвешенной и рассчитывается по формуле

_ Xl-fi+X2-f2+X3-f3+...+Xn-fa сред. азвеш.

II + 12 + /3+--+/Л

Подставляя значения из табл. 4 в эту формулу, определяем:

_ 51 • 1 + 52 • 2 + 53 • 3 + 54 • 8 + 55 • 8 + 56 • 5 + 57 • 3 _ 1637 _ 1+2 + 3 + 8 + 8 + 5 + 3 '~30~

Полученная фактическая средняя совпала с теоретической средней, которая выводилась при анализе результатов экспери­мента (см. текст после табл. 3).

Средняя арифметическая лежит в основе расчета дисперсии (колеблемости), которая представляет собой не что иное, как значение отклонения всех вариант от средней. Значение дисперсии и предопределяет объем выборочной совокупности. Чем больше дисперсия, тем больше разброс показателей от средней, а следо­вательно, нужен больший объем выборки, чтобы она была дос­таточно репрезентативной. Репрезентативность (представитель­ность) объема выборки практически не зависит от объема гене­ральной совокупности. Последняя может быть даже не известна исследователю. Предположим, что мы изучаем пьянство (как фак­тор преступности) в нашей стране. При выборочном изучении пьяниц мы не можем располагать их более или менее точным количеством в стране, республике и даже городе. Но это не будет служить большой помехой для расчета ошибки выборки или объема выборочной совокупности. При расчете этих показателей определяющей является значение дисперсии изучаемого признака, и ее надо уметь рассчитывать.

3. Расчет дисперсии качественных и количественных признаков неодинаков. Определение объема и представительности выбороч­ной совокупности, а следовательно, и дисперсии производится применительно не к преступности, административной правонару-шаемости или другим социально-правовым явлениям вообще, а лишь к их конкретным показателям. Последние могут быть каче­ственными, или арибутивными (вид преступления, содержание мотива, свойства личности и т. д.) и количественными (возраст правонарушителей, уровень образования, повторность соверше­ния преступления, сроки рассмотрения гражданских дел и т. п.). Каждый признак имеет свою дисперсию, а следовательно, и необ­ходимый объем выборки для надежного изучения. Это значит, что при выборочном изучении многих признаков, чтобы выявить со­вокупные отклонения, дисперсию надо рассчитывать по каждому из них. Иногда эти признаки исчисляются десятками и даже сот­нями. Чтобы избежать множества расчетов, можно ограничить их только в отношении тех признаков, на базе которых делаются ос­новные выводы. Общая численность выборки или ее общая репре­зентативность определяются по совокупной представительности всех параметров.

Дисперсия — это средний квадрат отклонения изучаемого при­знака от теоретического (среднего) показателя. Она характеризу­ет уровень однородности исследуемой совокупности и обознача­ется символом «а» (сигма малая в квадрате). Расчет ее примени­тельно к качественным признакам производится по одной фор­муле, а применительно к количественным — по другой.

Колеблемость качественного признака двухвариантна: совершено преступление против собственности или иное, в состоянии опья­нения правонарушителя или трезвым субъектом, по мотиву мес­ти или иным побуждениям, лицом, воспитанным в неполной или полной семье, интровертом или экстравертом и т. д. Указан­ная двухвариантность отражается в таких относительных показа­телях, как удельный вес или доля признака в общей структуре изученных явлений, в данном случае преступлений, причин, лиц, мер. Например, в 1996 г. удельный вес хулиганства составлял 6% (или 0,06), а иных преступлений — 94 (или 0,94), преступлений, совершенных в состоянии опьянения, — 36 (или 0,36), а в трез­вом состоянии 64% (или 0,64). Удельные веса многих качественных признаков могут быть взя­ты из официальной статистической отчетности правоохранитель­ных и других юридических органов, которая основывается на сплошном текущем учете, из предыдущих исследований, досто­верность результатов которых не вызывает сомнений, или других источников. Они могут быть специально получены на основе пред­варительного (пилотажного) изучения. Если удельный вес како­го-то признака неизвестен и нет возможности получить его при предварительном изучении, то исследуемая совокупность по это­му признаку условно принимается максимально неоднородной. В этом случае искомый удельный вес берется равным 50% (или 0,5). Ниже будет показано, почему удельный вес качественного при­знака, равный 50%, отражает самую высокую неоднородность со­вокупности.

При наличии удельного веса качественного признака его дис­персия рассчитывается по следующей формуле: а = Р (1 — Р), где Р — доля качественного признака, а (1 — Р) — доля иных признаков или противоположного признака.

Предположим, что надо рассчитать дисперсию такого призна­ка, как состояние опьянения при совершении каких-то преступ­лений, удельный вес которого по предварительным данным со­ставил 35% (или 0,35): о = Р({ - Р) = 0,35(1 - 0,35) - 0,23. Это и будет дисперсия изучаемого признака, пестрота или колеблемость его в изучаемой совокупности, которая в этом случае играет роль теоретической вероятности.

Дисперсия, равная 0,23, является высокой, ибо самое боль­шое значение дисперсии качественного признака не может быть выше 0,25. Таковой она вычисляется при удельном весе изучае­мого признака, равном 50%: о = 0,5(1 — 0,5) = 0,25. Все другие удельные веса, большие и меньшие 50%, дают меньшую диспер­сию, так как совокупность в этих случаях становится более одно­родной. При 60 и 40% дисперсия равна 0,24, при 70 и 30 — 0,21, при 80 и 20 — 0,16, при 90 и 10% — 0,09. Из этих расчетов видно, что самая неоднородная совокупность по качественному призна­ку бывает тогда, когда его удельный вес равен 50% (или диспер­сия равна 0,25).

Дисперсия количественного признака многовариантна. Она рас­считывается с применением средней арифметической взвешанной (ее расчет приводился выше) по формуле

г -*}f •*я •*/ Jn

где о — дисперсия; I — знак суммы; хг хг х3, ..., хп — показатели варьирующего признака; х— среднее арифметическое значение признака; fv /j, fy ...fn — часто­ты вариант варьирующего признака.

Используя эту формулу, рассчитываем дисперсию по данным табл. 4, средняя арифметическая (х) которых была равна 55:

а = [(51 - 55) • 1 + (52 - 55) • 2 + (53 - 55) - 3 + (54 - 55) • 8 + (55 - 58> • 8 +

+ (56 - 55) • 5 + (57 - 55) • з] : (1 + 2 + 3 + 8 + 8 + 5 + 3) = 16+18 + 12 + 8 + 0 + 5 + 12 71

1 +2 + 3 + 8 + 8 + 5 + 3

Возьмем другой пример расчета дисперсии количественного признака, близкого к уголовному праву и криминологии. Пред­положим, что выборочным методом было изучено 100 осужден­ных к лишению свободы. На срок 1 год (х,) было осуждено 15 че­ловек (/!); 2 года (х2) — 50 человек (/J); 3 года (х3) — 20 человек (/3); 4 года (ха) — 10 человек (/,); 5 лет (х5) — 4 человека (/5); 6 лет (х6) — 1 человек (/6).

Средний арифметический показатель наказания:

1+2+3+4+5+6 21 х =------------------------= —- = 3,5 года.

О О

о = Г(1 - 3,5) • 15 + (2 - 3,5) • 50 + (3 - 3,5) • 20 + (4 - 3,5) • 10 + (5 - 3,5) • 4 +

+ (6 - 3,5) • ll : (15 + 50 + 20 + 10+4 + 1) = 93,75 + 112,5 + 5 + 2,5 + 9 + 6,25 _ 229

= 2,29.

Таким образом, средний квадрат отклонений (дисперсия) раз­личных сроков наказания от среднего арифметического (х = 3,5 го­да) равен в данном случае 2,29 года.

Второй общепринятой мерой вариации признака является сред­нее квадратическое отклонение. Оно обозначается символом «о» (сигма малая без квадрата) и выводится как самостоятельно, так и на основе среднего квадрата отклонений, т. е. дисперсии, кото­рая обозначается «о» (сигма малая в квадрате).

Извлекая корень квадратный из дисперсии, получаем среднее квадратическое отклонение:

о = V? = •//>(! - р) - для качественных признаков;

а = Vo =

у--:

- для количественных признаков.

По этим формулам среднее квадратическое отклонение в рас­смотренных выше примерах будет равно: в первом случае ^/0,23 = = 0,48, во втором — ^/2,36 = 1,54, в третьем — ^/2,29 = 1,51.

Среднее квадратическое отклонение всегда выражается в тех именованных числах, в которых выражены варианта и средняя, т. е. в первом случае — в процентах, во втором — в номерах кар­точек, в третьем — в годах.

Не вникая в математическую сторону вопроса, скажем, что очертания симметричной кривой нормального распределения пол­ностью определяются двумя показателями — средней арифмети­ческой (х) и средним квадратическим отклонением (а). В зависи­мости от их значений она может иметь разный центр группиров­ки показателей (рис. 4), быть более удлиненной, растянутой или сжатой, компактной (рис. 5).

На рис. 4 средняя арифметическая х2 больше средней арифме­тической Хр поэтому распределение 11 сдвинуто по оси абсцисс вправо. Средние квадратические отклонения распределений I и II одинаковы (о, = о2), следовательно, одинаковы и кривые распределения. На рис. 5, наоборот, средние арифметические (х, = х2) одинаковы, поэтому центры группировки обоих распределе­ний на оси абсцисс совпадают, а среднее квадратическое откло­нение распределения II (с2) больше среднего квадратического отклонения (а,), поэтому кривая II нормального распределения оказалась более растянутой, а кривая I — компактной.

Следующее свойство сред­него квадратического отклоне­ния позволяет правильно оце­нить надежность выборочных показателей. Если площадь, ог­раниченную кривой нормаль­ного распределения, принять за 1 или 100%, то площадь, заключенная в пределах 1о вправо и влево от средней арифметической (рис. 6), со­ставит 0,683 всей площади. Это означает, что 68,3% всех изу­ченных вариант отклоняется от средней арифметической не бо­лее чем на 1а, т. е. находится в пределах (х ± о).

Площадь, заключенная в пределах 2а вправо и влево от сред­ней арифметической, составляет 0,954 всей площади, т. е. 95,4% всех единиц совокупности находится в пределах (х ± 2с). Площадь, заключенная в пределах Зо влево и вправо от средней арифмети­ческой, составляет 0,997 всей площади, или 99,7% всех единиц совокупности находится в пределах (х± Зо). Это и есть так назы­ваемое правило трех сигм, характерное для нормального распре­деления.

При проведении выборочных исследований параметры х и о, а также пределы единиц выборки (площадь выборки) всегда известны. Опираясь на них, можно с точностью ска­зать, с каким доверием следует относиться к выборочным показателям. К правилу трех сигм мы вернемся, когда при расчете ошибки выборки будем вынуждены более конкретно раскрыть коэффициент доверия, или коэффициент кратнос­ти ошибок.

Наши рекомендации