Теоретические основы выборочного наблюдения
1. Теория выборочного наблюдения базируется на статистических закономерностях, которые формируются и обнаруживаются в массовых явлениях и процессах. Это свойство закономерностей получило название закона больших чисел. Математической основой закона больших чисел, да и статистической науки в целом, служит теория вероятностей. Последняя представляет собой раздел математики, в котором изучаются случайные явления (события), имеющие устойчивую частость, а следовательно, и вероятность, что помогает выявлять закономерности при массовом повторении явлений. О законе больших чисел, теоретической и опытной вероятности в первом приближении рассказывалось в главе 2 на статистических примерах, в том числе и на хрестоматийном примере с бросанием монет.
В целях дальнейшего углубления знаний о действии закона больших чисел и теории вероятностей приведем более сложный экспериментальный пример распределения случайных величин, заимствованный из статистической литературы и приближенный к нашим проблемам.
Были взяты 10 пачек по 10 карточек, пронумерованных от 1 до 10. Каждую пачку тщательно перемешали. После этого из каждой пачки по жребию было извлечено по одной карточке. Сумма номеров вынутых карточек составила 52. Карточки были возвращены в свои пачки, которые вновь перемешивались. При втором извлечении сумма номеров вынутых карточек составила 46. Подобные операции были проделаны 30 раз. Полученные данные: 52, 46, 72 и т. д. (табл. 1).
Таблица 1
Индивидуальные суммы при 30 извлечениях
На втором этапе эксперимент усложнялся: было сделано не по одному извлечению карточек из каждой пачки, а последовательно по 10 извлечений 30 раз, или 30 выборок. Сделав 10 извлечений по одной карточке из каждой пачки (извлекалась одна карта, возвращалась в пачку, пачка перемешивалась, и т. д.), подсчитав общую сумму номеров вынутых карточек (526) и разделив на 10, получили среднюю сумму 52,6. Так повторили 30 раз (табл. 2).
Таблица 2
Средние суммы из 10 извлечений в 30 выборках
,6 | 58,4 | 54,6 | 52,6 | 48,6 | ,0 | 52,8 | 50,8 | 46.0 | 55,8 | ||
,4 | 59,4 | 55,0 | 56,2 | 61,6 | ,6 | 54,2 | 56,8 | 52,3 | 54,0 | ||
,7 | 55,2 | 56,3 | 52,3 | 53,8 | .8 | 55,9 | 61,8 | 58,6 | 49,2 |
При проведении третьего этапа эксперимента в каждую из таких 30 случайных выборок входило уже по 40 извлечений. Среднее число из первых 40 извлечений составило 54,6, из вторых -51,6 и т. д. (табл. 3).
Таблица 3
Средние суммы из 40 извлечений в 30 выборках
54, | 51,6 | 53,6 | 56,6 | 54,3 | 55,1 | 57.Л | 54,4 | 56,0 | 55, | ||
55, | 54,1 | 55,8 | 55,4 | 56,0 | 53,2 | 55,1 | 54,3 | 54,8 | 54, | ||
54, | 57,2 | 53,2 | 56,0 | 54,5 | 5U. | 53,7 | 56,0 | 54,8 | 53, |
Полученные эмпирические вероятности сравнивались с теоретической вероятностью. Последняя в данном примере равна средней сумме номеров десяти карточек в пачке, которая представляет собой как бы среднюю в исходной совокупности. Она равняется: 1+2+3+4+5+6+7+8+9+10=55. По значению отклонений от этой средней можно судить, насколько эмпирическая вероятность приближается к теоретической.
Размах колебаний индивидуальных сумм (указанных в табл. 1) был самым большим и равнялся 36. Это не что иное, как разность между максимальной и минимальной суммой (они в таблицах выделены и подчеркнуты). В табл. 1 максимальная сумма равнялась 72, минимальная 36 (72 - 36 = 36). Отклонение этих показателей от средней (55) было наибольшим: 72-55 = +17 и 36-55 = -19.
При выборках, состоящих каждая из 10 извлечений (см. табл. 2), размах колебаний уменьшился более чем вдвое, до 15,8 (61,8 -
- 46,0 = 15,8), а максимальные отклонения от средней составили' 61,8 -55=+6,8 и 46,0-55=-9.
В выборках, состоящих каждая из 40 извлечений, размах колебаний по сравнению с результатами первой части эксперимента уменьшился более чем в 6 раз, составив только 5,8 (57,3-
- 51,5=5,8), Максимальные отклонения от средней равнялись при этом: 57,3-55=+2,3 и 51,5-55=-3,5.
Распределение выборочных сумм отражено на графике рис.1, на оси абсцисс которого отложены суммы выборки с указанием средней (55) в исходной совокупности, а на оси ординат — этапы эксперимента.
Результаты эксперимента показывают, что чем больше извлечений, тем их усредненные показатели плотнее группируются вокруг средней (теоретической вероятности) в исходной совокупности. То есть, чем больше явлений изучено, тем надежнее полученные данные, тем точнее выявленные закономерности. Данный вывод — краеугольный камень всех статистических выборочных исследований.
2. Теоретические основы выборочного метода были бы неполными, если бы мы не коснулись законов распределения случайных величин, к которым подвел нас проведенный эксперимент.
Поскольку за внешними случайными явлениями стоят скрытые законы, то данные, характеризующие эти явления, должны распределяться определенным образом. Исходя из закона больших чисел, чем больше изученная совокупность случайных явлений, тем должно быть более упорядоченным распределение полученных данных. Обратимся к результатам различных этапов эксперимента. Из табл. 1—3 и рис. 1 видно, что на первом этапе эксперимента при 30 индивидуальных извлечениях числовые значения вынутых карточек, имея большое рассеяние, все же группировались вокруг средней суммы, равной 55. На втором этапе при 30 выборках по 10 извлечений эта тенденция стала более явной, а на третьем этапе при 30 выборках по 40 извлечений -очевидной.
Представим данные табл. 3 в виде вариационного ряда, ранжировав их от меньшего к большему по значению извлеченных карточек (табл. 4). Данные для простоты исчисления округлены до целых чисел.
Таблица 4
Усредненные суммы значений карточек (х) | Частоты извлечения карточек (/) | Произведения W) |
Сумма S/ = 30
Сумма 1х/= 1637
Из табл. 4 видно, что с увеличением варьирующего признака (усредненной суммы значения карточек) частота извлечения этих сумм вначале увеличивается, а затем, после достижения максимального значения (/=8), уменьшается. Налицо закономерность. Упорядоченность изменения частот в вариационных рядах именуется закономерностью распределения. Данные табл. 4, изображенные графически в виде столбиковой диаграммы, гистограммы или полигона распределения, представлены на рис. 2.
Гистограмма, или полигон распределения, представляет собой ломаную кривую, характеризующую фактическое распределение полученных данных. Она позволяет выявить лишь приближенную картину распределения всей (генеральной) совокупности. Чем больше выборочное изучение, тем в большей мере будут сглаживаться влияние случайных причин и явственнее будет проступать действительная закономерность распределения. В этом случае кривая распределения фактических данных будет приближаться к теоретической кривой распределения.
В математической статистике теоретическую кривую распределения обычно называют кривой Лапласа-Гаусса, или нормальным распределением (рис.3).
Нормальное распределение в чистом виде при выборочных исследованиях в юридических или других социальных науках встречается нечасто. Тем не менее большинство распределений близки к нормальному. Фактическое распределение выборочных показателей отличается от теоретического, главным образом, нарушением симметрии, т. е. если в нормальном распределении частоты анализируемого признака убывают по обе стороны от вершины кривой равномерно, то в фактическом распределении вершина кривой может быть смещена влево или вправо от теоретической средней, быть крутой с одной стороны и пологой — с другой (см. рис. 2). Причина таких смещений — ошибки наблюдения и сбора данных.
Распределение показателей характеризуется размахом вариации и отклонением от средней.
Размах вариации (колебаний) — наиболее простой параметр измерения разброса значений варьирующего признака. Он исчисляется по формуле R = Хтт — Хт.п. Вспомним результаты эксперимента. На его первом этапе размах вариации был наибольшим — 36, на втором — 15,8, на третьем — 5,8. В связи с этими данными, на первый взгляд, можно сказать, что чем меньше размах вариации, тем однороднее совокупность. В действительности этот параметр свидетельствует лишь о значении амплитуды колебаний.
Но при одном и том же размахе вариации совокупности могут существенно различаться по структуре, т. е. быть более или менее однородными.
Наиболее полная характеристика распределения раскрывается через значение отклонения всех вариант от средней или значение отклонения эмпирических вариант от теоретических. Причем важно не столько отклонение каждой варианты от средней, сколько среднее отклонение всех вариант от средней, или дисперсия (колеблемость, пестрота) изучаемого признака. Упрощенно мы ее тоже рассчитывали. На первом этапе эксперимента значение отклонения от среднего находилось в диапазоне от + 17 до —19, на втором — от +6,8 до -9, на третьем — от +2,3 до -3,5.
Средние величины — наиболее распространенные показатели в статистике. Это объясняется тем, что только с помощью средней можно охарактеризовать совокупность по количественно варьирующему признаку. Приведем пример, характерный для студенческой аудитории. Строгое сравнение по баллам успеваемости студентов двух или более учебных групп нельзя произвести по оценкам одного или нескольких студентов из каждой группы. Но, рассчитав средний балл по группам, можно точно сопоставить их по успеваемости.
Средняя величина может раскрыть лишь общую тенденцию изучаемого явления и только тогда, когда она выведена из большого числа фактов и при изучении однородной совокупности. При несоблюдении этих условий средние показатели лишь введут в заблуждение. Примером может служить средняя заработная штата в нашей стране, когда в одну совокупность зачисляют и богатых, и бедных, разрыв в уровне обеспечения которых в 1997 г. составил соответственно 24:1.
В статистике разработано множество средних величин: степенные (средняя арифметическая, средняя гармоническая, средняя геометрическая и др.), мода и медиана. Каждая из средних выполняет свои аналитические функции. Для расчета дисперсии и других показателей выборочного наблюдения нам необходима лишь средняя арифметическая.
Средний арифметический показатель — наиболее распространенный вид средних. Он используется в качестве центрального значения в рядах распределения и выполняет функцию теоретической вероятности. Все другие варианты расцениваются как случайные отклонения от него. Чем больше отклоняется какое-либо значение признака от среднего арифметического, тем более случайным оно является.
Средняя арифметическая простая, известная из школьных учебников по математике, рассчитывается по формуле
*i + х2 +х3 + ... + *„
где xl х2, х3,..., х„ — значения признака; п — число значений.
При изучении больших совокупностей некоторые варианты имеют большие частоты повторения. Из табл. 4, например, видно, что варианта 52 повторяется дважды, 53 — трижды, 54 — восемь раз и т. д. В этом случае целесообразнее вначале каждую варианту умножить на частоту ее встречаемости, как это показано в графе (xf) упомянутой таблицы. Такое умножение в статистике называют взвешиванием. Средняя арифметическая в данном случае именуется взвешенной и рассчитывается по формуле
_ Xl-fi+X2-f2+X3-f3+...+Xn-fa сред. азвеш.
II + 12 + /3+--+/Л
Подставляя значения из табл. 4 в эту формулу, определяем:
_ 51 • 1 + 52 • 2 + 53 • 3 + 54 • 8 + 55 • 8 + 56 • 5 + 57 • 3 _ 1637 _ 1+2 + 3 + 8 + 8 + 5 + 3 '~30~
Полученная фактическая средняя совпала с теоретической средней, которая выводилась при анализе результатов эксперимента (см. текст после табл. 3).
Средняя арифметическая лежит в основе расчета дисперсии (колеблемости), которая представляет собой не что иное, как значение отклонения всех вариант от средней. Значение дисперсии и предопределяет объем выборочной совокупности. Чем больше дисперсия, тем больше разброс показателей от средней, а следовательно, нужен больший объем выборки, чтобы она была достаточно репрезентативной. Репрезентативность (представительность) объема выборки практически не зависит от объема генеральной совокупности. Последняя может быть даже не известна исследователю. Предположим, что мы изучаем пьянство (как фактор преступности) в нашей стране. При выборочном изучении пьяниц мы не можем располагать их более или менее точным количеством в стране, республике и даже городе. Но это не будет служить большой помехой для расчета ошибки выборки или объема выборочной совокупности. При расчете этих показателей определяющей является значение дисперсии изучаемого признака, и ее надо уметь рассчитывать.
3. Расчет дисперсии качественных и количественных признаков неодинаков. Определение объема и представительности выборочной совокупности, а следовательно, и дисперсии производится применительно не к преступности, административной правонару-шаемости или другим социально-правовым явлениям вообще, а лишь к их конкретным показателям. Последние могут быть качественными, или арибутивными (вид преступления, содержание мотива, свойства личности и т. д.) и количественными (возраст правонарушителей, уровень образования, повторность совершения преступления, сроки рассмотрения гражданских дел и т. п.). Каждый признак имеет свою дисперсию, а следовательно, и необходимый объем выборки для надежного изучения. Это значит, что при выборочном изучении многих признаков, чтобы выявить совокупные отклонения, дисперсию надо рассчитывать по каждому из них. Иногда эти признаки исчисляются десятками и даже сотнями. Чтобы избежать множества расчетов, можно ограничить их только в отношении тех признаков, на базе которых делаются основные выводы. Общая численность выборки или ее общая репрезентативность определяются по совокупной представительности всех параметров.
Дисперсия — это средний квадрат отклонения изучаемого признака от теоретического (среднего) показателя. Она характеризует уровень однородности исследуемой совокупности и обозначается символом «а» (сигма малая в квадрате). Расчет ее применительно к качественным признакам производится по одной формуле, а применительно к количественным — по другой.
Колеблемость качественного признака двухвариантна: совершено преступление против собственности или иное, в состоянии опьянения правонарушителя или трезвым субъектом, по мотиву мести или иным побуждениям, лицом, воспитанным в неполной или полной семье, интровертом или экстравертом и т. д. Указанная двухвариантность отражается в таких относительных показателях, как удельный вес или доля признака в общей структуре изученных явлений, в данном случае преступлений, причин, лиц, мер. Например, в 1996 г. удельный вес хулиганства составлял 6% (или 0,06), а иных преступлений — 94 (или 0,94), преступлений, совершенных в состоянии опьянения, — 36 (или 0,36), а в трезвом состоянии 64% (или 0,64). Удельные веса многих качественных признаков могут быть взяты из официальной статистической отчетности правоохранительных и других юридических органов, которая основывается на сплошном текущем учете, из предыдущих исследований, достоверность результатов которых не вызывает сомнений, или других источников. Они могут быть специально получены на основе предварительного (пилотажного) изучения. Если удельный вес какого-то признака неизвестен и нет возможности получить его при предварительном изучении, то исследуемая совокупность по этому признаку условно принимается максимально неоднородной. В этом случае искомый удельный вес берется равным 50% (или 0,5). Ниже будет показано, почему удельный вес качественного признака, равный 50%, отражает самую высокую неоднородность совокупности.
При наличии удельного веса качественного признака его дисперсия рассчитывается по следующей формуле: а = Р (1 — Р), где Р — доля качественного признака, а (1 — Р) — доля иных признаков или противоположного признака.
Предположим, что надо рассчитать дисперсию такого признака, как состояние опьянения при совершении каких-то преступлений, удельный вес которого по предварительным данным составил 35% (или 0,35): о = Р({ - Р) = 0,35(1 - 0,35) - 0,23. Это и будет дисперсия изучаемого признака, пестрота или колеблемость его в изучаемой совокупности, которая в этом случае играет роль теоретической вероятности.
Дисперсия, равная 0,23, является высокой, ибо самое большое значение дисперсии качественного признака не может быть выше 0,25. Таковой она вычисляется при удельном весе изучаемого признака, равном 50%: о = 0,5(1 — 0,5) = 0,25. Все другие удельные веса, большие и меньшие 50%, дают меньшую дисперсию, так как совокупность в этих случаях становится более однородной. При 60 и 40% дисперсия равна 0,24, при 70 и 30 — 0,21, при 80 и 20 — 0,16, при 90 и 10% — 0,09. Из этих расчетов видно, что самая неоднородная совокупность по качественному признаку бывает тогда, когда его удельный вес равен 50% (или дисперсия равна 0,25).
Дисперсия количественного признака многовариантна. Она рассчитывается с применением средней арифметической взвешанной (ее расчет приводился выше) по формуле
г -*}f •*я •*/ Jn
где о — дисперсия; I — знак суммы; хг хг х3, ..., хп — показатели варьирующего признака; х— среднее арифметическое значение признака; fv /j, fy ...fn — частоты вариант варьирующего признака.
Используя эту формулу, рассчитываем дисперсию по данным табл. 4, средняя арифметическая (х) которых была равна 55:
а = [(51 - 55) • 1 + (52 - 55) • 2 + (53 - 55) - 3 + (54 - 55) • 8 + (55 - 58> • 8 +
+ (56 - 55) • 5 + (57 - 55) • з] : (1 + 2 + 3 + 8 + 8 + 5 + 3) = 16+18 + 12 + 8 + 0 + 5 + 12 71
1 +2 + 3 + 8 + 8 + 5 + 3
Возьмем другой пример расчета дисперсии количественного признака, близкого к уголовному праву и криминологии. Предположим, что выборочным методом было изучено 100 осужденных к лишению свободы. На срок 1 год (х,) было осуждено 15 человек (/!); 2 года (х2) — 50 человек (/J); 3 года (х3) — 20 человек (/3); 4 года (ха) — 10 человек (/,); 5 лет (х5) — 4 человека (/5); 6 лет (х6) — 1 человек (/6).
Средний арифметический показатель наказания:
1+2+3+4+5+6 21 х =------------------------= —- = 3,5 года.
О О
о = Г(1 - 3,5) • 15 + (2 - 3,5) • 50 + (3 - 3,5) • 20 + (4 - 3,5) • 10 + (5 - 3,5) • 4 +
+ (6 - 3,5) • ll : (15 + 50 + 20 + 10+4 + 1) = 93,75 + 112,5 + 5 + 2,5 + 9 + 6,25 _ 229
= 2,29.
Таким образом, средний квадрат отклонений (дисперсия) различных сроков наказания от среднего арифметического (х = 3,5 года) равен в данном случае 2,29 года.
Второй общепринятой мерой вариации признака является среднее квадратическое отклонение. Оно обозначается символом «о» (сигма малая без квадрата) и выводится как самостоятельно, так и на основе среднего квадрата отклонений, т. е. дисперсии, которая обозначается «о» (сигма малая в квадрате).
Извлекая корень квадратный из дисперсии, получаем среднее квадратическое отклонение:
о = V? = •//>(! - р) - для качественных признаков;
а = Vo =
у--:
- для количественных признаков.
По этим формулам среднее квадратическое отклонение в рассмотренных выше примерах будет равно: в первом случае ^/0,23 = = 0,48, во втором — ^/2,36 = 1,54, в третьем — ^/2,29 = 1,51.
Среднее квадратическое отклонение всегда выражается в тех именованных числах, в которых выражены варианта и средняя, т. е. в первом случае — в процентах, во втором — в номерах карточек, в третьем — в годах.
Не вникая в математическую сторону вопроса, скажем, что очертания симметричной кривой нормального распределения полностью определяются двумя показателями — средней арифметической (х) и средним квадратическим отклонением (а). В зависимости от их значений она может иметь разный центр группировки показателей (рис. 4), быть более удлиненной, растянутой или сжатой, компактной (рис. 5).
На рис. 4 средняя арифметическая х2 больше средней арифметической Хр поэтому распределение 11 сдвинуто по оси абсцисс вправо. Средние квадратические отклонения распределений I и II одинаковы (о, = о2), следовательно, одинаковы и кривые распределения. На рис. 5, наоборот, средние арифметические (х, = х2) одинаковы, поэтому центры группировки обоих распределений на оси абсцисс совпадают, а среднее квадратическое отклонение распределения II (с2) больше среднего квадратического отклонения (а,), поэтому кривая II нормального распределения оказалась более растянутой, а кривая I — компактной.
Следующее свойство среднего квадратического отклонения позволяет правильно оценить надежность выборочных показателей. Если площадь, ограниченную кривой нормального распределения, принять за 1 или 100%, то площадь, заключенная в пределах 1о вправо и влево от средней арифметической (рис. 6), составит 0,683 всей площади. Это означает, что 68,3% всех изученных вариант отклоняется от средней арифметической не более чем на 1а, т. е. находится в пределах (х ± о).
Площадь, заключенная в пределах 2а вправо и влево от средней арифметической, составляет 0,954 всей площади, т. е. 95,4% всех единиц совокупности находится в пределах (х ± 2с). Площадь, заключенная в пределах Зо влево и вправо от средней арифметической, составляет 0,997 всей площади, или 99,7% всех единиц совокупности находится в пределах (х± Зо). Это и есть так называемое правило трех сигм, характерное для нормального распределения.
При проведении выборочных исследований параметры х и о, а также пределы единиц выборки (площадь выборки) всегда известны. Опираясь на них, можно с точностью сказать, с каким доверием следует относиться к выборочным показателям. К правилу трех сигм мы вернемся, когда при расчете ошибки выборки будем вынуждены более конкретно раскрыть коэффициент доверия, или коэффициент кратности ошибок.