Измерение связей между качественными признаками
Статистические методы различных обобщений, указывая на наличие прямой или обратной связи между признаком-фактором и признаком-следствием, не дают ответа на вопрос о мере связей, ее количественном выражении. Этот недостаток восполняется методами корреляционного анализа, которые позволяют вычленить из комплекса факторов влияние одного или многих обстоятельств, установить характер взаимосвязи и математически точно измерить ее. Все это имеет важное научное и практическое значение. Последовательное внедрение методов измерения в аналитическую практику правоохранительных органов, судов и других юридических учреждений ставит ее на прочную научную основу.
Для изучения корреляционных связей статистиками разработаны разные методы, каждый из которых решает свои конкретные задачи. Одни коэффициенты связи пригодны для измерения взаимосвязей качественных признаков, другие — для качественных и количественных, третьи — для количественных. Абсолютное большинство их применимо в социально-правовых и криминологических изучениях, поэтому необходимо познакомиться с ними хотя бы в самом общем виде.
Для измерения связи между качественными (атрибутивными) признаками в статистике широко используются коэффициент сопряженности А.А.Чупрова, коэффициент ассоциации К.Пирсона, а также коэффициенты ранговой корреляции Спирмена и Кендалла.
1. Коэффициент ассоциации К.Пирсона (КП) в плане исчисления — относительно простой показатель сопряженности величин. Он применяется к вариации двух качественных признаков, распределенных по двум группам. Его расчет производится на основе табл. 1, именуемой таблицей четырех полей.
Таблица 1
Таблица расчета коэффициента ассоциации К.Пирсона
Табл и ца 2
~\^ГТризнаки Группы "~~ ~^^^ | Сумма | ||
а | Ъ | а+Ь | |
с | d | c+d | |
Сумма | а+с | b+d | - |
Этими полями являются клетки а, Ь, с, d. Расчет осуществляется на основе сопряжения по строкам а и Ь, с и d, а также по графам а к с, bud. Формула расчета:
~
Ассоциируемые показатели могут быть как абсолютными, так и относительными. Попробуем рассчитать КП между показателями раненых и погибших в дорожно-транспортных происшествиях по вине водителей и пешеходов (табл. 2).
Ввиду того, что абсолютные показатели громоздки и расчет КП на их основе можно сделать будет только на компьютере, исчислим его на относительных показателях, на процентах:
кп
15,5 86,2-84,5 13,8
+170
+170
100-29,3 170,7 V50 015 100 7072
= +0,02.
Распределение погибших и раненых по вине водителей и пешеходов
Причина наезда | Погибло | Ранено | Сумма |
Вина водителей | (а) 26807 15,5 % | (Ь) 146 685 84,5% | 173 492 100,0 % |
Вина пешеходов | (с) 6451 13,8 % | (d) 40293 86,2% | 46784 100,0 % |
Сумма | 33258 29,3% | 186978 170,7 % | - |
Проверка расчета КП на абсолютных показателях дала практически те же результаты (0,0188). Расхождение расчетов на десятитысячные доли объясняется наличием округлений при расчете процентов.
Коэффициент ассоциации измеряется от —1 до +1 и интерпретируется так: чем ближе коэффициент к 1, тем теснее связь, положительная или отрицательная. Исходя из этого связь между показателями раненых и погибших по вине водителей и пешеходов прямая (+), но незначительная и случайная. Считается, что если КП достигает 0,3, то это свидетельствует о существенной связи между признаками.
2. Коэффициент взаимной сопряженности, разработанный отечественным статистиком А.А.Чупровым (КЧ), в отличие от коэффициента Пирсона применяется для измерения связи между соотношением двух атрибутивных признаков по трем и более группам. Он рассчитывается по формуле
кч =
где КЧ — коэффициент взаимной сопряженности А.А.Чупрова; <р — показатель взаимного сопряжения (фи квадрат), от, и тг — число групп по каждому признаку; 1 — постоянный коэффициент
Поскольку число групп всегда известно, то для расчета КЧ необходимо найти ф (фи квадрат). Его расчет сложный. Он, как и коэффициент Пирсона, исчисляется путем нахождения различных соотношений, что легче всего сделать на конкретном примере. В качестве такового возьмем соотношение некоторых видов преступлений и их раскрываемости (табл 3). В нашем примере /и, — число видов деяний, равное 4, и т2 — число групп по раскрываемости преступлений (раскрыты, нераскрыты), равное 2.
Таблица 3
Распределение некоторых преступлений в регионе по видам и их раскрываемости
Виды преступлений | Раскрыты | Не раскрыты | Итого |
Разбой | ПО (73,7 %) 12 100 34,5714 | 40 (26,3 %) 1600 10,6667 | 150 (100 %) 45,2381 0,3016 |
Мошенничество | 180 (73,5 %) 32 400 92,5714 | 65 (26,5 %) 4225 28,1667 | 245 (100 %) 120,7381 0,4928 |
Умышленное убийство | 50 (66,7 %) 2500 7,1429 | 25 (33,3 %) 625 4,1667 | 75 (100 %) 11,3096 0,1508 |
Поджог | 10 (33,3 %) 100 0,2857 | 20 (66,7 %) 400 2,6667 | 30 (100 %) 2,9524 0,0984 |
Итого | 500 1,0436 |
Для того чтобы разобраться в этой таблице, раскроем значение каждого показателя и способы его получения на примере разбоев.
В первой строке каждой клетки (кроме итоговой графы) указаны абсолютные числа и удельные веса (в скобках) раскрытых и нераскрытых преступлений (разбой, мошенничество и т. д.). Применительно к разбоям: раскрыто НО деяний, или 73,7%, и не раскрыто 40, или 26,3%.
Во второй строке каждой клетки (кроме итоговой графы) указаны квадраты частот преступлений. Применительно к разбоям: 110 раскрытых деяний в квадрате составляет 12 100, а 40 нераскрытых в квадрате составляет 1600.
В третьей строке каждой клетки (кроме итоговой графы) указаны частные от деления квадратов частот на сумму частот по графам (эти суммы указаны в нижней строчке «Итого»). Применительно к раскрытым разбоям: 12 100:350=34,5714 и применительно к нераскрытым: 1600:150=10,6667.
Каждая клетка итоговой графы состоит из четырех строк:
- в первой строке даны суммы частот и частостей (НО раскрытых разбоев + 40 нераскрытых =150, или 100%);
- во второй строке -- прочерк, так как квадраты частот не суммируются;
- в третьей строке даны суммы частных от деления квадратов частот на суммы частот раскрытых и нераскрытых деяний, применительно к разбою: 34,5714 (раскрытые)+10,6667 (нераскрытые) =45,2381;
- в четвертой строке дается отношение сумм частных (указанных в предыдущей третьей строке) к общему числу частот (указанных в первых строках каждой клетки), применительно к разбою 45,2381:150 = 0,316.
В итоговой строке итоговой графы приводятся два числа: первое — общее число частот (500 преступлений) и второе — общая сумма отношений, указанных в четвертой строке предыдущих клеток итоговой графы (0,3016 + 0,4928 + 0,1508 + 0,984 = 1,0436).
Результирующее число 1,0436, вобравшее в себя все статистически значимые отношения, за вычетом единицы, т.е. 1,0436 - 1 = = 0,0436, является именно фи квадратом (ф), указывающим на взаимную сопряженность атрибутивных признаков нескольких групп. Имея его, мы легко рассчитаем КЧ по предложенной формуле:
КЧ =
0,0436
Коэффициент А.А.Чупрова в отличие от коэффициента ассоциации варьирует от 0 до 1. Если исходить из формулы, то его значение не может быть отрицательным. Но суть интерпретации та же. Связь считается существенной при величине КЧ = 0,3. Чем ближе его значение к единице, тем сильнее связь. КЧ = 0,16 — свидетельство наличия относительно заметной связи между видами преступлений и их раскрываемостью.
3. Особая роль в выявлении связей не только между качественными, но и количественными признаками принадлежит параллельным статистическим рядам. С одной стороны, они представленном явлении, и вижу, что, сколько бы и как бы подробно я ни наблюдал стрелку часов, клапан и колеса паровоза и почку дуба, я не узнаю причину Благовеста, движения паровоза и весеннего ветра. Для этого я должен изменить совершенно свою точку наблюдения и изучать законы движения пара, колокола и
ветра».
Параллельные ряды как метод выявления взаимосвязей пользуются давно. В работе «Население, преступность и пауперизм» К.Маркс, сопоставляя в параллельных рядах численность населения, родившихся, умерших, осужденных и пауперов, установил важную закономерность: преступность растет быстрее, чем численность населения. Со времени этого открытия прошло более ста лет, а выявленные закономерности действуют. По данным Четвертого обзора ООН о тенденциях преступности (1986-1990 гг.) преступность в мире прирастала на 5% год, а население — около 1—1,5%.
Наличие параллельных рядов признака-фактора (х) и при знака-следствия (у) позволяет выявить и изобразить корреляционные зависимости графически в прямоугольной системе координат.
Если отложить значения х на оси абсцисс, а значение у — на оси ординат и нанести точки соотношений х и у, то мы получим корреляционное поле, где по расположению точек можно судить о характере и степени связи (рис. 3).
Если точки беспорядочно разбросаны по всему полю (а), то какой-либо связи между признаками нет. Если они сосредоточены на оси, направленной снизу вверх и слева направо (б), то имеется прямая зависимость, а если точки распределены сверху вниз и слева направо (в), то зависимость будет обратной. Если точки при прямой или обратной зависимости не расплываются в облаке, а сосредоточены на одной линии (г), то в этом случае мы имеем сильную прямую или обратную связь.