Показатели тесноты связи между качественными признаками

Метод корреляционных таблиц применим не только к количественным, но и к описательным (качественным) признакам, взаимосвязи между которыми часто приходится изучать при проведении различных социологических исследований путем опросов или анкетирования. В этом случае такие таблицы называют таблицами сопряженности. Они могут иметь различную размерность. Простейшая размерность – 2х2 (таблица «четырех полей»), когда по альтернативному признаку («да» – «нет», «хорошо» – «плохо» и т.д.) выделяются 2 группы. В таблице 48 приведены условные данные о распределении 500 опрошенных человек по двум показателям: наличие (отсутствии) у них прививки против гриппа и факт заболевания (незаболевания) гриппом во время его эпидемии.

Таблица 48. Распределение 500 опрошенных человек

Группа лиц	Число лиц
заболевших гриппом	не заболевших гриппом	Итого
Сделавших прививку	30 (а)	270 (b)
Не сделавших прививку	120 (c)	80 (d)
Итого

Нетрудно заметить, что среди сделавших прививку подавляющее большинство (270 из 300, или 90%) не заболели гриппом, а среди не сделавших большая часть заболела (120 из 200, или 60%). Таким образом, можно предположить, что прививка положительно влияет на предупреждение заболевания; другими словами, можно предположить, что распределение в таблице (a, b, c, d) не случайно и существует стохастическая зависимость между группировочными признаками. Однако выводы о зависимости, сделанные «на глаз», часто могут быть ненадежными (ошибочными), поэтому они должны подкрепляться определенными статистическими критериями, например критерием Пирсона χ². Он позволяет судить о случайности (или неслучайности) распределения в таблицах взаимной сопряженности, а следовательно, и об отсутствии или наличии зависимости между признаками группировки в таблице. Чтобы воспользоваться критерием Пирсона χ², в таблице взаимной сопряженности наряду с эмпирическими частотами записывают теоретические частоты, рассчитываемые исходя из предположения, что распределение внутри таблицы случайно и, следовательно, зависимость между признаками группировки отсутствует. То есть считается, что распределение частот в каждой строке (столбце) таблицы пропорционально распределению частот в итоговой строке (столбце). Поэтому теоретические частоты по строкам (столбцам) рассчитывают пропорционально распределению единиц в итоговой строке (столбце).

Так, в нашем примере в итоговой строке число заболевших 150 из 500, т.е. их доля – 30%, а доля не заболевших – 70%. Следовательно, теоретические частоты в первой строке для заболевших составят 30% от 300, т.е. 0,3*300=90, а для не заболевших – 0,7*300=210. По второй строке произведем аналогичные расчеты и их результаты занесем в таблицу в скобках.

Таблица 49. Эмпирические и теоретические частоты

Группа	I (да)	II (нет)	∑
I (да)	30 (90)	270 (210)
II (нет)	120 (60)	80 (140)
∑

На сопоставлении эмпирических и теоретических частот и основан критерий Пирсона χ², рассчитываемый по формуле (44):

Показатели тесноты связи между качественными признаками - student2.ru .

Рассчитанное (фактическое) значение χ² сопоставляют с табличным (критическом), определяемым по таблице Приложения 3 для заданного уровня значимости α и числа степеней свободы Показатели тесноты связи между качественными признаками - student2.ru , где k₁ и k₂ – число групп по одному и второму признакам группировки (число строк и число столбцов в таблице).

В рассматриваемом примере ν=(2-1)(2-1)=1, а приняв уровень значимости α=0,01, по таблице Приложения 3 находим χ²_табл=6,63. Поскольку рассчитанное значение χ²> χ²_табл, значит существует стохастическая зависимость между рассматриваемыми показателями. При независимости признаков частоты теоретического и эмпирического распределений совпадают, а значит χ²=0. Чем больше различия между теоретическими и эмпирическими частотами, тем больше значение χ² и вероятность того, что оно превысит критическое табличное значение, допустимое для случайных расхождений. Аналогично рассчитываются теоретические частоты и χ² в таблицах большей размерности.

В корреляционном анализе недостаточно лишь выявить тем или иным методом наличие связи между исследуемыми показателями. Теснота такой связи может быть различной, поэтому весьма важно ее измерить, т.е. определить меру связи в каждом конкретном случае. В статистике для этой цели разработан ряд показателей (коэффициентов), используемых как для количественных, так и для качественных признаков.

Для измерения тесноты связи между группировочными признаками в таблицах взаимной сопряженности могут быть использованы такие показатели, как коэффициент ассоциации и контингенции (для «четырехклеточных таблиц»), а также коэффициенты взаимной сопряженности Пирсона и Чупрова (для таблиц любой размерности).

Применительно к таблице «четырех полей», частоты которых можно обозначить через a, b, c, d, коэффициент ассоциации (Д. Юла) выражается формулой (158):

Показатели тесноты связи между качественными признаками - student2.ru . (158)

Его существенный недостаток: если в одной из четырех клеток отсутствует частота (т.е. равна 0), то Показатели тесноты связи между качественными признаками - student2.ru 1, и тем самым преувеличена мера действительной связи.

Чтобы этого избежать, предлагается (К. Пирсоном) другой показатель – коэффициент контингенции[53]:

Показатели тесноты связи между качественными признаками - student2.ru . (159)

Рассчитаем коэффициенты (158) и (159) для нашего примера (таблица 48):

Показатели тесноты связи между качественными признаками - student2.ru ;

Связь считается достаточно значительной и подтвержденной, если Показатели тесноты связи между качественными признаками - student2.ru >0,5 или >0,3.

Поэтому в нашем примере оба коэффициента характеризуют достаточно большую обратную зависимость между исследуемыми признаками.

Теснота связи между 2 и более признаками измеряется с помощью коэффициентов взаимной сопряженности Пирсона (160) или Чупрова (161), рассчитываемых на основе показателя χ² :

Показатели тесноты связи между качественными признаками - student2.ru , (160) (161)

В нашем примере Показатели тесноты связи между качественными признаками - student2.ru . Рассчитывать коэффициент Чупрова для таблицы «четырех полей» не рекомендуется, так как при числе степеней свободы ν=(2-1)(2-1)=1 он будет больше коэффициента Пирсона (в нашем примере К_Ч=0,54). Для таблиц же большей размерности всегда К_Ч<К_П.

Множественная корреляция

При решении практических задач исследователи сталкиваются с тем, что корреляционные связи не ограничиваются связями между двумя признаками: результативным y и факторным x. В действительности результативный признак зависит от нескольких факторных. Например, инфляция тесно связана с динамикой потребительских цен, розничным товарооборотом, численностью безработных, объемами экспорта и импорта, курсом доллара, количеством денег в обращении, объемом промышленного производства и другими факторами.

В условиях действия множества факторов показатели парной корреляции оказываются условными и неточными. Количественно оценить влияние различных факторов на результат, определить форму и тесноту связи между результативным признаком y и факторными признаками x₁, x₂, …, x_k можно методами множественной (многофакторной) корреляции.

Математически задача сводится к нахождению аналитического выражения, наилучшим образом описывающего связь факторных признаков с результативным, т.е. к отысканию функции Показатели тесноты связи между качественными признаками - student2.ru . Выбрать форму связи довольно сложно. Эта задача на практике основывается на априорном теоретическом анализе изучаемого явления и подборе известных типов математических моделей.

Среди многофакторных регрессионных моделей выделяют линейные (относительно независимых переменных) и нелинейные. Наиболее простыми для построения, анализа и экономической интерпретации являются многофакторные линейные модели, которые содержат независимые переменные только в первой степени:

Показатели тесноты связи между качественными признаками - student2.ru , (162)

где Показатели тесноты связи между качественными признаками - student2.ru – свободный член;

Показатели тесноты связи между качественными признаками - student2.ru – коэффициенты регрессии;

Показатели тесноты связи между качественными признаками - student2.ru – факторные признаки.

Если связь между результативным признаком и анализируемыми факторами нелинейна, то выбранная для ее описания нелинейная многофакторная модель (степенная, показательная и т.д.) может быть сведена к линейной путем линеаризации.

Параметры уравнения множественной регрессии, как и парной, рассчитываются методом наименьших квадратов, при этом решается система нормальных уравнений с (k+1) неизвестным:

Показатели тесноты связи между качественными признаками - student2.ru (163)

где Показатели тесноты связи между качественными признаками - student2.ru – значение j-го факторного признака в i-м наблюдении;

Показатели тесноты связи между качественными признаками - student2.ru – значение результативного признака в i-м наблюдении.

Как правило, прежде чем найти параметры уравнения множественной регрессии, определяют и анализируют парные коэффициенты корреляции. При этом систему нормальных уравнений можно видоизменить таким образом, чтобы при вычислении параметров регрессии использовать уже найденные парные коэффициенты корреляции. Для этого в уравнении регрессии заменим переменные y, x₁, x₂, …, x_k переменными t_j, полученными следующим образом:

Показатели тесноты связи между качественными признаками - student2.ru , . ( ).

Эта процедура называется стандартизацией переменных. В результате осуществляется переход от натурального масштаба переменных x_ij к центрированным и нормированным отклонениям t_ij. В стандартизированном масштабе среднее значение признака равно 0, а среднее квадратическое отклонение равно 1, т.е. Показатели тесноты связи между качественными признаками - student2.ru =0, =1. При переходе к стандартизированному масштабу переменных уравнение множественной регрессии принимает вид

Показатели тесноты связи между качественными признаками - student2.ru , (164)

где Показатели тесноты связи между качественными признаками - student2.ru ( ) – коэффициенты регрессии.

Параметры уравнения множественной регрессии в натуральном масштабе и уравнения регрессии в стандартизированном виде взаимосвязаны:

Показатели тесноты связи между качественными признаками - student2.ru ( ). (165)

Нетрудно заметить, что это обычная формула коэффициента регрессии, выраженного через линейный коэффициент корреляции.

Стандартизированные коэффициенты множественной регрессии Показатели тесноты связи между качественными признаками - student2.ru также вычисляют методом наименьших квадратов, который приводит к системе нормальных уравнений

Показатели тесноты связи между качественными признаками - student2.ru (166)

где Показатели тесноты связи между качественными признаками - student2.ru – парный коэффициент корреляции результативного признака y с j-м факторным;

Показатели тесноты связи между качественными признаками - student2.ru – парный коэффициент корреляции j-го факторного признака с l-м факторным.

После того как получено уравнение множественной регрессии (в стандартизированном или натуральном масштабе), необходимо измерить тесноту связи между результативным признаком и факторными признаками. Для измерения степени совокупного влияния отобранных факторов на результативный признак рассчитывается совокупный коэффициент детерминации R² и совокупный коэффициент множественной корреляции R – общие показатели тесноты связи многих признаков независимо от формы связи. Приведем несколько формул для их расчета.

1. При линейной форме связи расчет совокупного коэффициента детерминации можно выполнить, используя парные коэффициенты корреляции:

Показатели тесноты связи между качественными признаками - student2.ru , (167)

где Показатели тесноты связи между качественными признаками - student2.ru – параметры уравнения множественной регрессии в натуральном масштабе.

2. Еще легче вычислить совокупный коэффициент детерминации, используя уравнение регрессии в стандартизированном виде:

Показатели тесноты связи между качественными признаками - student2.ru . (168)

3. Через соотношение факторной и общей дисперсий (или остаточной и общей дисперсий):

Показатели тесноты связи между качественными признаками - student2.ru , или , (169)

где Показатели тесноты связи между качественными признаками - student2.ru – факторная дисперсия, характеризующая вариацию результативного признака, обусловленную вариацией включенных в анализ факторов; Показатели тесноты связи между качественными признаками - student2.ru – общая дисперсия результативного признака; – остаточная дисперсия, характеризующая отклонения фактических уровней результативного признака Показатели тесноты связи между качественными признаками - student2.ru от рассчитанных по уравнению множественной регрессии .

Совокупный коэффициент множественной корреляции R представляет собой корень квадратный из совокупного коэффициента детерминации R². Пределы его изменения: Показатели тесноты связи между качественными признаками - student2.ru . Чем ближе его значение к 1, тем точнее уравнение множественной линейной регрессии отражает реальную связь. Иначе говоря, среди отобранных факторов присутствуют те, которые решающим образом влияют на результативный. Малое значение R можно объяснить тем либо тем, что в уравнение множественной регрессии не включены существенно влияющие на результат факторы, либо тем, что установленная линейная форма зависимости не отражает реальной взаимосвязи признаков. Добиться адекватности модели множественной регрессии эмпирическим данным возможно, соответственно, либо включением в уравнение регрессии дополнительных, ранее не учитываемых факторов, либо построением нелинейной модели множественной регрессии.

Для более глубокого знакомства с темой «Множественная корреляция» необходимо воспользоваться литературой курса «Эконометрика».

Контрольные задания

На основе исходных данных контрольных заданий по теме 6 (таблица 38) с использованием таблицы 50 проанализировать взаимосвязь между признаками x и y всеми возможными методами, изложенными в теме 7.

Таблица 50. Распределение вариантов для выполнения контрольного задания