Статистический анализ связей.
В статистике принято выделять два вида связи между явлениями:
1) функциональные (или детерминированные). Для этого вида связи характерна однозначная строго определенная зависимость между взаимосвязанными показателями или признаками.
2) статистические (или стохастические). Здесь характерно то, что одному значению независимого признака или показателя может соответствовать несколько значений другого (зависимого) признака или показателя.
В статистике независимые признаки принято называть факторными, а зависимые – результативными. Однако не всякая статистическая связь отражает какую-то причинно-следственную зависимость. Иногда статистическая зависимость может носить случайный характер и не отражать реальную причинно-следственную взаимосвязь. Обычно, обнаружив статистическую зависимость между какими-то процессами или явлениями, ученые выдвигают гипотезу о наличии причинно-следственной зависимости, а потом проверяют эту гипотезу на практике или доказывают ее истинность с помощью других методов.
Статистические связи в статистике часто называют корреляционными (от английского слова «correlation» - отношение или соотношение), а показатели, используемые для оценки степени тесноты статистических связей – показателями корреляции.
Для выявления статистических связей и измерения степени их тесноты в статистике используются различные методы, основными из которых являются:
1. Метод параллельных рядов.
2. Метод таблиц сопряженности.
3. Расчет специальных аналитических показателей (или показателей корреляции), оценивающих степень тесноты связи;
4. Построение уравнений регрессии, количественно выражающих статистическую взаимосвязь между двумя и более признаками, в виде уравнения некоторой математической функции.
Метод параллельных рядов заключается в том, что параллельно выстраивается два ряда значений количественно измеримых признаков (показателей), причем первый (ряд значений признака x) из них выстраивается в порядке возрастания. Затем проверяется, будет ли соблюдаться тенденция к возрастанию соответствующих значений признака y во втором ряду. Если такая тенденция соблюдается, значит, между двумя признаками имеется статистическая взаимосвязь.
Таблица сопряженности – эта таблица, в которой по вертикали и по горизонтали выстроены различные значения двух признаков (x и y) в порядке возрастания. На пересечении строк и столбцов таблицы стоят числа, выражающие количество статистических единиц, одновременно обладающих соответствующими значениями признаков (x и y). Если ненулевые (т.е. не равные нулю) элементы таблицы сосредоточены вокруг ее главной диагонали, значит, между признаками имеется связь.
Таблицы сопряженности могут использоваться не только для оценки степени тесноты взаимосвязи между количественно измеримыми признаками, но и между качественными (альтернативными) признаками, которые условно принимают только два значения (0 и 1). Число 1 означает, что данная статистическая единица обладает этим признаком, а 0 – не обладает.
К специальным аналитическим показателям, измеряющим тесноту статистических взаимосвязей, относятся:
а) линейный коэффициент корреляции;
б) ранговый коэффициент корреляции Cпирмена;
в) корреляционное отношение и другие.
Формулы для их расчета приведены в таблице.
Виды аналитических показателей | Формулы для их расчета |
Линейный коэффициент корреляции | |
Ранговый коэффициент корреляции | |
Корреляционное отношение |
Все эти показатели выражены числами, абсолютная величина которых изменяется в пределах от 0 до 1. Чем ближе модуль данного числа к 1, тем связь считается более тесной. Линейный и ранговый коэффициенты корреляции могут принимать как положительные, так и отрицательные значения (положительная величина этих коэффициентов характеризует наличие прямой связи, а отрицательная – обратной). Корреляционное отношение не может быть отрицательным, так как выражено в виде арифметического корня некоторой величины.
Кроме того, существуют специальные коэффициенты (коэффициент ассоциации, контингенции и другие), рассчитываемые на основе таблиц сопряженности и измеряющие взаимосвязи между качественными признаками.
Формула для расчета рангового коэффициента корреляции Спирмена выводится из обычной формулы линейного коэффициента корреляции в предположении, что он рассчитывается не для значений признаков, а для соответствующих рангов.
Чем ближе коэффициент корреляции к 1, тем более тесной является связь! При этом если r > 0, то связь прямая, а если r < 0, то связь обратная.
Если | r | ≥ 0,7, то связь считается более тесной, если
| r | < 0,3, то связь отсутствует. Если 0,3 ≤ | r | ≤ 0,7, то наличие связи целесообразно проверить дополнительными методами.
Линейный коэффициент корреляции может не всегда показать наличие связи. В случае, если значения признаков нельзя измерить количественно, удобнее использовать ранговый коэффициент корреляции или специальные коэффициенты, используемые для оценки тесноты связи между качественными признаками. Если связь не является линейной, то в качестве критерия оценки тесноты связи удобнее всего использовать так называемое корреляционное отношение.