Статистические методы выявления корреляционной связи

Корреляционная связь, как видели из материала п.1 данной темы, характеризуется согласованностью в вариации значений признаков. Однако согласованность эта не всегда свидетельствует о наличии причинно-следственной связи между рассматриваемыми признаками. Так например, согласованность в вариации значений признаков может быть следствием какой-либо одной, общей для них причины, или отражать случайное совпадение в изменениях признаков, не находящихся между собой в какой-либо связи. Неправильно возлагать полностью на статистику задачу установления наличия связи. Статистика только обнаруживает и характеризует фактическое проявление связи, указания на возможность которой дает теория изучаемого явления.

Именно теоретический анализ указывает на вытекающую из существа изучаемого явления возможность связи между признаками, процессами, сопровождающими это явление. Однако теория не может дать ответ на вопрос, проявляется ли в действительности и как проявляется теоретически возможная связь в данных конкретных условиях.

При статистическом изучении корреляционной связи между признаками исходным материалом являются данные об индивидуальных значениях этих признаков в изучаемой статистической совокупности.

Статистическая наука в настоящее время располагает большим набором приемов (методов) выявления корреляционной связи. Одни приемы можно отнести к элементарным (простейшим), другие предусматривают использование специального сложного математического аппарата.

К так называемым элементарным приемам (методам) выявления наличия корреляционной связи относятся: параллельное сопоставление рядов значений факторного и результативного признаков, графическое изображение фактических данных с помощью поля корреляции, построение групповой и корреляционной таблиц, факторные (аналитические) группировки и исчисление групповых средних.

К сложным методам изучения взаимосвязей относятся балансовые таблицы, дисперсионный анализ, методы теории корреляции и регрессии, методы многомерного анализа, методы распознавания образов, метод главных компонентов и др.

В данном параграфе рассмотрим сущность методов первой группы.

При отсутствии ярко выраженной причинной связи между факторным и результативным признаками наличие и характер связи можно установить при помощи метода параллельных рядов: в одной таблице приводятся упорядоченные значения факторного признака, который обычно обозначается символом х, и соответствующие им значения результативного признака, который обычно обозначается символом у.

Наличие и характер связи определяется по степени согласованности вариации данных рядов.

В тех случаях, когда возрастание величины факторного признака влечет за собой возрастание величины результативного признака, говорят о возможном наличии прямой корреляционной связи. Если же с увеличением факторного признака величина результативного признака имеет тенденцию к уменьшению, то можно предполагать обратную связь между этими признаками.

Пример. В результате наблюдений получены следующие данные о величине производственного стажа (х) и размере дневной заработной платы (у) 12 рабочих производственного участка:

х, лет
у, т.р.

Параллельное сопоставление рядов индивидуальных значений в данном случае показывает на наличие прямой корреляционной связи по мере увеличения производственного стажа размер дневной заработной платы повышается.

Метод параллельных рядов обычно используется для установления характера связи при относительно небольшом объеме исходного материала. Однако при наличии большого числа значений признаков, когда одному и тому же значению признака-фактора, как правило, соответствует несколько различных значений результативного признака, восприятие параллельных рядов сильно затрудняется. В этих случаях целесообразно для установления наличия связи воспользоваться методом построения корреляционных таблиц.

Построение корреляционной таблицы начинают с группировки значений факторного и результативного признаков. В корреляционной таблице, как правило в подлежащем указывается факторный признак х, а в сказуемом – результативный признак у.

В корреляционной таблице указываются частоты: сколько раз данная величина одного признака повторяется в сочетании с соответствующей величиной другого признака. Итоговые графа и строка отражают распределение единиц совокупности по рассматриваемым признакам.

Если частоты в корреляционной таблице расположены на «главной» диагонали (из левого верхнего угла в правый нижний угол), но можно предположить наличие прямой корреляционной зависимости между признаками. Если же частоты расположены по «вспомогательной» диагонали (из левого нижнего угла в правый верхний угол), то предполагают наличие обратной связи между признаками.

Следует подчеркнуть, что при рассмотрении корреляционной таблицы важно установить расположение основной части частот. Возможны варианты, что все клетки корреляционной таблицы окажутся заполненными. Однако это обстоятельство еще не означает, что корреляционная связь между данными признаками отсутствует. Если основная масса частот расположена по той или иной диагонали, то корреляционная связь между признаками существует.

Корреляционная таблица позволяет сжато, компактно и достаточно наглядно изложить исходный материал. Поэтому даже расчеты по методам корреляции и регрессии можно вести по корреляционной таблице.

Пример. Используя приведенные выше данные, выполним группировку и построим корреляционную таблицу, характеризующую зависимость между стажем работы и размером дневной заработной платы рабочих:

Длительность производственного стажа в годах (х) Размер дневной заработной платы в тыс. руб. (у) Итого
10-13 14-17 18-21(свыше 18)
1-3 - -
4-6 - -
7-9 -
10-12 - -
Итого

Анализ корреляционной таблицы также подтверждает о наличии между рассматриваемыми признаками положительной корреляционной связи.

Корреляционная таблица, как и метод параллельных рядов, полностью базируется на сопоставлении индивидуальных значений изучаемых признаков. А индивидуальные значения формируются под влиянием как основных, так и случайных факторов.

Корреляционная связь обнаруживается более ясно, четко, если влияние случайных факторов удается нивелировать. Это обеспечивается при применении для выявления наличия корреляционной связи метода аналитической группировки и исчисления групповых средних.

Метод аналитической группировки и исчисления групповых средних состоит в следующем:

а) совокупность результатов наблюдений разбивается на группы по величине факторного признака и для каждой группы вычисляется средняя величина результативного признака.

Пример. Данные по параллельным рядам и корреляционной таблице сведем в так называемую групповую таблицу:

Группы рабочих по длительности производственного стажа в годах (х) Число рабочих в данной группе Общая сумма дневной заработной платы рабочих в данной группе (тыс. руб.) Средняя дневная зарплата одного рабочего в данной группе в тыс. руб. ( Статистические методы выявления корреляционной связи - student2.ru )
по индивидуальным данным (а) по данным корреляционной таблицы (б)
1-3 11,3 11,5
4-6 15,0 15,5
7-9 16,7 16,8
10-12 19,3 19,5
Итого 15,6 15,8

Сравнив средние значения результативного признака (последний столбец а или б) по группам значений признака-фактора (первый столбец) можно сделать вывод, что между данными признаками имеется тесная прямая корреляционная зависимость.

Корреляционная зависимость, если она существует, будет тем отчетливее обнаруживаться, чем большее число данных будет по каждой группе. Другими словами, предполагаются по каждой группе. Другими словами, предполагаются что все случайные факторы взаимно погашаются и различия в величине средних будут связаны только с различиями в величине факторного признака. Если бы связи между факторным и результативным признаками не было, то все групповые средние результативного признака были бы приблизительно одинаковыми по величине.

Попутно заметим, что оценка существенности расхождения групповых средних лежит в основе использования методов дисперсионного анализа для выявления наличия и оценки тесноты корреляционной связи.

При применении метода аналитической группировки и исчисления групповых средних необходимо помнить, что оценка наличия или отсутствия корреляционной связи между изучаемыми признаками зависит как от количества выделяемых групп, так и от установления границ интервалов. Недостатком этого метода является неоднозначность результатов при различных группировках.

Для предварительного выявления наличия связи и раскрытия ее характера применяют также графический метод.

Сущность данного метода состоит в следующем. В прямоугольной системе координат на оси абсцисс откладываются значения факторного признака х, на оси ординат – результативного признака у. Используя индивидуальные данные по х и у строится точечный график. Каждая точка имеет соответствующие друг другу координаты (х, у).

Совокупность полученных точек образует корреляционное поле. По характеру расположения точек на корреляционном поле можно судить о наличии или отсутствии связи (о силе связи), а также о направлении связи. Так, если точки беспорядочно разбросаны по полю (в виде шара), то зависимость между переменными отсутствует; если точки образуют эллипс, т.е. концентрируются вокруг оси, идущей из нижнего левого угла в верхний правый (или наоборот), то имеется прямая (или обратная) зависимость между исследуемыми признаками.

               
    Статистические методы выявления корреляционной связи - student2.ru
 
у
  Статистические методы выявления корреляционной связи - student2.ru     Статистические методы выявления корреляционной связи - student2.ru
 
 
 

а) б) в)

Рис. 13.1. Виды корреляционного поля

На рисунках график (а) соответствует отсутствию зависимости между признаками; график (б) – наличию прямой (положительной) и график (в) – наличию обратной (отрицательной) зависимости.

Пример. Построим корреляционное поле по параллельным рядам, приведенным выше:

 
  Статистические методы выявления корреляционной связи - student2.ru

Рис. 13.2. Зависимость у от х

Точки корреляционного поля не лежат на линии, параллельной одной из осей, не образуют форму шара. Можно предположить наличие положительной связи между данными признаками. Расположение точек такого, что можно говорить о наличии прямолинейной корреляционной связи между стажем работы и дневной заработной платы рабочих.

Корреляционное поле (точечный график) может быть построен и по данным аналитической группировки, и по групповым средним. В последнем случае последовательным соединением точек корреляционного поля получают эмпирическую линию (ломаную) регрессии (подробно будет рассмотрено в п.13.6. данной темы).

13.3. Статистическое измерение тесноты корреляционной связи.
Показатели меры тесноты корреляционной связи

При изучении корреляционной связи важным направлением анализа является оценка степени тесноты связи.

Понятие степени тесноты связи между двумя признаками возникает вследствие того, что в реальной действительности на изменение результативного признака влияют несколько факторов. При этом влияние одного из факторов может выражаться более заметно и четко, чем влияние других факторов. С изменением условий в качестве главного, решающего фактора может выступать другой.

При статистическом изучении взаимосвязей, как правило, учитываются только основные факторы. А вопрос необходимо ли вообще изучать более подробно данную связь и практически ее использовать, решается с учетом степени тесноты связи.

Зная количественную оценку тесноты корреляционной связи, таким образом, можно решить следующую группу вопросов:

1) необходимо ли глубокое изучение данной связи между признаками и целесообразно ли ее практическое применение;

2) сопоставляя оценки тесноты связи для различных условий, можно судить о степени различий в ее проявлении в конкретных условиях;

3) последовательное рассмотрение и сравнение признака у с различными факторами (х1, х21, …) позволяет выявить, какие из этих факторов в данных конкретных условиях являются главными, решающими факторами, а какие второстепенными, незначительными факторами;

Показатели тесноты связи должны удовлетворять ряду основных требований:

1) величина показателя степени тесноты связи должна быть равна или близка к нулю, если связь между изучаемыми признаками (процессами, явлениями) отсутствует;

2) при наличии между изучаемыми признаками (х и у) функциональной связи величина степень тесноты связи равна единице;

3) при наличии между признаками (х и у) корреляционной связи показатель тесноты связи выражается правильной дробью, которая по величине тем больше, чем теснее связь между изучаемыми признаками (стремится к единице);

4) при прямолинейной корреляционной связи показатели тесноты связи отражают и направление связи: знак (+) означает наличие прямой (положительной) связи; а знак (-) – обратной (отрицательной).

Для характеристики степени тесноты корреляционной связи могут применяться различные статистические показатели: коэффициент Фехнера (КФ), коэффициент линейной (парной) корреляции (r), коэффициент детерминации, корреляционное отношение ( Статистические методы выявления корреляционной связи - student2.ru ), индекс корреляции, коэффициент множественной корреляции (R), коэффициент частной корреляции (r) и др.

В данном вопросе рассмотрим коэффициент линейной корреляции (r) и корреляционное отношение ( Статистические методы выявления корреляционной связи - student2.ru ).

Более совершенным статистических показателем степени тесноты корреляционной связи является линейный коэффициент корреляции (r), предложенный в конце XIX в.

При расчете коэффициента корреляции сопоставляются абсолютные значения отклонений индивидуальных величин факториального признака х и результативного признака у от их средних, т.е. Статистические методы выявления корреляционной связи - student2.ru и Статистические методы выявления корреляционной связи - student2.ru .

Однако непосредственно сопоставлять между собой эти полученные результаты нельзя, т.к. признаки, как правило, выражены в различных единицах и даже при наличии одинаковых единиц измерения будут иметь различные по величине средние и различные вариации. В этой связи сравнению подлежат отклонения, выраженные в относительных величинах, т.е. в долях среднего квадратического отклонения (их называют нормированными отклонениями). Следовательно, сравниваются между собой следующие величины:

Статистические методы выявления корреляционной связи - student2.ru , Статистические методы выявления корреляционной связи - student2.ru .

Для того, чтобы на основе сопоставления таких нормированных отклонений получить обобщающую статистическую характеристику степени тесноты связи между этими признаками для всей совокупности, рассчитывается среднее их произведение. Полученная средняя и является коэффициентом корреляции (r):

Статистические методы выявления корреляционной связи - student2.ru .

Поскольку в этом выражении Статистические методы выявления корреляционной связи - student2.ru и Статистические методы выявления корреляционной связи - student2.ru являются постоянными, то формула линейного коэффициента корреляции (r) приобретает следующий вид

Статистические методы выявления корреляционной связи - student2.ru .

На практике вычисление по данной формуле является достаточно трудоемкой операцией. Поэтому обычно применяют формулу, полученную как определенное преобразование этой формулы

Статистические методы выявления корреляционной связи - student2.ru .

При использовании этой формулы отпадает необходимость вычислять отклонения индивидуальных значений признаков от их средних. Тем самым исключатся также возможная ошибка в расчетах при округлении в промежуточных вычислениях (например, средних величин).

Линейный коэффициент корреляции может принимать любые значения в пределах от –1 до +1. Чем ближе коэффициент корреляции без учета знака к 1, тем теснее связь между признаками. Знак при линейном коэффициенте корреляции указывает на направление связи: (+) плюс указывает на прямую зависимость, а знак (-) минус на обратную зависимость.

Если с увеличением значений факторного признака х, результативный признак у имеет тенденцию к увеличению, его величины r будет находиться между 0 и 1. Если же с увеличением значений признака х результативный признак имеет тенденцию к снижению, то r может принимать значения в интервале от 0 до –1.

Разработаны специальные формулы для расчета коэффициента корреляции в зависимости от характера исходных данных: если представлена в виде корреляционной таблицы, по негруппированным данным. В соответствии с рабочей программой мы их не будем рассматривать.

Коэффициент корреляции (r) применяется для измерения тесноты связи только при прямолинейной корреляционной связи.

Для измерения тесноты связи как при прямолинейной, так и при криволинейной корреляционной связи применяется корреляционное отношение.

В основе исчисления корреляционного отношения ( Статистические методы выявления корреляционной связи - student2.ru ) лежит правило сложения дисперсии, согласно которому общая дисперсия результативного признака ( Статистические методы выявления корреляционной связи - student2.ru ) может быть представлена как сумма двух дисперсий средней внутригрупповой дисперсии ( Статистические методы выявления корреляционной связи - student2.ru ), характеризующей ту часть общей дисперсии признака y, которая вызвана действием специфических для групп факторов и не зависит от изменения величин фактора х, а также межгрупповой дисперсии ( Статистические методы выявления корреляционной связи - student2.ru ), характеризующей ту часть величины общей дисперсии, которая целиком складывается под влиянием изменения фактора х (лежащего в основе группировки):

Статистические методы выявления корреляционной связи - student2.ru .

Корреляционное отношение исчисляется по формулам:

Статистические методы выявления корреляционной связи - student2.ru или Статистические методы выявления корреляционной связи - student2.ru .

Корреляционное отношение будет равно 1, если между признаками имеется функциональная связь и равно 0, если связь отсутствует. Корреляционное отношение не указывает направление связи. Это можно выявить из анализа характера изменения фактора и результативного признака.

При прямолинейной форме связи корреляционное отношение равно коэффициенту корреляции без учета знака.

Поэтому определенный интерес представляет сопоставление величины r и Статистические методы выявления корреляционной связи - student2.ru . Когда связь между признаками уклоняется от линейной формы, то Статистические методы выявления корреляционной связи - student2.ru и r несколько отличаются по величине, причем Статистические методы выявления корреляционной связи - student2.ru больше по величине (без учета знака r).

Вычисления r и Статистические методы выявления корреляционной связи - student2.ru должны быть выполнены по одинаковым образом сгруппированным данным (по первичным данным, по групповой таблице, по корреляционной таблице).

При проверке возможности использования линейной связи определяется разность квадратов Статистические методы выявления корреляционной связи - student2.ru , и если эта разность квадратов менее 0,1, то считается возможным применять линейное уравнение корреляционной зависимости.

Имеются и более сложные формулы для этой цели.

При использовании показателей степени тесноты корреляционной связи нужно помнить, что сама по себе величина их не является доказательством наличия причинно-следственной связи между изучаемыми признаками, а являются оценкой только степени взаимной согласованности в изменениях этих признаков.

Возможность причинно-следственной связи обосновывается теорией изучаемых явлений.

Необходимо помнить еще одно обстоятельство: оценка степени тесноты связи производится, как правило, на основе ограниченной информации об изучаемом явлении. Особенно осторожно следует подходить к истолкованию полученных статистических показателей тесноты связи при малых объемах выборочной совокупности.

Кроме рассмотренных интерпретаций коэффициента корреляции и корреляционного отношения, на практике применяются показатели их квадратов, называемые коэффициентами детерминации( Статистические методы выявления корреляционной связи - student2.ru и Статистические методы выявления корреляционной связи - student2.ru ). Коэффициент детерминации характеризует долю (или процент) вариации результативного признака, вызываемой влиянием факторного признака.

Корреляция рангов

Рассмотренные выше показатели оценки степени тесноты корреляционной связи между признаками являются обоснованными лишь в условиях нормального или близкого к нормальному распределению признаков в изучаемой совокупности. Кроме того, как видно из рассмотренных выше формул, для расчета величины r или Статистические методы выявления корреляционной связи - student2.ru необходимо знать численные значения факторного и результативного признаков. В некоторых же случаях мы можем изучать также признаки, которые не поддаются четкому численному выражению.

Эти обстоятельства заставляют пробегать к использованию так называемых непараметрических методов оценки тесноты связи.

Основой непараметрических методов является принцип нумерации вариант (индивидуальных значений) статистического ряда.

Значения признака располагаются по возрастанию (или убыванию). Каждой единице такого ряда присваивается порядковый номер в ряду. Причем номер первый получает наименьшая (или, наоборот, наибольшая) варианта, номер второй получает следующая по величине варианта и т.д.

Эти порядковые номера индивидуальных значений (вариант) изучаемого признака, расположенные в ряду в порядке возрастания или убывания своей величины, называются рангами.

Затем ранги (порядковые номера) индивидуальных значений факторного признака располагают в порядке возрастания (убывания) и с ними сопоставляются соответствующие ранги (порядковые номера) индивидуальных значений результативного признака.

Для повторяющихся индивидуальных значений признака ранг определяется как средняя арифметическая соответствующих номеров. Например, если одинаковые по величине значения признака занимают в ранжированном ряде третье и четвертое места, то ранг (порядковый номер) для каждого из них будет равен Статистические методы выявления корреляционной связи - student2.ru .

Наличие связи между признаками в данном случае можно получить, если сопоставить последовательность взаимного расположения рангов факторного и результативного признаков. Если с возрастанием величины рангов факторного признака х соответствующие им величины рангов результативного признака у обнаруживают тенденцию к увеличению, можно сделать вывод о наличии прямой (положительной) связи. Если же с увеличением рангов факторного признака ранги результативного признака уменьшаются, то это свидетельствует о возможном наличии между изучаемыми признаками обратной связи.

Из многочисленных непараметрических методов оценки степени тесноты связи наибольшее применение в статистическом анализе корреляционной зависимости нашли коэффициенты корреляции рангов, разработанные К. Спирмэном и М. Кендэлом.

Коэффициент корреляции рангов Спирмэна может быть выведен из формулы линейного коэффициента корреляции. Имеет следующий вид:

Статистические методы выявления корреляционной связи - student2.ru ,

где Статистические методы выявления корреляционной связи - student2.ru - коэффициент корреляции рангов Спирмэна,

Статистические методы выявления корреляционной связи - student2.ru - разность между величинами рангов в изучаемых рядах;

n – количество показателей (рангов) в ряде.

Коэффициент корреляции рангов Статистические методы выявления корреляционной связи - student2.ru может варьировать в пределах от +1 (при наличии прямой связи) до –1 (при наличии обратной связи).

Рассмотрим пример.

Пример. а)

Ранги 1-го ряда Статистические методы выявления корреляционной связи - student2.ru
Соответствующие им ранги результативного признака Статистические методы выявления корреляционной связи - student2.ru
Разность между рангами Статистические методы выявления корреляционной связи - student2.ru -4 -2

Статистические методы выявления корреляционной связи - student2.ru .

б)

Ранги факторного признака
Соответствующие им ранги результативного признака
Разность между рангами Статистические методы выявления корреляционной связи - student2.ru

Статистические методы выявления корреляционной связи - student2.ru .

Коэффициент корреляции рангов Кендэла определяется по формуле

Статистические методы выявления корреляционной связи - student2.ru , где Статистические методы выявления корреляционной связи - student2.ru .

Для вычисления Статистические методы выявления корреляционной связи - student2.ru находят два слагаемых P и Q по ряду рангов результативного признака. При определении слагаемого Р нужно последовательно установить сколько рангов находящихся справа от рассматриваемого ранга имеют величину, превышающую данный ранг. Суммируя полученные таким образом числа, получают слагаемое Р. Следовательно слагаемое Р может рассматриваться как мера соответствия последовательности рангов переменной у последовательности рангов переменной х. Необходимо учесть, что ряд рангов переменной х приводится к ряду натуральных чисел. Одинаковые значения признака получают следующие по порядку порядковые номера. Аналогично ранжируются значения ряда у.

Второе слагаемое Q также определяется по ряду Статистические методы выявления корреляционной связи - student2.ru признака у, но как степень несоответствия последовательности рангов признака у последовательности рангов признака-фактора х. Чтобы определить Q последовательно подсчитывается сколько рангов, находящихся справа от рассматриваемого ранга меньше по величине. Такие величины берутся со знаком минус.

Коэффициент корреляции рангов Кендэла также изменяется в пределах от –1 до +1 и равен нулю при отсутствии связи между данными признаками.

По нашим примерам имеем:

а) Статистические методы выявления корреляционной связи - student2.ru . Статистические методы выявления корреляционной связи - student2.ru .

Статистические методы выявления корреляционной связи - student2.ru , т.к. Статистические методы выявления корреляционной связи - student2.ru .

б) Статистические методы выявления корреляционной связи - student2.ru . Статистические методы выявления корреляционной связи - student2.ru .

Статистические методы выявления корреляционной связи - student2.ru . Статистические методы выявления корреляционной связи - student2.ru .

При достаточно большом числе наблюдений между коэффициентами корреляции рангов Спирмэна и коэффициентами корреляции рангов Кендэла существует следующее соответствие

Статистические методы выявления корреляционной связи - student2.ru .

Из этих двух видов коэффициентов корреляции рангов коэффициент Кендэла теоретически обоснован более глубже: существует его распределение для различных n и тем самым имеется возможность проверки его существенности.

Примеры на ранговые корреляции

Пример 1. Оценить тесноту связи между экспертными оценками шансов депутатов на этапе предвыборной компании и результатами выборов в городскую Думу.

Порядковый номер кандидата в депутаты Ранг кандидатов по оценке экспертов Ранг депутатов по числу поданных голосов на выборах Разность рангов Статистические методы выявления корреляционной связи - student2.ru Статистические методы выявления корреляционной связи - student2.ru
Итого - - -

Решение. Расчет коэффициента рангов Спирмэна

Статистические методы выявления корреляционной связи - student2.ru .

Можно предположить наличие достаточно тесной прямой зависимости между оценками экспертов аналитического центра на стадии предвыборной компании и результатами выборов.

Пример 2. По данным примера 1 определить величину коэффициента корреляции рангов Кендэла.

Решение. Упорядочить ранги по х

Экспертные оценки (х)
Результат выборов (у)

Расчет P=35=(8+8+3+3+5+4+3+1).

Расчет Q=-10= (-1, 0, -4, -3, 0, 0, 0, -1, -1).

Отсюда Статистические методы выявления корреляционной связи - student2.ru .

Наши рекомендации