Тема12. Корреляционный анализ


     
1. Виды проявления а) функциональная связь;  
количественных б) корреляционная связь.  
связей между    
признаками    
2. Определения Функциональная связь — такой вид соотноше-  
функциональной ния между двумя признаками, когда каждому  
и корреляционной значению одного из них соответствует строго  
связи определенное значение другого (площадь кру-  
  га зависит от радиуса круга и т.д.). Функцио-  
  нальная связь характерна для физико-  
  математических и химических процессов.  
  Корреляционная связь — такая связь, при  
  которой каждому определенному значению од-  
  ного признака соответствует несколько значе-  
  ний другого взаимосвязанного с ним признака  
  (связь между ростом и массой тела человека;  
  связь между температурой тела и частотой  
  пульса и др.). Корреляционная связь характер-  
  на для социально-гигиеническихпроцессов,  
  клинической медицины и биологии.  
    3.Практическое значение      
установления корреляционной   Выявление причинно следственной связи между факторными и результативными
связи     признаками (при оценке физического раз-
      вития, для определения связи между усло-
      виями труда, быта и состоянием здоровья,
      при определении зависимости частоты слу-
      чаев болезни от возраста, стажа, наличия
      производственных вредностей и др.).
    Зависимость параллельных изменений не-
      скольких признаков от какой-тотретьей
      величины. Например, под воздействием вы-
      сокой температуры в цехе происходят изме-
      нения кровяного давления, вязкости крови,
4. Величина,     частоты пульса и др.  
направление   Коэффициент корреляции, который одним чис-  
и силу связи между   лом дает представление о направлении и силе  
признаками   связи между признаками (явлениями); преде-  
    лы его колебаний от 0 до ±1.  
       
       
    5. Способы     а) таблица;    
представления б) график (диаграмма рассеяния);    
корреляционной в) коэффициент корреляции.    
связи        
  6. Направление а) прямая;    
корреляционной б) обратная.    
связи        
               


7Сила

корреляционной

связи а) сильная: ±0,7 до ±1; б) средняя: ±0,3 до ±0,699; в) слабая: 0 до ±0,299.

8.Методы

определения

коэффициента

корреляции а) метод квадратов (метод Пирсона); б) ранговый метод (метод Спирмена).

и формулы

9.Методические требования к использованию коэффициента корреляции :

• Измерение связи возможно только в качественно однородных совокупностях (например, измерение связи между ростом и весом в совокупностях, однородных по полу и возрасту).

•Расчет может производиться с использованием как абсолютных, так и производных величин.

•Для вычисления коэффициента корреляции используются несгруппированные данные (это требование применяется только при вычислении коэффициента корреляции по методу квадратов).

10.Рекомендации по применению метода ранговой корреляции(метод Спирмена)
а) когда нет необходимости в точном установлении силы связи, а достаточно ориентировочных данных;

б) когда признаки не только количественные, но и атрибутивные;

в) когда ряды распределения признаков имеют открытые варианты (например, стаж работы до 1 года).

11. Рекомендации к применению метода квадратов(метод Пирсона):

а) когда требуется точное установление силы связи между признаками;

б) когда признаки имеют только количественное выражение.

12.Методика и порядок вычисления коэффициента корреляции

1) Метод квадратов

а) построить вариационные ряды для каждого из сопоставляемых признаков;

б) определить для каждого вариационного ряда средние величины (М1 и М2);

в) найти отклонения (dx и dy) каждой варианты от средней соответствующего вариационного ряда;

г) полученные отклонения перемножить (dx × dy) и просуммировать (∑dx · dy)

д) каждое отклонение возвести в квадрат и просуммировать по каждому ряду (∑dx2 и ∑ dy2); е) подставить полученные значения в формулу

раcчета коэффициента корреляции:

rxy =√∑(dx × dy)/ (∑dx2 × ∑dy2));

при наличии вычислительной техники расчет производится по формуле:

13.Схема оценки корреляционной связи по коэффициенту корреляции

rxy = n∑xy – ∑x × ∑y/√([n∑x2 –/∑x2/][n∑y2 –/∑y2/]))

2) Ранговый метод

а) составить два ряда из парных сопоставляемых признаков, обозначив первый и второй ряд, соответственно, х иу. При этом представить первый ряд признака в убывающем или возрастающем порядке, а числовые значения второго ряда расположить напротив того значения первого ряда, которым они соответствуют;

б) величину признака в каждом из сравниваемых рядов заменить порядковым номером (рангом). Рангами, или номерами, обозначают места показателей (значения) первого и второго рядов. При этом числовым значениям второго признака ранги должны присваиваться в том же порядке, какой был принят при раздаче их величинам первого признака. При одинаковых величинах признака в ряду ранги следует определять как среднее число из суммы порядковых номеров этих величин;

в) определить разность рангов между х иу (d) d = х — у;

г) возвести полученную разность рангов в квадрат (d2);

д) получить сумму квадратов разности (∑d2) и подставить полученные значения в формулу:

ρху = 1–(6∑ d2 / n (n2 – 1))

Сила связи Направление связи
Прямая (+) Обратная(-)
Сильная От +1 до +0,7 От -1 до -0,7
Средняя От +0,699 до +0,3 От -0,699 до -0,3
Слабая От +0,299 до 0 От -0,299 до 0

Таблица 6. Сила корреляционной связи

14.Вычисление ошибки коэффициента корреляции

15.Оценка достоверности коэффициента корреляции, полученного методом ранговой корреляции и методом квадратов. Связь, при которой коэффициент корреляции равен +1,0 или –1,0,называется полной (функциональной).

а) ошибка коэффициента корреляции, вычисленного методом квадратов (Пирсона):

mrxy=√(1 – r2xy/ n – 2))

б) ошибка коэффициента корреляции, вычисленного ранговым методом (Спирмена):

mрxy = √(1 – p2xy/n – 2))

15. Коэффициент детерминации обладает важным преимуществом по сравнению с коэффициентом корреляции. Корреляция не является линейной функцией связи между двумя переменными.

Поэтому, среднее арифметическое коэффициентов корреляции для нескольких выборок не

совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок (т.е.

коэффициент корреляции не аддитивен). Напротив, коэффициент детерминации отражает связь

линейно и поэтому является аддитивным: допускается его усреднение для нескольких выборок.

Дополнительную информацию о силе связи дает значение коэффициента корреляции в квадрате

- коэффициент детерминации: это часть дисперсии одной переменной, которая может быть

объяснена влиянием другой переменной. В отличие от коэффициента корреляции коэффициент

детерминации линейно возрастает с увеличением силы связи.

В нелинейной регрессии используется индекс корреляции (0<pxy<1);

Pxy= 1- ∑ (y1-yxi)2/∑ (y1-yxi)2

Для оценки качества используют коэффициент детерминации.Долю дисперсии, которая обусловлена регрессией , в общей дисперсии показателя у характерезует коэффициент детерминации R2.

R2=∑ (yxi-y)2/∑ (y1-y)2

ЗАДАЧА-ЭТАЛОН

В городе А увеличилась показатели число травм среди мужчин работающих в шахте со стажам до 10 лет. В результате проведенного исследования были получены следующие результаты:

1.По представленным данным определите вид коэффициента корреляции, применимый в данном случае.

2.Вычислите коэффициент корреляции.

3.Определите характер и размер связи между этими явлениями.

4.Сделайте выводы если 1) p=0,346; 2) p=0,014;

Стаж работы в годах Число травм
   
До 1 года
   
1—2
   
3—4
   
5—6
   
7 и более
   

Обоснования выбора метода: для решения задачи может быть выбран только метод ранговой корреляции, так как первый ряд признака «стаж работы в годах» имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для установления связи между сопоставляемыми признаками более точный метод — метод квадратов.

РЕШЕНИЕ ЗАДАЧИ

Последовательность расчетов изложена в тексте, результаты представлены

           
             
  Стаж Чис- Порядковые но- Разность Квадрат
  мера (ранги) рангов разности рангов
  работы ло
         
  в годах травм x y d d2
 
             
  До 1 года –4
             
  1–2 –2
             
  3–4 2,5 +0,5 0,25
             
  5–6 2,5 +1,5 2,25
             
  7 и более +4
             
            Σd2 = 38,5

1.Каждый из рядов парных признаков обозначить через х и черезу(графы1—2).

2.Величину варианта каждого из признаков заменить ранговым (порядковым) номером. Порядок раздачи рангов в ряду х следующий: минимальному значению признака (стаж до 1 года) присвоен порядковый номер 1, последующим вариантам этого же ряда признака соответственно в порядке увеличения2-й,3-й,4-йи5-йпо-

рядковые номера — ранги (см. графу 3). Аналогичный порядок соблюдается при раздаче рангов второму признаку у (графа 4). В тех случаях, когда встречаются несколько одинаковых по величине вариант (например, взадаче-эталонеэто 12 и 12 травм при стаже3—4года и5—6лет), порядковый номер обозначить средним числом из суммы их порядковых номеров: так, одинаковое число травм при разном стаже работы:3—4года и5—6лет. Эти данные о числе травм (12 травм) при ранжировании должны занимать 2 и 3 места, таким образом среднее число из них равно (2 + 3)/2 = 2,5.

Итак, числу травм «12» и «12» (признак у) следует раздать одинаковые ранговые номера — 2,5 (графа 4).

3.Определить разность рангов d = (х — у) — (графа 5).

4.Разность рангов возвести в квадрат (d2 ) и получить сумму квадратов разности рангов Σd2 (графа 6).

5.Произвести расчет коэффициента ранговой корреляции по формуле:

ρху = 1–(6∑ d2 / n (n2 – 1))

где n — число сопоставляемых пар вариант в ряду х и в рядуу.

ρху = 1–((6×38,5)/5(52-1))=1-325/5(25-1)=1-325/120=1-1,92=-0.92

Вывод: с вероятностью безошибочного прогноза (р) больше 95% установлена обратная,сильнаякорреляционная связь между стажем работы и числом травм, т.е. чем меньше стаж работы, тем больше травм.

ЗАДАЧА-ЭТАЛОН

Пример задание по методом Пирсона

Исследователем изучалось взаимосвязь влияния концентрации кальция в воде на её жёсткость. Получены следующие данные:

Жёсткость воды (в градусах) Количество кальция в воде (в мл/л)

5.По представленным данным определите вид коэффициента корреляции, применимый в данном случае.

6.Вычислите коэффициент корреляции.

7.Определите характер и размер связи между этими явлениями.

8.Сделайте выводы если 1) p=0,346; 2) p=0,014;

Обоснование выбора метода. Для решения задачи выбран метод квадратов (Пирсона), т.к. каждый из признаков (жесткость воды и количество кальция) имеет числовое выражение; нет открытых вариант.

Решение.
Последовательность расчетов изложена в тексте, результаты представлены в таблице. Построив ряды из парных сопоставляемых признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).

Жесткость воды (в градусах) Количество кальция в воде (в мг/л) dх dу dх х dу dx2 dy2
4 8 11 27 34 37 28 56 77 191 241 262 -16 -12 -9 +7 +14 +16 -114 -86 -66 +48 +98 +120 1824 1032 594 336 1372 1920 256 144 81 49 196 256 12996 7396 4356 2304 9604 14400
Мх=Σ х / n Му=Σ у / n   Σ dх x dу=7078 Σ dх2=982 Σ dy2=51056
Мх=120/6=20 Мy=852/6=142  

Определить средние величины Mx ряду вариант "х" и Му в ряду вариант "у" по формулам:
Мх = Σх/n (графа 1) и
Му = Σу/n (графа 2)

Найти отклонение (dх и dу) каждой варианты от величины вычисленной средней в ряду "x" и в ряду "у"
dх = х — Мх (графа 3) и dy = у — Му (графа4).

Найти произведение отклонений dx х dy и суммировать их: Σ dх х dу (графа 5)

Каждое отклонение dx и dу возвести в квадрат и суммировать их значения по ряду "х" и по ряду "у": Σ dx2 = 982 (графа 6) и Σ dy2 = 51056 (графа 7).

Определить произведение Σ dx2 х Σ dy2 и из этого произведения извлечь квадратный корень

Тема12. Корреляционный анализ - student2.ru

Полученные величины Σ (dx x dy) и √(Σdx2 x Σdy2) подставляем в формулу расчета коэффициента корреляции:

Тема12. Корреляционный анализ - student2.ru

Наши рекомендации