Занятие 25. Корреляционно-регрессионный анализ

Наиболее простым вариантом корреляционной зависимости является парная корреляция, т.е. зависимость между двумя признаками (результативным и факторным или между двумя факторными). Математически эту зависимость можно выразить как зависимость результативного показателя у от факторного показателя х. Связи могут быть прямые и обратные. В первом случае с увеличением признака х увеличивается и признак у, при обратной связи с увеличением признака х уменьшается признак у.

Важнейшей задачей является определение формы связи с последующим расчетом параметров уравнения, или, иначе, нахождение уравнения связи (уравнения регрессии).

Могут иметь место различные формы связи:

прямолинейная

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

криволинейная в виде:

параболы второго порядка (или высших порядков)

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

гиперболы

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

показательной функции

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

и т.д.

Параметры для всех этих уравнений связи, как правило, определяют из системы нормальных уравнений, которые должны отвечать требованию метода наименьших квадратов (МНК):

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

Если связь выражена параболой второго порядка ( Занятие 25. Корреляционно-регрессионный анализ - student2.ru ), то систему нормальных уравнений для отыскания параметров a0 , a1 , a2 (такую связь называют множественной, поскольку она предполагает зависимость более чем двух факторов) можно представть в виде

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

Другая важнейшая задача - измерение тесноты зависимости - для всех форм связи может быть решена при помощи вычисления эмпирического корреляционного отношения Занятие 25. Корреляционно-регрессионный анализ - student2.ru :

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

где - Занятие 25. Корреляционно-регрессионный анализ - student2.ru дисперсия в ряду выровненных значений результативного показателя Занятие 25. Корреляционно-регрессионный анализ - student2.ru ; Занятие 25. Корреляционно-регрессионный анализ - student2.ru - дисперсия в ряду фактических значений у.

Для определения степени тесноты парной линейной зависимости служит линейный коэффициент корреляции r, для расчета которого можно использовать, например, две следующие формулы:

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

Линейный коэффициент корреляции может принимать значения в пределах от -1 до + 1 или по модулю от 0 до 1. Чем ближе он по абсолютной величине к 1, тем теснее связь. Знак указывает направление связи: «+» - прямая зависимость, « - » имеет место при обратной зависимости.

В статистической практике могут встречаться такие случаи, когда качества факторных и результативных признаков не могут быть выражены численно. Поэтому для измерения тесноты зависимости необходимо использовать другие показатели. Для этих целей используются так называемые непараметрические методы.

Наибольшее распространение имеют ранговые коэффициенты корреляции, в основу которых положен принцип нумерации значений статистического ряда. При использовании коэффициентов корреляции рангов коррелируются не сами значения показателей х и у, а только номера их мест, которые они занимают в каждом ряду значений. В этом случае номер каждой отдельной единицы будет ее рангом.

Коэффициенты корреляции, основанные на использовании ранжированного метода, были предложены К. Спирмэном и М. Кендэлом.

Коэффициент корреляции рангов Спирмэна (р) основан на рассмотрении разности рангов значений результативного и факторного признаков и может быть рассчитан по формуле

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

где d = Nx - Ny , т.е. разность рангов каждой пары значений х и у; n - число наблюдений.

Ранговый коэффициент корреляции Кендэла ( Занятие 25. Корреляционно-регрессионный анализ - student2.ru ) можно определить по формуле

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

где S = P + Q.

К непараметрическим методам исследования можно отнести коэффициент ассоциации Кас и коэффициент контингенции Ккон , которые используются, если, например, необходимо исследовать тесноту зависимости между качественными признаками, каждый из которых представлен в виде альтернативных признаков.

Для определения этих коэффициентов создается расчетная таблица (таблица «четырех полей»), где статистическое сказуемое схематически представлено в следующем виде:

Признаки А (да) А (нет) Итого
В (да) a b a + b
В (нет) с d c + d
Итого a + c b + d n

Здесь а, b, c, d - частоты взаимного сочетания (комбинации) двух альтернативных признаков Занятие 25. Корреляционно-регрессионный анализ - student2.ru ; n - общая сумма частот.

Коэффициент ассоциации можно рассчитать по формуле

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

Коэффициент контингенции рассчитывается по формуле

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

Нужно иметь в виду, что для одних и тех же данных коэффициент контингенции (изменяется от -1 до +1) всегда меньше коэффициента ассоциации.

Если необходимо оценить тесноту связи между альтернативными признаками, которые могут принимать любое число вариантов значений, применяется коэффициент взаимной сопряженности Пирсона (КП ).

Для исследования такого рода связи первичную статистическую информацию располагают в форме таблицы:

Признаки A B C Итого
D m11 m12 m13 ∑m1j
E m21 m22 m23 ∑m2j
F m31 m32 m33 ∑m3j
Итого ∑mj1 ∑mj2 ∑mj3 П

Здесь mij - частоты взаимного сочетания двух атрибутивных признаков; П - число пар наблюдений.

Коэффициент взаимной сопряженности Пирсона определяется по формуле

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

где Занятие 25. Корреляционно-регрессионный анализ - student2.ru - показатель средней квадратической сопряженности:

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

Коэффициент взаимной сопряженности изменяется от 0 до 1.

Наконец, следует упомянуть коэффициент Фехнера, характеризующий элементарную степень тесноты связи, который целесообразно использовать для установления факта наличия связи, когда существует небольшой объем исходной информации. Данный коэффициент определяется по формуле

Занятие 25. Корреляционно-регрессионный анализ - student2.ru

где na - количество совпадений знаков отклонений индивидуальных величин от их средней арифметической; nb - соответственно количество несовпадений.

Коэффициент Фехнера может изменяться в пределах -1,0 Занятие 25. Корреляционно-регрессионный анализ - student2.ru Кф Занятие 25. Корреляционно-регрессионный анализ - student2.ru +1,0.

Наши рекомендации