Назначение корреляционного анализа

Задача корреляционного анализа состоит в количественном определении тесноты связи между двумя признаками и статистической оценке надежности установленной связи.

Условия применения анализа.

1. Корреляционный анализ можно применять только в том случае, когда данные наблюдения или эксперимента можно считать случайными и выбранными из нормальной совокупности.

2. Выборки из изучаемых генеральных совокупностей должны быть достаточно большого объема, так как для статистической методологии важное значение имеет закон больших чисел. Его содержание сводится к следующему: в массе индивидуальных явлений общая закономерность проявляется тем полнее и точнее, чем больше их охвачено наблюдением, только в этом случае происходит взаимопогашение индивидуальных значений признака от средней величины.

3. Отдельные наблюдения должны быть независимыми, то есть результаты, полученные в отдельном наблюдении, не должны содержать информацию о последующих наблюдениях и не должны быть связаны с будущими.

Алгоритм применения корреляционного анализа.

Основной оценкой для тесноты связи между переменными Назначение корреляционного анализа - student2.ru и Назначение корреляционного анализа - student2.ru служит выборочный коэффициент корреляции r, который определяется по формуле Назначение корреляционного анализа - student2.ru

Свойства выборочного коэффициента корреляции:

1. Коэффициент корреляции принимает значения на отрезке [-1; 1], то есть Назначение корреляционного анализа - student2.ru .

В зависимости от того насколько Назначение корреляционного анализа - student2.ru приближается к 1, различают слабую, умеренную и сильную связь, то есть чем ближе Назначение корреляционного анализа - student2.ru к 1, тем теснее связь.

2. Если Назначение корреляционного анализа - student2.ru , то корреляционная связь между Назначение корреляционного анализа - student2.ru и Назначение корреляционного анализа - student2.ru представляет собой линейную зависимость.

Запишем более подробно формулу для вычисления коэффициента корреляции: Назначение корреляционного анализа - student2.ru .

Замечание. Приведена формула для не сгруппированных данных.

Так как r вычисляется по данным выборки, то в отличие от генерального коэффициента корреляции, является величиной случайной. Если Назначение корреляционного анализа - student2.ru , то возникает вопрос, объясняется ли это действительно существующей линейной связью между Назначение корреляционного анализа - student2.ru и Назначение корреляционного анализа - student2.ru или вызвано случайными факторами. Для выяснения этого вопроса проведем проверку статистической гипотезы.

Назначение корреляционного анализа - student2.ru : корреляционная связь отсутствует между переменными Назначение корреляционного анализа - student2.ru и Назначение корреляционного анализа - student2.ru , то есть Назначение корреляционного анализа - student2.ru .

Вычислим эмпирическое значение критерия Назначение корреляционного анализа - student2.ru . находим в таблице распределения Стьюдента критическое значение Назначение корреляционного анализа - student2.ru , определенное на уровне значимости Назначение корреляционного анализа - student2.ru и числом степеней свободы Назначение корреляционного анализа - student2.ru . Если Назначение корреляционного анализа - student2.ru , то гипотеза Назначение корреляционного анализа - student2.ru отвергается.

Пример. Фирма провела рекламную компанию. Через 10 недель фирма решила проанализировать эффективность этого вида рекламы, сопоставляя недельные объемы продаж Назначение корреляционного анализа - student2.ru с расходами на рекламу Назначение корреляционного анализа - student2.ru .

x
y

Для данных, приведенных в таблице найти выборочный коэффициент корреляции, проверить его значимость на уровне значимости Назначение корреляционного анализа - student2.ru .

Назначение корреляционного анализа - student2.ru

Назначение корреляционного анализа - student2.ru

Назначение корреляционного анализа - student2.ru

Простейший способ задания статистических данных – набор пар чисел Назначение корреляционного анализа - student2.ru , где Назначение корреляционного анализа - student2.ru – выборка значений переменной Назначение корреляционного анализа - student2.ru , Назначение корреляционного анализа - student2.ru – выборка значений переменной Назначение корреляционного анализа - student2.ru .

Однако очень часто экспериментальные данные задаются в виде корреляционной таблицы.

Yi Xi 12,5 147,5 22,5 27,5 nj
20-21 20,5 - - -
21-22 21,5 - - -
22-23 22,5 - -
23-24 23,5 - -
24-25 24,5 - - -
ni n=20

В первой строке – значения Назначение корреляционного анализа - student2.ru , в первом столбце интервалы изменения Назначение корреляционного анализа - student2.ru , во втором – середина интервала. Центральная часть таблицы – частоты Назначение корреляционного анализа - student2.ru , соответствующие xi и yj. В последней строке Назначение корреляционного анализа - student2.ru , где в последнем столбце Назначение корреляционного анализа - student2.ru - , где Назначение корреляционного анализа - student2.ru – число значений Назначение корреляционного анализа - student2.ru , Назначение корреляционного анализа - student2.ru – число значений Назначение корреляционного анализа - student2.ru . Число всех значений Назначение корреляционного анализа - student2.ru .

Формула вычисления коэффициента корреляции для данных, заданных корреляционной таблицей

Назначение корреляционного анализа - student2.ru

Пример. Для данных таблицы найти выборочный коэффициент корреляции, проверить его значимость на уровне α = 0,05.

Решение. Находим суммы:

Назначение корреляционного анализа - student2.ru Назначение корреляционного анализа - student2.ru

Назначение корреляционного анализа - student2.ru Назначение корреляционного анализа - student2.ru

Вычислим: Назначение корреляционного анализа - student2.ru

Назначение корреляционного анализа - student2.ru

Подставляя полученные суммы в ( Назначение корреляционного анализа - student2.ru ), найдем выборочный коэффициент корреляции

Назначение корреляционного анализа - student2.ru

Проверим значимость r на уровне α = 0,05.

Для этого вычислим

Назначение корреляционного анализа - student2.ru

по таблице распределения Стьюдента при k = n-2 = 18, находим Назначение корреляционного анализа - student2.ru 2,1. Так как Назначение корреляционного анализа - student2.ru > Назначение корреляционного анализа - student2.ru , то считаем значение r статистически значимым.

Регрессионный анализ.

Корреляционно-регрессионный анализ находит широкое применение в социологических исследованиях для прогнозирования уровня результативного признака путём подстановки в уравнение регрессии ожидаемых или планируемых значений факторного признака.

Как было отмечено в 7.1. при корреляционной зависимости между случайными корреляционными X и Y условное математическое одной из них зависит от значений другой.

Корреляционная зависимость может быть представлена в виде

Y1(x) = Mx(Y); Y2(y) = My(x).

Эти уравнения называются уравнениями регрессии, а их графики линиями регрессии.

При изучении статистической зависимости в социологии одним из главных моментов является установление формы зависимости, вида функции регрессии и её параметров, что является задачами регрессионного анализа.

Рассмотрим простейший случай линейной регрессии, когда функция Y линейна по X, то есть Yx = a+bx.

Проведем случайную выборку. При значениях х1, х2, - xn, мы наблюдаем значения y1, y2, - yn. Отметим на плоскости Oxy точки с координатами (x1, y1), (x2, y2) – ( xn, yn). Если связь между X и Y линейна, то точки группируются вокруг некоторой прямой линии y=a+bx. Точки не находятся прямо на линии, что неудивительно. Ведь помимо x на поведение y оказывают влияние и другие факторы.

Если в уравнение y= ax+b подставить значения x1, x2, xn случайной выборки, то будут получены значения Назначение корреляционного анализа - student2.ru , которые будут отличаться от y1, y2, yn.

Разница Назначение корреляционного анализа - student2.ru называется ошибкой. Назначение корреляционного анализа - student2.ru Значения коэффициентов a и b в уравнении y=a+bx необходимо подобрать так, чтобы минимизировать сумму Назначение корреляционного анализа - student2.ru Назначение корреляционного анализа - student2.ru . Для этого используется метод наименьших квадратов (МНК).

Согласно МНК неизвестные параметры a и b выбираются так, чтобы сумма квадратов отклонений выборочных значений yi от их значений, вычисленных по формуле, была минимальной, то есть

Назначение корреляционного анализа - student2.ru

На основании необходимого условия экстремума функции S(a,b) приравниваем к нулю её частные производные.

Получим систему:

Назначение корреляционного анализа - student2.ru

После преобразований получим:

Назначение корреляционного анализа - student2.ru

Это система двух уравнений с двумя неизвестными a и b. Решая её, находим:

Назначение корреляционного анализа - student2.ru

Назначение корреляционного анализа - student2.ru

Учитывая, что Назначение корреляционного анализа - student2.ru , Назначение корреляционного анализа - student2.ru , Назначение корреляционного анализа - student2.ru , Назначение корреляционного анализа - student2.ru , получим:

Назначение корреляционного анализа - student2.ru , Назначение корреляционного анализа - student2.ru

Коэффициент в уравнении регрессии Y по X называется коэффициентом регрессии и обозначается bxy. Из определения выборочного коэффициента корреляции r следует, что Назначение корреляционного анализа - student2.ru .

Из полученных выражений для a и b можно получить формулы: Назначение корреляционного анализа - student2.ru , Назначение корреляционного анализа - student2.ru , поэтому линейное уравнение регрессии можно записать в обычной форме, принятой в математической статистике:

Назначение корреляционного анализа - student2.ru , или

Назначение корреляционного анализа - student2.ru .

Аналогичным образом, уравнение регрессии X на Y имеет вид:

Назначение корреляционного анализа - student2.ru .

Пример.Для зависимости Y от X, заданной в примере 8.1, записать уравнение линейной регрессии yx=a+bx.

Решение:

1.Воспользуемся данными из предыдущего примера (см. 8.1)

Назначение корреляционного анализа - student2.ru

Назначение корреляционного анализа - student2.ru , Назначение корреляционного анализа - student2.ru

Примеры для самостоятельного решения.

По результатам наблюдений найти оценки коэффициентов линейной регрессии.

  Назначение корреляционного анализа - student2.ru Назначение корреляционного анализа - student2.ru Назначение корреляционного анализа - student2.ru
0,95
0,99
0,95
0,99
0,95

Ранговая корреляция.

Изложенный выше метод линейной корреляции является параметрическим, а значит, требует нормального закона распределения для X и Y, а также больших объемов выборок, что предполагает компьютерную обработку данных.

Альтернативой этому методу может служить метод ранговой корреляции Спирмена. Основанием для выбора метода ранговой корреляции служит его универсальность и простота. Метод применим к любым количественно измеренным или ранжированным данным, и позволяет подсчитывать корреляцию «вручную».

Назначение метода ранговой корреляции Спирмена.

Метод ранговой корреляции Спирмена позволяет определить тесноту (силу) и направление корреляционной связи между двумя признаками.

Ограничения.

1. По каждой переменной должно быть представлено не менее 5 наблюдений.

2. При большом количестве одинаковых рангов по одной или обеим переменным метод дает огрубленные результаты.

Гипотезы.

Но: Корреляция между двумя переменными X и Y не отличается от нуля.

Н1: Корреляция между переменными X и Y статистически достоверно отличается от нуля.

Описание метода.

Для подсчета ранговой корреляции необходимо располагать двумя рядами значений, которые могут быть проранжированы. Для подсчета ранговой корреляции Спирмена необходимо вычислить квадрат разности рангов

d2= (ранг А- ранг B)2.

Коэффициент ранговой корреляции Спирмена подсчитывается по формуле

Назначение корреляционного анализа - student2.ru

N ― количество ранжируемых значений.

При заданном уровне значимости α и объеме выборок N в таблице 15 находим rкрит. ― критическое значение критерия Спирмена.

Если rэмп.< rкрит., Но принимается.

Пример. Связаны ли между собой корреляционной зависимостью X и Y, выборочные значения которых представлены в таблице в 1 и 3 столбцах соответственно. Принять α =0,05.

X RX Y RY d= (Rx-Ry) d2
5,5 4,5 20,25
-1
-4
-4
-2
5,5 -4,5 20,25

Решение.

Назначение корреляционного анализа - student2.ru

Назначение корреляционного анализа - student2.ru

Назначение корреляционного анализа - student2.ru , rэмп < r крит

Ответ: Но принимается.

Примеры для самостоятельного решения:

Выяснить, существует ли корреляционная зависимость между выборками.

  Назначение корреляционного анализа - student2.ru Назначение корреляционного анализа - student2.ru Назначение корреляционного анализа - student2.ru
0,99
0,95
0,99
0,95
0,99

ЗАКЛЮЧЕНИЕ

Наши рекомендации