Парный корреляционный анализ

Основные понятия.

В курсе математического анализа одним из основных понятий является понятие функциональной зависимости, при которой каждому значению одной переменной ставится в соответствие единственное вполне определенное значение другой. Такая зависимость на практике встречается достаточно редко и является, как правило, некоторой идеализацией реально существующих зависимостей. Тем не менее функциональная зависимость играет важную роль в тех областях науки, где подобная идеализация не приводит к грубым неточностям и противоречиям (классическая механика, классическая электродинамика и др.). Развитие естественных наук (особенно в XX веке) привело к тому, что стали изучаться явления и процессы, для описания которых функциональные зависимости оказались непригодными.

В математической статистике вводится понятие статистической зависимости.

Определение 1. Зависимость между случайными величинами Y и Х называется статистической (стохастической), если каждому значению одной случайной величины (Х) соответствует определенное условное распределение другой случайной величины (Y).

Статистическую зависимость можно перевести в функциональную, если рассмотреть зависимость условного математического ожидания СВ Y от Х или условного математического ожидания Х от Y.

Определение 2. Корреляционной зависимостью называется функциональная зависимость между значениями одной случайной величины и условным математическим ожиданием другой.

Аналитически корреляционную зависимость можно задать следующим образом

M_X(Y) = f(x), M_Y(X) = g(y), (*)

где f(x) ¹ const и g(y) ¹ const.

Уравнения (*) называются уравнениями регрессии.

Основные задачи данного раздела:

1) выявление связи между случайными величинами и оценка ее тесноты;

2) установление вида регрессии.

Первая задача является основной задачей корреляционного анализа, вторая – регрессионного.

Парный корреляционный анализ.

Решение основной задачи корреляционного анализа можно разбить на следующие этапы.

1. Сбор выборки пар (x_i, y_j) для характеристики закона распределения двумерной СВ (Х, Y) и ее запись в удобной для работы форме.

2. Расчет численных значений выборочных коэффициентов, характеризующих связь между СВ Х и Y.

3. Проверка гипотезы о значимости связи между Х и Y.

Рассмотрим каждый из этапов подробнее.

1. Данные о статистической зависимости удобно задавать в виде корреляционной таблицы 1.

В данной таблице n_ij – частота, с которой в опыте встречается пара
(x_i, y_j), где i = 1, 2, 3, …, k; j = 1, 2, 3, …, m.

Таблица 1.

y_j x_i	y₁	y₂	…	y_m	S = n_x
x₁	n₁₁	n₁₂	…	n_1m
x₂	n₂₁	n₂₂	…	n_2m
…	…	…	…	…	…
x_k	n_k1	n_k2	…	n_km
S = n_y			…

2. Для оценки тесноты используются коэффициент корреляции r_XY (r_YX) и корреляционное отношение h_XY (h_YX).

Коэффициент корреляции служит для характеристики тесноты линейной зависимости между СВ Х и Y.

По данным выборки коэффициент корреляции рассчитывается следующим образом

Парный корреляционный анализ - student2.ru ,

где Парный корреляционный анализ - student2.ru , , , S_X, S_Y – выборочные средние квадратические отклонения случайных величин Х и Y соответственно.

Свойства коэффициента корреляции.

1) r_XY = r_YX = r.

2) Коэффициент корреляции принимает значения на отрезке [-1; 1], т.е.

-1 £ r £ 1.

3) При r = ± 1 корреляционная связь является линейной функциональной.

4) При r = 0 линейная корреляционная связь отсутствует.

5) Если случайные величины независимы, то r = 0.

Заметим, что равенство r = 0 говорит об отсутствии только линейной корреляционной связи, а не корреляционной связи вообще

Несложно заметить, что r является выборочной точечной оценкой коэффициента корреляции r_Г между случайными величинами Х и Y генеральной совокупности

Парный корреляционный анализ - student2.ru .

Для проверки значимости выборочного коэффициента корреляции рассматривается гипотеза Н₀: r_Г = 0 и гипотеза Н₁: r_Г ¹ 0.

При справедливости гипотезы Н₀ статистика

Парный корреляционный анализ - student2.ru

имеет t-распределение Стьюдента с l = n – 2 степенями свободы.

Приведем правило проверки гипотезы о значимости выборочного коэффициента корреляции.

1. По данным выборки рассчитывается величина Парный корреляционный анализ - student2.ru .

2. Находится значение t(1 - a; n – 2) по таблице IV распределения Стьюдента.

3. Если |t_Э| £ t(1 - a; n – 2), то нет оснований отвергнуть гипотезу Н₀:
r_Г = 0. Если |t_Э| > t(1 - a; n – 2) гипотеза Н₀ отвергается, т.е. r_Г ¹ 0.

Коэффициент корреляции r является показателем тесноты линейной связи. Для оценки тесноты нелинейной связи вводится числовая характеристика – корреляционное отношение.

Генеральным корреляционным отношением называется величина

Парный корреляционный анализ - student2.ru или (*)

В уравнении (*) Парный корреляционный анализ - student2.ru и – общие дисперсии СВ Y и Х, – межгрупповая дисперсия СВ Y, которая характеризует разброс значений реализаций СВ Y относительно определенных реализаций СВ Х (для Парный корреляционный анализ - student2.ru - аналогично). Величины h_Y_,_X и h_X_,_Y в общем случае являются различными, поэтому там, где это необходимо, мы будем снабжать символ корреляционного отношения соответствующими индексами. Если такой необходимости нет, то будем использовать символ h.

Корреляционное отношение характеризует степень концентрации двумерного распределения (X, Y) вблизи линии регрессии.

Аналогично можно ввести выборочное корреляционное отношение, для чего в уравнении (*) значения Парный корреляционный анализ - student2.ru и нужно заменить на их выборочные аналоги.

Свойства корреляционного отношения.

1) 0 £ h £ 1.

2) Если h = 0, то корреляционная связь отсутствует.

3) Если h = 1, между переменными Х и Y существует функциональная связь.

4) h ³ |r|.

5) Если h = |r|, то между случайными величинами существует линейная корреляционная зависимость.

Для проверки значимости корреляционного отношения используется статистика

Парный корреляционный анализ - student2.ru ,

где n – объем выборки, m – число интервалов по сгруппированным данным.

Если справедлива гипотеза Н₀: h = 0, то СВ F имеет распределение Фишера.

Таким образом, если Парный корреляционный анализ - student2.ru , где a - выбранный уровень значимости, k₁ = n – 1, k₂ = n – m, то нет оснований отвергнуть гипотезу Н₀. Если , то гипотеза Н₀ отвергается и делается вывод о наличии между случайными величинами корреляционной зависимости.

П р и м е р 1. Распределение Х и Y приводится в корреляционной таблице 2.

Таблица 2.

Y X										n_x
-2
-1



n_y

Найти коэффициент корреляции r, корреляционные отношения h_X_,_Y и h_Y_,_X и проверить их значимость.

Решение. Найдем выборочные числовые характеристики случайных величин Х и Y.

Парный корреляционный анализ - student2.ru .

Парный корреляционный анализ - student2.ru

Парный корреляционный анализ - student2.ru .

Найдем коэффициент корреляции

Парный корреляционный анализ - student2.ru .

Полученный результат говорит о том, что между величинами Х и Y нет линейной корреляционной связи. Выясним, есть ли между величинами Y и Х нелинейная корреляционная связь, рассчитав корреляционные отношения и h_Y_,_X и h_X_,_Y.

Для расчета h_Y,_X необходимо найти значение межгрупповой дисперсии Y для определенных значений x_i

Парный корреляционный анализ - student2.ru .

Найдем средние значения величины Y, вычисленные по группам

Парный корреляционный анализ - student2.ru ,

Парный корреляционный анализ - student2.ru .

Следовательно, Парный корреляционный анализ - student2.ru

Таким образом СВ Y не зависит корреляционно от величины Х.

Рассчитаем h_X_,_Y.

Найдем значение межгрупповой дисперсии величины Х для определенных значений y_i.

Парный корреляционный анализ - student2.ru ,

Парный корреляционный анализ - student2.ru .

Проверим значимость h_X,_Y.

Рассмотрим наблюдаемое значение критерия F

Парный корреляционный анализ - student2.ru .

Используя таблицу V приложений, найдем значение Парный корреляционный анализ - student2.ru .

Так как Парный корреляционный анализ - student2.ru , то величина Х корреляционно зависит от величины Y. Более того, можно сказать, что данная зависимость близка к функциональной, поскольку h_X_,_Y » 1.

Случай, когда корреляционная зависимость Х от Y есть, а зависимости Y от Х нет, не является чем-то экстраординарным. Например, существует зависимость средней урожайности от количества выпавших осадков, однако количество осадков от урожайности не зависит.

Парная регрессия.

Если задачей корреляционного анализа является установление зависимости между величинами Х и Y, то задачей регрессионного анализа является установление формы зависимости между переменными.

В предыдущем пункте мы определили уравнение регрессии как уравнение вида

М_Х(Y) = f(x). (*)

Уравнение (*) можно записать следующим образом

у = f(x) + e,

где f(х) – функция регрессии, e - случайная составляющая, характеризующая отклонение у от функции регрессии.

В дальнейшем будем полагать, что величина e удовлетворяет следующим условиям:

1) М(e) = 0;

2) выборочные значения e являются независимыми значениями;

3) величина e имеет нормальное распределение.

Регрессионный анализ не может самостоятельно по данной выборке предложить ту или иную форму регрессионной кривой. Вид регрессии должен быть выяснен с помощью иной теории, в которой рассматривалась бы суть данного явления. Например, утверждение о том, что энергия равновесного излучения пропорциональна четвертой степени температуры, было получено Стефаном и Больцманом из термодинамических соображений, а коэффициент s (U = s T⁴) был найден в результате обработки опытных данных.

На практике наиболее часто встречается одна из простейших моделей регрессии – линейная. Уравнение линейной регрессии имеет вид

y = а x + b + e.

Сформулируем задачу регрессионного анализа для данного случая.

По выборке объемом n, составленной из реализаций двумерной СВ (Х,Y), найти оценки параметров а и b и проверить, соответствует ли линейная модель экспериментальным данным.

Очевидно, что оценки а и b следует подобрать так, чтобы значения
Парный корреляционный анализ - student2.ru = a x_i + b как можно ближе находились к экспериментальным значениям. В качестве меры близости удобно взять сумму квадратов отклонений экспериментальных данных от теоретических. Можно показать, что в случае, когда e имеет нормальное распределение, наилучшие оценки параметров регрессии получают с помощью метода наименьших квадратов (МНК).

Применим МНК для отыскания оценок параметров а и b.

Составим сумму квадратов отклонений как функцию возможных, но неизвестных параметров а и b:

Парный корреляционный анализ - student2.ru .

Для минимизации функции F приравняем к нулю ее частные производные по параметрам

Парный корреляционный анализ - student2.ru

Преобразуем полученную систему к более удобному виду

Парный корреляционный анализ - student2.ru

Учитывая, что Парный корреляционный анализ - student2.ru , и (k = 1, 2), получим

Парный корреляционный анализ - student2.ru

Отсюда

Парный корреляционный анализ - student2.ru (*)

Заметим, что, если искать уравнение линейной регрессии х от у, т.е.
x = c y + d, то

Парный корреляционный анализ - student2.ru (**)

Учитывая, что Парный корреляционный анализ - student2.ru , , r_XY = r_YX = r = , где S_X и S_Y – выборочные средние квадратические отклонения, преобразуем уравнения (*) и (**) к следующему виду

Парный корреляционный анализ - student2.ru

Таким образом, уравнения линейной регрессии можно записать в виде:

Парный корреляционный анализ - student2.ru ,

Парный корреляционный анализ - student2.ru

или

Парный корреляционный анализ - student2.ru ,

где у_х, х_у – условные (групповые) средние, представляющие выборочные оценки M_X(Y) и M_Y(X) соответственно.

Найдем тангенс угла между прямыми регрессии (см. рис.1) с угловыми коэффициентами а и Парный корреляционный анализ - student2.ru .

Парный корреляционный анализ - student2.ru х

Рис.1.

Парный корреляционный анализ - student2.ru .

Из полученной формулы видно, что при r = ± 1 уравнения регрессии совпадают. Если r = 0, то прямые регрессии перпендикулярны и их уравнения имеют вид: Парный корреляционный анализ - student2.ru , .

Значимость уравнения регрессии проверяют, используя дисперсионный анализ. В данном случае общую дисперсию разбивают на дисперсию, которая обусловлена регрессией, и дисперсию, которая обусловлена действием случайных факторов, т.е.

Парный корреляционный анализ - student2.ru .