Корреляционное отношение. Его свойства
Простейшие случаи парной нелинейной корреляционной зависимости - это гиперболическая и параболическая зависимости. Их уравнения регрессии, соответственно, имеют следующий вид:
.
Как и в случае линейной зависимости, параметры ai, i = 0, 1, 2 находятся методом наименьших квадратов, который дает приведенные ниже системы нормальных уравнений.
Для гиперболической зависимости:
Для параболической зависимости:
Параметры ai находим, решая данные системы нормальных уравнений.
Прежде чем находить уравнение регрессии, необходимо оценить тесноту взаимосвязи между признаками и проверить значимость этой взаимосвязи.
Теснота взаимосвязи между признаками в нелинейной зависимости измеряется с помощью корреляционного отношения , рассчитываемого по формуле
где Dобщ - общая дисперсия признака Y;
Dм/гр - межгрупповая дисперсия признака Y.
Можно показать, что общая дисперсия результативного признака Y складывается из двух дисперсий: межгрупповой и внутригрупповой, то есть Dобщ = Dм/гр + Dвн/гр,
Межгрупповая дисперсия Dм/гр характеризует вариацию признака Y за счет учтенного фактора, а внутригрупповая дисперсия Dвн/гр - за счет неучтенных факторов.
Dобщ = ; Dм/гр = ;
Dв/гр = , j = ,
где yi - значение признака Y, i = ;
- условнаясредняя признака Y, j = ;
- общая средняя признака Y;
- частота значений признака Y;
- частота значений признака X;
n - объем выборки (сумма всех частот).
Отметим основные свойства корреляционного отношения.
1. Корреляционное отношение изменяется от 0 до 1, то есть
.
Доказательство. Так как для вычисления следует извлечь арифметический квадратный корень из отношения , то . Так как , то . Следовательно, .
2. Если , то корреляционная зависимость между признаками Х и Y отсутствует.
Доказательство. Если , то . Тогда . Следовательно, , где j=1,2,…,k. Поэтому с ростом значений признака X условные средние признака Y не меняются. А это и означает, что между признаками отсутствует корреляционная зависимость.
3. Если , то между факторами X и Y существует функциональная зависимость.
4. Корреляционное отношение связано с выборочным коэффициентом корреляции следующим неравенством:
.
5. Если корреляционная зависимость между признаками X и Y линейная, то .
Доказательство. Так как связь между признаками предполагается линейной, то ее можно описать с помощью линейного регрессионного уравнения: , где .
Тогда
Так как , то выражение для межгрупповой дисперсии примет вид Dм/гр = .
Поэтому , что и требовалось доказать.
Замечание. Так как корреляционное отношение вычисляется по значениям переменных, случайно попавшим в выборку, то величина меняется от выборки к выборке. Следовательно, корреляционное отношение - величина случайная. Поэтому является оценкой генерального корреляционного отношения .
Проверка значимости корреляционного отношения h основана на том, что статистика (критерий) имеет распределение Фишера - Снедекора с и степенями свободы. Здесь - число различных значений дискретного признака X или число частичных интервалов изменения значений непрерывного признака X в выборке.
Выберем уровень значимости . В качестве нулевой гипотезы следует выдвинуть гипотезу H0: , то есть корреляционное отношение h, найденное по выборке, незначимо. В качестве конкурирующей гипотезы следует выдвинуть гипотезу
H1: , то есть h, найденное по выборке, значимо. По виду гипотезы H1 строится правосторонняя критическая область .
Пример 4. Распределение 100 заводов по производственным средствам (Х, тыс. р.) и по суточной выработке (Y, т) дается в следующей корреляционной таблице:
Х | Y | ||||||
Оценить тесноту взаимосвязи между производственными затратами и суточной выработкой при уровне значимости =0,05.
Решение. Признак Y - суточная выработка, т; признак Х - производственные затраты, тыс. р.
Признаки находятся в статистической зависимости. Тесноту взаимосвязи оценим с помощью корреляционного отношения: , где Dобщ = и Dм/гр = .
Найдем групповые средние и общую среднюю признака Y.
общ
Расчеты Dм/гр и Dобщ представим в таблице:
yi | (yi - )2 | ( - )2 | |||
2939,07 4990,59 2043,04 42,25 2270,7 5245,35 | 17,5 24,375 45,26 45,0 52,86 - | - | 2265,76 4583,290 893,8512 219,04 935,4352 - | ||
Итого | - | 8897,3764 |
Dм/гр = ;
Dобщ = .
.
Проверим значимость полученного выборочного корреляционного отношения h при =0,05. Для этого выдвинем гипотезы и . По виду гипотезы H1 строим правостороннюю критическую область .
Воспользуемся статистикой , которая имеет распределение Фишера - Снедекора со степенями свободы и . Здесь - объем выборки, - число различных значений дискретного признака X в выборке, то есть = 100, = 5. Найдем наблюдаемое значение -критерия:
.
Найдем критическое значение -критерия по таблице критических точек распределения Фишера - Снедекора при уровне значимости =0,05 и числах степеней свободы и : .
Так как наблюдаемое значение критерия попало в критическую область ( ), то нулевая гипотеза отвергается, имеет место гипотеза , иными словами, выборочное корреляционное отношение значимо.
Легко проверить, что выборочный линейный коэффициент корреляции для данных наблюдения =0,59. Так как , то корреляционная зависимость между признаками X и Y нелинейная.
Пример 5. Размер производительности горных комбайнов (размер добычи на один выход) в зависимости от длины лавы характеризуется следующими данными:
Х | |||||||||||
Y | 1,74 | 2,02 | 2,12 | 2,05 | 2,17 | 2,74 | 2,40 | 2,48 | 2,50 | 2,39 | . |
Сгруппировав данные по длине лавы в границах (55; 95) и (105; 145), оценить тесноту взаимосвязи параболической зависимости и составить уравнение регрессии.
Решение. Признак Х - длина лавы; признак Y - производительность горного комбайна. Предполагается, что признаки имеют нормальное распределение. Они находятся в статистической зависимости, по условию задачи известно, что они связаны параболической зависимостью.
Предварительно оценим тесноту взаимосвязи между ними, вычислив корреляционное отношение .
Расчеты представим в таблице:
х О (55;95) | х О (105;145) | |||
yi | yi | |||
1,74 2,02 2,12 2,05 2,17 | 3,0276 4,0804 4,4944 4,2025 4,7089 | 2,74 2,40 2,48 2,50 2,39 | 7,5076 5,76 6,1504 6,25 5,7121 | |
Итого | 10,1 | 20,5138 | 12,51 | 31,3801 |
общ =
;
Dобщ = общ - = 5,1894 - (2,26)2 = 0,0818;
Dм/гр = ;
.
Проверим значимость полученного выборочного корреляционного отношения h при =0,15. Для этого выдвинем гипотезы и . По виду гипотезы H1 строим правостороннюю критическую область .
Воспользуемся статистикой , которая имеет распределение Фишера - Снедекора со степенями свободы и . Здесь - объем выборки, - число частичных интервалов изменения значений непрерывного признака X в выборке, то есть = 10,
= 2.
Найдем наблюдаемое значение -критерия:
.
Найдем критическое значение -критерия по таблице критических точек распределения Фишера - Снедекора при уровне значимости =0,05 и числам степеней свободы и : .
Так как наблюдаемое значение критерия попало в критическую область ( ), то нулевая гипотеза отвергается, имеет место гипотеза , иными словами, выборочное корреляционное отношение значимо, и признаки X и Y связаны нелинейной (параболической) зависимостью.
Связь тесная, представим ее аналитически в виде уравнения регрессии вида х » a0 + a1х + a2х2. Параметры ai (i = 0,1,2) найдем из системы нормальных уравнений
Расчеты представим в таблице:
хi | yi | yixi | yi | |||
1,74 2,02 2,12 2,05 2,17 2,74 2,40 2,48 2,50 2,39 | 95,7 131,3 174,25 206,15 287,7 337,5 346,55 | 5263,5 8534,5 11925 14811,25 19584,25 30208,5 45562,5 50249,75 | ||||
Итого 1000 | 22,61 | 2324,15 | 256629,25 |
= 2,261; = 232,415; = 25662,925.
Система нормальных уравнений примет вид
Решая систему, получим: a0 » 0,185, a1 » 0,0362, a2 » - 0,0001. Итак, уравнение регрессии имеет вид
» 0,185 + 0,0362x - 0,0001x2.
Из приведенных громоздких расчетов следует необходимость использования ЭВМ. Ниже приведено решение этой же задачи на ЭВМ.