Методы оценки существенности расчета коэффициента корреляции
Как правило расчет коэффициента корреляции при определении тесноты связи производится на базе небольшого числа исходных данных – выборочных данных.
В этой связи возникает необходимость оценить существенности коэффициента корреляции, которая дает возможность распространить выводы по результатам выборочных данных на генеральную совокупность. Критерии оценки существенности расчета коэффициента корреляции основаны на условии нормального распределения значений признака в генеральной совокупности. Рассмотрим некоторые из них: при большом объеме выборки и при малом объеме выборки.
При большом объеме выборки
При большой выборке, отобранной из генеральной совокупности нормального распределения, предполагается считать распредение коэффициента корреляции близко к нормальному со средней, равной «r» и дисперсией , а среднеквадратическая ошибка коэффициента корреляции тогда будет равна:
, где
r – коэффициент корреляции выборочной совокупности;
n – объем выборки;
k = n – 2 – число степеней свободы при линейной зависимости.
Если величина > в раз, или > [8]
Найдем для сгруппированных данных (см. таб. 14) среднюю квадратическую ошибку коэффициента корреляции:
, тогда
С вероятностью0,95 и числом степеней свободы k = 50 – 2 = 48, [9].
Поскольку > , следует, что с вероятностью Р = 0,95 и числом степеней свободы k = 48 можно утверждать о существенности выборочного коэффициента корреляции, т.е. связь между х и y – значимая.
Для генеральной совокупности коэффициент корреляции будет находится в пределах.
или
С вероятностью 0,95 можно утверждать, что коэффициент корреляции будет не ниже 46,6% и не выше 80,4%.
При малой выборки
Для малого объема выборочной совокупности для оценки значимости коэффициента корреляции.
Если > , то расчетный коэффициент корреляции существенен и связь между х и y вполне реальна. Если < , то связь между х и y несущественна и корреляционная связь в генеральной совокупности отсутствует.
По данным таблицы 15
, а с вероятностью 0,95 и числом степеней свободы k = 10 – 2 = 8, [10].
Значит связь между х (простоями) и y – (выпуском продукции) существенна, т.к.
>
8. Проверка возможности использования прямолинейной функции – гипотезы Кендэла[11]о линейной корреляционной зависимости.
Для проведения гипотезы Кендэла о линейной зависимости определяется величина вероятности, которая рассчитывается по следующей формуле:
[12], где
n – объем совокупности
m – число групп по признаку фактору х
Если критерий найденный с определенной вероятностью и критериями свободы ( и ) будут меньше F расчетного, то гипотеза о линейной связи между х и у отвергается. Если наоборот – то возможность использовать линейную функцию не опровергается.
По данным таблицы 14 рассчитаем этот критерий.
Критерий свободы , а . С вероятностью , и табличное значение - критерия [13] = 3,2.
Расчетный критерий равен:
Поскольку меньше , то это не позволяет отклонить гипотезу о линейной связи между производительностью труда – х и товарной продукцией – y.
Вопросы для самопроверки
1. Что такое функциональные и корреляционные связи?
2. Какие задачи стоят перед корреляционным анализом?
3. Назовите виды корреляционной зависимости и рассмотрите их.
4. Как графически изображается корреляционная зависимость для несгруппированных и сгруппированных данных?
5. Эмпирическая линия регрессии и её характеристика.
6. Теоретическая линия регрессии и её характеристика.
7. Показатели тесноты связи и их характеристика.
8. Сущность коэффициента корреляции.
9. Характеристика эмпирического корреляционного отношения.
10. Теоретическое корреляционное отношение и его характеристика.
11. Простейшие показатели тесноты связи: коэффициент Фехнера, коэффициент корреляции рангов, коэффициент ассоциации.
12. Методы оценки существенности расчета коэффициента корреляции.
13. Гипотеза Кендела о линейной корреляционной зависимости.