Надежность зависимости
Определяют две черты зависимости между переменными: величину зависимости и надежность зависимости.
Надежность зависимости – менее наглядное понятие, чем величина зависимости, однако чрезвычайно важна. Оно непосредственно связано с репрезентативностью той определенной выборки, на основе которой строятся выводы. Другими словами, надежность говорит, насколько вероятно, что зависимость подобная найденной, будет вновь обнаружена (подтвердится) на данных другой выборки, извлеченной из той же самой популяции. Если исследование удовлетворяет некоторым специальным критериям, то надежность найденных зависимостей между переменными выборки можно количественно оценить и представить с помощью стандартной статистической меры (называемой р-уровень, или статистический уровень значимости).
Статистическая значимость результата представляет собой оцененную меру уверенности в его правильности. Уровень значимости или р-уровень, - это показатель, находящийся в убывающей зависимости от надежности результата. Более высокий р-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно р-уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить. Другими словами, если зависимость между переменными почти отсутствует, объем выборки, необходимый для ее значимого обнаружения, почти равен объему всей популяции, которой предполагается бесконечным.
Так как надежность изучения связей в значительной степени зависит от количества сопоставляемых данных, необходимо измерять существенность полученного уравнения регрессии и индекса (коэффициента) корреляции. Показатели корреляции, исчисленные для ограниченной по объему совокупности, могут быть искажены действием случайных факторов.
Существенность индекса (коэффициента) корреляции, а, следовательно, всего уравнения регрессии, может быть оценена с помощью дисперсионного анализа (F-критерия Фишера). При этом сравнивают факторную и остаточную дисперсии с учетом числа степеней свободы вариации. F-критерий в данном случае рассчитывают по формуле:
,
где - выборочная факторная дисперсия;
- выборочная остаточная дисперсия;
n – численность выборочной совокупности;
k – число параметров в уравнении регрессии.
Значение F-критерия можно получить также, используя значения индекса или коэффициента корреляции:
; .
Полученное значение F-критерия сравнивают с табличным значением. При этом для факторной дисперсии число степеней свободы вариации составляет , а для остаточной дисперсии Если фактическое значение F-критерия больше табличного, следовательно, связь между признаками достоверна и уравнение регрессии в полной мере отражает эту связь. Если фактическое значение F-критерия меньше табличного, то можно сделать вывод, что связь между признаками носит случайный характер.
Для оценки значимости индекса (коэффициента) корреляции и уравнения регрессии также используют t-критерий Стьюдента, который для больших выборок рассчитывают по формулам:
Для малых выборок формулы имеют вид:
Также, как при дисперсионном анализе, фактическое значение t-критерия сравнивают с табличным с учетом числа степеней свободы вариации n = n - k. Если фактическое значение t-критерия больше табличного, то связь достоверна, если меньше, то связь несущественна.
Рассмотрим методику корреляционного анализа для парной корреляции.
Пример. По выборочным данным получены сведения о среднегодовом удое коров и расходе кормов на голову (табл. 14).
Т а б л и ц а 14