Надежность зависимости

Определяют две черты зависимости между переменными: величину зависимости и надежность зависимости.

Надежность зависимости – менее наглядное понятие, чем величина зависимости, однако чрезвычайно важна. Оно непосредственно связано с репрезентативностью той определенной выборки, на основе которой строятся выводы. Другими словами, надежность говорит, насколько вероятно, что зависимость подобная найденной, будет вновь обнаружена (подтвердится) на данных другой выборки, извлеченной из той же самой популяции. Если исследование удовлетворяет некоторым специальным критериям, то надежность найденных зависимостей между переменными выборки можно количественно оценить и представить с помощью стандартной статистической меры (называемой р-уровень, или статистический уровень значимости).

Статистическая значимость результата представляет собой оцененную меру уверенности в его правильности. Уровень значимости или р-уровень, - это показатель, находящийся в убывающей зависимости от надежности результата. Более высокий р-уровень соответствует более низкому уровню доверия к найденной в выборке зависимости между переменными. Именно р-уровень представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю популяцию. Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить. Другими словами, если зависимость между переменными почти отсутствует, объем выборки, необходимый для ее значимого обнаружения, почти равен объему всей популяции, которой предполагается бесконечным.

Так как надежность изучения связей в значительной сте­пени зависит от количества сопоставляемых данных, необхо­димо измерять существенность полученного уравнения регрес­сии и индекса (коэффициента) корреляции. Показатели кор­реляции, исчисленные для ограниченной по объему совокуп­ности, могут быть искажены действием случайных факторов.

Существенность индекса (коэффициента) корреляции, а, следовательно, всего уравнения регрессии, может быть оцене­на с помощью дисперсионного анализа (F-критерия Фишера). При этом сравнивают факторную и остаточную дисперсии с учетом числа степеней свободы вариации. F-критерий в данном случае рассчиты­вают по формуле:

Надежность зависимости - student2.ru ,

где Надежность зависимости - student2.ru - выборочная факторная дисперсия;

Надежность зависимости - student2.ru - выборочная остаточная дисперсия;

n – численность выборочной совокупности;

k – число параметров в уравнении регрессии.

Значение F-критерия можно получить также, используя значения индекса или коэффициента корреляции:

Надежность зависимости - student2.ru ; Надежность зависимости - student2.ru .

Полученное значение F-критерия сравнивают с табличным значением. При этом для факторной дисперсии число степеней свободы вариации составляет Надежность зависимости - student2.ru , а для остаточной дисперсии Надежность зависимости - student2.ru Если фактическое значе­ние F-критерия больше табличного, следовательно, связь между признаками достоверна и уравнение регрессии в пол­ной мере отражает эту связь. Если фактическое значение F-критерия меньше табличного, то можно сделать вывод, что связь между признаками носит случайный характер.

Для оценки значимости индекса (коэффициента) корреля­ции и уравнения регрессии также используют t-критерий Стьюдента, который для больших выборок рассчитывают по формулам:

Надежность зависимости - student2.ru Надежность зависимости - student2.ru

Для малых выборок формулы имеют вид:

Надежность зависимости - student2.ru Надежность зависимости - student2.ru

Также, как при дисперсионном анализе, фактическое зна­чение t-критерия сравнивают с табличным с учетом числа степеней свободы вариации n = n - k. Если фактическое значение t-критерия больше табличного, то связь достоверна, если меньше, то связь несущественна.

Рассмотрим методику корреляционного анализа для пар­ной корреляции.

Пример. По выборочным данным получены сведения о среднегодовом удое коров и расходе кормов на голову (табл. 14).

Т а б л и ц а 14

Наши рекомендации