Этапы проведения анализа связи переменных

1. Корреляционный анализ. Его цель – определить характер связи (прямая, обратная) и силу связи (связь отсутствует, связь слабая, умеренная, заметная, сильная, весьма сильная, полная связь). Корреляционный анализ дает информацию о характере и степени выраженности связи (по величине коэффициента корреляции), которая используется для отбора существенных факторов, а также для расчета параметров регрессионных уравнений.

2.Расчет параметров и построение регрессионных моделей. Здесь стремятся отыскать наиболее точную меру выявленной связи, для того чтобы можно было прогнозировать, предсказывать значения зависимой величины Y, если будут известны значения независимых величин X1, Х2, .... Хп.

3.Выяснение статистической значимость, т.е. пригодности постулируемой модели для использования ее в целях предсказания значений.

4.Применение статистически значимой модели для прогнозирования (предсказания), управления или объяснения. Если же обнаружена незначимость, то модель отвергают, предполагая, что истинной окажется какая-то другая форма связи, которую надо поискать. Например, с самого начала работы (как бы по умолчанию) строилась и проверялась линейная регрессионная модель. Незначимость ее служит основанием для того, чтобы отвергнуть только линейную форму модели. Возможно, что более подходящей будет нелинейная форма модели.

Корреляционный анализ.Отличительной чертой биологических объектов является многообразие признаков, характеризующих каждый из них. Так, человека можно охарактеризовать возрастом, ростом, весом, различными физиологическими показателями и т. д. Имея однородную совокупность объектов, можно изучить распределение их по любому из их признаков. Весьма часто можно усмотреть известную связь между вариациями по различным признакам. Например, вес образцов, сделанных из одного и тoгo же материала, полностью определяется их объемом. Такую зависимость принято называть функциональной. Для биологических объектов связь обычно бывает менее «жесткой»: объекты с одинаковым значением одного признака имеют, как правило, разные значения по другим признакам. Такую связь между вариациями разных признаков называют корреляцией (дословный перевод: соотношение) между признаками.

Практическое значение установления корреляционной связи – выявление возможной причинно-следственной связи между факторными и результативными признаками (при оценке физического развития, для определения связи между условиями труда, быта и состоянием здоровья, при определении зависимости частоты случаев болезни от возраста, стажа, наличия производственных вредностей и др.), а также – выявление зависимости параллельных изменений нескольких признаков от какой-то третьей величины (например, под воздействием высокой температуры в цехе происходят изменения кровяного давления, вязкости крови, частоты пульса и др).

Стандартный способ выявления взаимосвязи нескольких переменных, измеряемых в порядковой или интервальной шкалах, – подсчет коэффициента корреляции. Коэффициент корреляции одним числом измеряет силу связи между изучаемыми явлениями и дает представление о ее направленности. По направлению связь может быть прямой или обратной. По силе связи коэффициенты корреляции колеблются от 1 (полная связь) до 0 (отсутствие связи). Коэффициент корреляции может иметь значение от –1 до +1, т.е. иметь отрицательное либо положительное значение. В этих случаях говорят об обратной или прямой корреляционной взаимосвязи. Величина коэффициента характеризует силу корреляционной взаимосвязи.

Чем ближе модуль коэффициента корреляции к единице, тем сильнее или глубже корреляционная взаимосвязь между двумя вариационными рядами. Модульное значение выше 0,8 характеризуют сильную взаимосвязь, в интервале 0,8-0,5 – выраженную взаимосвязь, 0,5-0,2 – слабую взаимосвязь, менее 0,2 (0,2 – 0) – отсутствие взаимосвязи(рис. 7.1).

Этапы проведения анализа связи переменных - student2.ru

Рис. 7.1. Схема оценки силы корреляционной связи по величине коэффициента корреляции.

Коэффициент корреляции для нормально распределенных наблюдений (коэффициент корреляции Пирсона) рассчитывается по формуле (7.1):

Этапы проведения анализа связи переменных - student2.ru , (7.1)

где Этапы проведения анализа связи переменных - student2.ru и Этапы проведения анализа связи переменных - student2.ru – варианты сопоставляемых вариационных рядов, Этапы проведения анализа связи переменных - student2.ru и Этапы проведения анализа связи переменных - student2.ru – отклонение каждой варианты от своей средней арифметической ( Этапы проведения анализа связи переменных - student2.ru и Этапы проведения анализа связи переменных - student2.ru ).

В случае работы с данными, распределение которых отлично от нормального, необходимо пользоваться ранговыми методами – вычислять коэффициент корреляции Кендалла (для порядковых переменных) или, лучше, коэффициент корреляции Спирмена (непараметрический аналог коэффициента Пирсона для интервальных и порядковых переменных). Коэффициент Пирсона равен единице (или минус единице) тогда и только тогда, когда две переменные (х и у) связаны линейной зависимостью ( Этапы проведения анализа связи переменных - student2.ru ). Коэффициент Спирмена (или Кендалла) равен 1, если две переменные связаны правилом: большему значению переменной х всегда соответствует большее значение переменной у. Чем ниже коэффициент корреляции, тем сильнее отклонение от этих правил.

В статистике, как и в жизни, важные утверждения редко удается доказать окончательно и неоспоримо. Можно только выдвинуть утверждение, справедливое с некоторой степенью достоверности. Такое утверждение называют статистической гипотезой.

Наиболее частыми задачами медицинских и биологических исследований, для решения которых оказывается необходимым сформулировать статистические гипотезы, являются следующие:

- анализ соответствия распределения значений признака в изучаемой группе какому-либо определенному закону (например, анализ соответствия нормальному закону)

- сравнение групп по параметрам распределений признака (например, по средним значениям, дисперсиям).

Для решения любой подобной задачи формулируются две статистические гипотезы:

1. Нулевая гипотеза Н0– предположение, что разница между генеральными параметрами сравниваемых групп равна нулю и различия, наблюдаемые между выборочными характеристиками, носят исключительно случайный характер;

2. Альтернативная гипотеза Н1 – противоположная нулевой –гипотеза о существовании различий между генеральными параметрами сравниваемых групп.

Обычно статистическая гипотеза формулируется таким образом, что бы она была противоположна той исследовательской (медицинской, биологической) гипотезе, которая послужила поводом для проведения исследования. Например, необходимо проверить эффективность применения препарата. Пусть есть две группы испытуемых. Одна принимает препарат, а вторая нет. Тогда в качестве нулевой гипотезы Н0 можно принять гипотезу об отсутствии различия между результатами первой и второй группы. Тогда альтернативная гипотеза Н1- наличие различий между группами.

Как видно из вышеприведенного, ошибки первого и второго рода являются взаимно-симметричными, то есть, если поменять местами гипотезы H0 и H1, то ошибки первого рода превратятся в ошибки второго рода, и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что нулевая гипотеза H0 соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) – например, что обследуемый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, альтернативная гипотеза H1 обозначает противоположную ситуацию, которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции.

С учётом этого ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием – например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня. Слово «положительный» в данном случае не имеет отношения к желательности или нежелательности самого события.

Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают положительный результат (т. е. показывают наличие заболевания у пациента), когда, на самом деле пациент этим заболеванием не страдает. Такой результат называется ложноположительным.

Из-за возможности ложных срабатываний не удаётся полностью автоматизировать борьбу со многими видами угроз. Как правило, вероятность ложного срабатывания коррелирует с вероятностью пропуска события (ошибки второго рода). То есть, чем более чувствительна система, тем больше опасных событий она детектирует и, следовательно, предотвращает. Но при повышении чувствительности неизбежно вырастает и вероятность ложных срабатываний. Поэтому чересчур чувствительная (параноидально) настроенная система защиты может выродиться в свою противоположность и привести к тому, что побочный вред от неё будет превышать пользу.

Соответственно, ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием – человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов).

Слово «отрицательный» в данном случае не имеет отношения к желательности или нежелательности самого события.

Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают отрицательный результат (т.е. показывают отсутствие заболевания у пациента), когда, на самом деле пациент страдает этим заболеванием. Такой результат называется ложноотрицательным.

Практическая часть.

В результате исследования влияния электромагнитного излучения на прирост массы тела лабораторных мышей за 20 дней в опытной и контрольной группе были получены следующие данные:

Группа Прирост массы тела лабораторных мышей (гр.)
Контроль 6,7 1,5 4,1 4,6 4,4 3,9
Опыт 1,2 4,6 3,2 5,1 2,1 1,9

Наши рекомендации