Статистическая оценка надежности параметров

Парной корреляции

Показатели корреляционной связи, вычисленные по ограниченной совокупности (по выборке), являются лишь оценкой той или иной статистической закономерности, поскольку в любом параметре сохраняется элемент не полностью погасившейся случайности, присущей индивидуальным значениям признака. Поэтому необходима статистическая оценка степени точности и надежности параметров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно 0, не включает в себя величины противоположных знаков.

Вероятностная оценка параметров корреляции проводится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки. Для коэффициента парной регрессии b средняя вычисляется как:

Статистическая оценка надежности параметров - student2.ru , где n-2 число степеней свободы. Зная среднюю ошибку коэффициента регрессии, можно вычислить вероятность того, что нулевое значение коэффициента входит в интервал возможных с учетом ошибки значений. С этой целью находится отношение коэффициента к его средней ошибке, т.е. t-критерий Стьюдента.

t=b/mb.

или

Статистическая оценка надежности параметров - student2.ru

Надежность установления связи можно проверить и по средней случайной ошибке коэффициента корреляции:

Статистическая оценка надежности параметров - student2.ru

Если коэффициент корреляции близок к единице, то распределение его оценок отличается от нормального или распределения Стьюдента, так как он ограничен величиной 1. В таких случаях Фишер предложил для оценки надежности коэффициента преобразовать его величину в форму не имеющую ограничения:

Статистическая оценка надежности параметров - student2.ru , средняя ошибка величины z определяется по формуле Статистическая оценка надежности параметров - student2.ru

Частная корреляция

Ранее упоминалось, что обнаруживаемая по коэффициенту корреляции взаимосвязь между двумя случайными величинами может быть всего лишь отражением того, что обе они коррелируют с третьей величиной. В такой ситуации необходимо рассмотреть так называемую частную корреляцию.

Найдено три взаимосвязи

Артериальное давление – возраст: -0,59

Артериальное давление – вес: -0,41

Возраст – вес: 0,91

Что же показывает частная корреляция? Если корреляция между двумя величинами уменьшается, когда фиксируется третья величина, то это значит, что взаимосвязь между этими двумя величинами возникает частично за счет действия третьей величины. В пределе, если корреляция между указанными двумя величинами становится равной нулю, то можно считать, что взаимосвязь между ними целиком возникает за счет третьей величины.

Частный коэффициент корреляции вычисляется по формуле:

Статистическая оценка надежности параметров - student2.ru .

Два других коэффициента r13,2 и r23,1 вычисляются циклической перестановкой коэффициентов.

Рассчитаем частные коэффициенты для примера:

Статистическая оценка надежности параметров - student2.ru ,

Статистическая оценка надежности параметров - student2.ru ,

Статистическая оценка надежности параметров - student2.ru .

Прежде всего мы видим, что r12,3 и r23,1 практически не отличаются от r12 и r23. Что касается взаимосвязи между весом и артериальным давлением, то здесь наглядно видно, какие «ловушки» подстерегают исследователя при истолковании коэффициентов корреляции.

В самом деле, если бы в нашем распоряжении оказались только данные о максимальном артериальном давлении и весе детей, то, базируясь только на вычисленном коэффициенте корреляции, нужно было бы сделать вывод о том, что увеличение веса в среднем приводит к уменьшению артериального давления. На самом же деле такая связь существует между возрастом и артериальным давлением, а вес имеет очень тесную взаимосвязь с возрастом, за счет чего и получается вычисленное значение r13.

Метод множественных корреляций в отличие от метода пар­ных корреляций позволяет выявить общую структуру корреля­ционных зависимостей, существующих внутри многомерного экспериментального материала, включающего более двух пере­менных, и представить эти корреляционные зависимости в виде некоторой системы

ФАКТОРНЫЙ АНАЛИЗ

Один из наиболее распространенных вариантов этого мето­да — факторный анализ— позволяет определить совокупность внутренних взаимосвязей, возможных причинно-следственных связей, существующих в экспериментальном материале. В ре­зультате факторного анализа обнаруживаются так называемые факторы — причины, объясняющие множество частных (пар­ных) корреляционных зависимостей.

Фактор — математико-статистическое понятие. Будучи пере­веденным на язык психологии (эта процедура называется содер­жательной или психологической интерпретацией факторов), он становится психологическим понятием. Например, в известном 16-факторном личностном тесте Р. Кеттела каждый фактор взаимно одно­значно связан с определенными чертами личности человека.

С помощью выявленных факторов объясняют взаимозави­симость психологических явлений. Поясним сказанное на при­мере. Допустим, что в некотором психолого-педагогическом экс­перименте изучалось взаимовлияние таких переменных, как ха­рактер, способности, потребности и успеваемость учащихся. Предположим далее, что, оценив каждую из этих переменных у достаточно представительной выборки испытуемых и подсчитав коэффициенты парных корреляций между всевозможными па­рами данных переменных, мы получили следующую матрицу ин­теркорреляций (в ней справа и сверху цифрами обозначены в пе­речисленном выше порядке изученные в эксперименте переменные, а внутри самого квадрата показаны их корреляции друг с другом; поскольку всевозможных пар в данном случае меньше, чем клеток в матрице, то заполнена только верхняя часть матри­цы, расположенная выше ее главной диагонали).

Анализ корреляционной матрицы показывает, что пе­ременная 1 (характер) значи­мо коррелирует с переменны­ми 2 и 3 (способности и по­требности). Переменная 2 (способности) достоверно коррелирует с переменной 3 (потребности), а переменная 3 (потребности) — с перемен­ной 4 (успеваемость). Факти­чески из шести имеющихся в матрице коэффициентов корреля­ции четыре являются достаточно высокими и, если предполо­жить, что они определялись на совокупности испытуемых, пре­вышающей 10 человек, — значимыми.

 
  0,82 0,50 0,04
    0,40 0,24
      0,75
       

Зададим некоторое правило умножения столбцов цифр на стро­ки матрицы: каждая цифра столбца последовательно умножается на каждую цифру строки и результаты парных произведений за­писываются в строку аналогичной матрицы. Пример: если по это­му правилу умножить друг на друга три цифры столбца и строки, представленные в левой части матричного равенства, то получим матрицу, находящуюся в правой части этого же равенства:

X =
       
         

Задача факторного анализа по отношению к только что рас­смотренной является как бы противоположной. Она сводится к тому, чтобы по уже имеющейся матрице парных корреляций, ана­логичной представленной в правой части показанного выше мат­ричного равенства, отыскать одинаковые по включенным в них цифрам столбец и строку, умножение которых друг на друга по заданному правилу порождает корреляционную матрицу.

Иллю­страция:

Х1 х Х1 Х2 Х3 Х4 =   0,16 0,50 0,30
Х2   0,16   0,40 0,24
Х3 0,50 0,40   0,75
Х4 0,30 0,24 0,75  

Здесь х1 х2, x3 и х4 — искомые числа.

Для их точного и быст­рого определения существуют специальные математические про­цедуры и программы для ЭВМ.

Допустим, что мы уже нашли эти цифры: x1= 0,45, х2 =,36 х3 = 1,12, х4= 0,67. Совокупность найденных цифр и называется фактором, а сами эти цифры — факторными весами или нагруз­ками.

Эти цифры соответствуют тем психологическим переменным, между которыми вычислялись парные корреляции,

х1— харак­тер,

х2 — способности,

х3— потребности,

х4— успеваемость.

По­скольку наблюдаемые в эксперименте корреляции между пере­менными можно рассматривать как следствие влияния на них общих причин — факторов, а факторы интерпретируются в пси­хологических терминах, мы можем теперь от факторов перейти к содержательной психологической интерпретации обнаружен­ных статистических закономерностей. Фактор содержит в себе ту же самую информацию, что и вся корреляционная матрица, а факторные нагрузки соответствуют коэффициентам корреляции. В нашем примере х3 (потребности) имеет наибольшую фактор­ную нагрузку (1,12), а х2 (способности) — наименьшую (0,36).

Следовательно, наиболее значимой причиной, влияющей на все остальные психологические переменные, в нашем случае явля­ются потребности, а наименее значимой — способности. Из кор­реляционной матрицы видно, что связи переменной х3 со всеми остальными являются наиболее сильными (от 0,40 до 0,75), а кор­реляции переменной х2 — самыми слабыми (от 0,16 до 0,40).

Чаще всего в итоге факторного анализа определяется не один, а несколько факторов, по-разному объясняющих матрицу интер­корреляций переменных. В таком случае факторы делят на ге­неральные, общие и единичные.

Статистическая оценка надежности параметров - student2.ru

Генеральными называются фак­торы, все факторные нагрузки которых значительно отличают­ся от нуля (нуль нагрузки свидетельствует о том, что данная пе­ременная никак не связана с остальными и не оказывает на них никакого влияния в жизни).

Общие — это факторы, у которых часть факторных нагрузок отлична от нуля.

Единичные — это факторы, в которых существенно отличается от нуля только одна из нагрузок.

Вопросы для самопроверки:

1. Объясните значения фраз «высокая положительная корреляция» и «низкая отрицательная корреляция». Приведите примеры и графики, иллюстрирующие эти понятия.

2. Сформулируйте в содержательных понятиях задачу из области специализации, при решении которой необходимо вычислять: коэффициент корреляции Пирсона, коэффициент корреляции Спирмена, коэффициент взаимной сопряженности.

3. Перечислите причины появления ложной корреляции.

4. Объясните смысл коэффициента ранговой корреляции?

5. Может ли коэффициент корреляции быть равным нулю, когда между измеряемыми признаками наблюдается функциональная зависимость?

6. Приведите примеры, когда нулевая корреляция предполагает независимость и когда нулевая корреляция такой зависимости не предполагает?

Регрессионный анализ

Довольно часто в практике исследовательской работы имеет место ситуация, когда важнейшие переменные, описывающие некоторый процесс, известны заранее, но модель процесса еще не известна. В этом случае возможны разные подходы. Одним из них является построение эмпирических моделей.

Построение эмпирических моделей предполагает проведение экспериментов или наблюдений для сбора опытных данных, выбор одной определенной модели из некоторого множества возможных, вычисление коэффициентов модели («подгонку») и оценку полученных результатов.

Число цветков при разном количестве неорганического брома в почве.

Статистическая оценка надежности параметров - student2.ru

Кол-во брома (мкг/см3) 2 4 6 8 10 12 14
Среднее число цветков 3,6 2,9 3,2 1,8 2,3 1,7 0,8

Наши рекомендации