Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи

Предположим, что мы имеем две номинальных переменных, отвечающую им частотную таблицу типа 7 и хотим на основе ее анализа определить, имеется ли связь между переменными. Будем искать ответ на этот вопрос с помощью проверки статистической гипотезы о независимости признаков. Используя терминологию математической статистики, можно сказать, что речь пойдет о проверке нуль гипотезы Н₀: “связь между рассматриваемыми переменными отсутствует”.

Далеко не для каждой интересующей социолога гипотезы математическая статистика предоставляет возможность ее проверки, не для каждой гипотезы разработана соответствующая теория. Но если упомянутая возможность существует, что соответствующая логика рассуждений сводится к следующему.

Допустим, что для какой-то статистической гипотезы Н ₀разработана упомянутая теория и мы хотим эту гипотезу проверить. Математическая статистика предлагает некий критерий. Он представляет собой определенную числовую функцию f от наблюдаемых величин, например, рассчитанную на основе частот выборочной таблицы сопряженности: f = f (n_ij) . Представим теперь, что в нашем распоряжении имеется много выборок, для каждой из которых мы можем вычислить значение этой функции. Распределение таких значений в предположении, что проверяемая гипотеза справедлива (для генеральной совокупности), хорошо изучено, т.е. известно, какова вероятность попадания каждого значения в любой интервал. Грубо говоря, это означает, что, если Н₀справедлива, то для каждого полученного для конкретной выборки значения f можно сказать, какова та вероятность, с которой мы могли на него “наткнуться”. Вычисляем значение f_выб критерия f для нашей единственной выборки. Находим вероятность Р(f_выб) этого значения.

Далее вступает в силу своеобразный принцип невозможности маловероятных событий: мы полагаем, что если вероятность какого-либо события очень мала, то это событие практически не может произойти. И если мы все же такое маловероятное событие встретили, то делаем из этого вывод, что вероятность определялась нами неправильно, что в действительности встреченное событие не маловероятно.

Наше событие состоит в том, что критерий принял то или иное значение. Если вероятность этого события (т.е. Р(f_выб)) очень мала, то, в соответствии с приведенными рассуждениями, мы полагаем, что неправильно ее определили. Встает вопрос о том, что привело нас к ошибке. Вспоминаем, что мы находили вероятность в предположении справедливости проверяемой гипотезы. Именно это предположение и заставило нас считать вероятность встреченного значения очень малой. Поскольку опыт дает основания полагать, что в действительности вероятность не столь мала, остается отвергнуть нашу Н₀.

Если же вероятность Р(f_выб) достаточно велика для того, чтобы значение f_выб могло встретиться практически, то мы полагаем, что у нас нет оснований сомневаться в справедливости проверяемой гипотезы. Мы принимаем последнюю, считаем, что она справедлива для генеральной совокупности.

Таким образом, право именоваться критерием функция f обретает в силу того, что именно величина ее значения играет определяющую роль в выборе одной из двух альтернатив: принятия гипотезы Н ₀или отвержения ее.

Остался нерешенным вопрос о том, где граница между “малой” и “достаточно большой” вероятностью? Эта граница должна быть равна такому значению вероятности, относительно которого мы могли бы считать, что событие с такой (или с меньшей) вероятностью практически не может случиться – “не может быть, потому, что не может быть никогда”. Это значение называют уровнем значимости принятия (отвержения) нуль-гипотезы и обозначают буквой a. Обычно полагают, что a = 0,05, либо a = 0,01. Математическая статистика не дает нам правил определения a. Установить уровень значимости может помочь только практика.Конечно, этот уровень должен обусловливаться реальной задачей, тем, насколько социально значимым может явиться принятие ложной или отвержение истинной гипотезы (процесс проверки статистических гипотез всегда сопряжен с тем, что мы рискуем совершить одну из упомянутых ошибок). Если большие затраты (материальные, либо духовные) связаны с отвержением гипотезы, то мы будем стремиться сделать a как можно меньше, чтобы была как можно меньше вероятность отвержения правильной нуль-гипотезы. Если же затраты сопряжены с принятием гипотезы, то имеет смысл a увеличить, чтобы уменьшить вероятность принятия ложной гипотезы.

Теперь рассмотрим конкретную интересующую нас нулевую гипотезу: гипотезу об отсутствии связи между двумя изучаемыми номинальными переменными. Функция, выступающая в качестве описанного выше статистического критерия носит название “хи-квадрат”, обозначается иногда как Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru (Х - большое греческое “хи”; подчеркнем, что далее будет фигурировать малая буква с тем же названием; и надо различать понятия, стоящие за этими обозначениями, что не всегда делается в ориентированной на социолога литературе). Определяется этот критерий следующим образом:

Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru

где Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru – наблюдаемая нами частота, стоящая на пересечении i -й строки и j -го столбца таблицы сопряженности (т.н. эмпирическая частота), а Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru – та частота, которая стояла бы в той же клетке, если бы наши переменные были статистически независимы (т.е. та, которая отвечает пропорциональности столбцов (строк) таблицы сопряженности; она обычно называется теоретической, поскольку может быть найдена из теоретических соображений; иногда ее называют также ожидаемой частотой, поскольку действительно ее появление и ожидается при независимости переменных). Теоретическая частота обычно находится по формуле:

Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru

Приведем доказательство этой формулы. Сделаем это не для приобщения читателя к математике, а для демонстрации того, как необходимо воспринимать частоты при грамотном анализе таблицы сопряженности. Доказательство, о котором мы говорим, является очень простым, и использующиеся в процессе его проведения принципы входят в число тех знаний, которыми должен владеть каждый социолог, анализирующий эмпирические данные.

Итак, мы утверждаем, что теоретическая частота отвечает той ситуации, когда являются независимыми два события - то, что первый признак принимает значение i, и то, что второй признак принимает значение j. Независимость же двух событий означает, что вероятность их совместного осуществления равна произведению вероятностей осуществления каждого в отдельности. Вычислим соответствующие вероятности для интересующего нас случая. Представляется очевидным, что эти вероятности хорошо оцениваются (имеются в виду выборочные оценки вероятностей с помощью относительных частот) следующим образом:

Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru ; ;

Независимость наших событий означает справедливость соотношения:

Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru

или, учитывая введенные выше соотношения:

Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru

что легко преобразется в доказываемое соотношение (1). Перейдем к описанию того, как “работает” наш критерий “хи-квадрат”.

Представим себе, что мы организуем бесконечное количество выборок и для каждой из них вычисляем величину Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru . Образуется последовательность таких величин:

Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru , , , …

Очевидно, имеет смысл говорить об их распределении, т.е. об указании вероятности встречаемости каждого значения. В математической статистике доказано следующее положение: если наши признаки в генеральной совокупности независимы, то вычисленные для выборок значения Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru приблизительно имеют хорошо изученное распределение, “имя” которого - c²(“хи-квадрат”, здесь используется малое греческое “хи”). Приблизительность можно игнорировать (т.е. считать, что величины Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru распределены в точности по закону c²), если клетки тех выборочных частотных таблиц, на базе которых рассчитываются величины Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru , достаточно наполнены – обычно считают, что в каждой клетке должно быть по крайней мере 5 наблюдений. Будем считать, что это условие соблюдено.

Чтобы описание логики проверки нашей нуль-гипотезы стала более ясной, отметим, что отметим, что при отсутствии связи в генеральной совокупности среди выборочных Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru , конечно, будут преобладать значения, близкие к нулю, поскольку отсутствие связи означает равенство эмпирических и теоретических частот и, следовательно, равенство Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru нулю. Большие значения будут встречаться сравнительно редко - именно они будут маловероятны. Поэтому можно сказать, что большое значение Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru приводит нас к утверждению о наличии связи, малое – об ее отсутствии.

Теперь вспомним, что изученность распределения какой-либо случайной величины означает, что у нас имеется способ определения вероятности попадания каждого ее значения в любой заданный интервал – с помощью использования специальных вероятностных таблиц. Такие таблицы имеются и для распределения c². Правда, надо помнить, что такое распределение не одно. Имеется целое семейство подобных распределений. Вид каждого зависит от размеров используемых частотных таблиц. Точнее, этот вид определяется т.н. числом степеней свободы df (degree freedom) распределения, определяемым следующим образом:

df = (r - 1) ´ (c - 1).

Итак, если в генеральной совокупности признаки независимы, то, вычислив число степеней свободы для интересующей нас матрицы, мы можем найти по соответствующей таблице вероятность попадания произвольного значения Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru в любой заданный интервал. Теперь вспомним, что такое значение у нас одно – вычисленное для нашей единственной выборки. Обозначим его через Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru . Описанная выше логика проверки статистической гипотезы превращается в следующее рассуждение.

Вычислим число степеней свободы df и зададимся некоторым уровнем значимости a. Найдем по таблице распределения c² такое значение Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru , называемое критическим значением критерия (иногда используется обозначение ), для которого выполняется неравенство:

Р(x ³ i Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru ) = a

(x – обозначение случайной величины, имеющей распределение c²с рассматриваемым числом степеней свободы).

Если Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru < (т.е. вероятность появления достаточно велика), то полагаем, что наши выборочные наблюдения не дают оснований сомневаться в том, что в генеральной совокупности признаки действительно независимы – ведь, “ткнув” в одну выборку, мы встретили значение Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru , которое действительно вполне могло встретиться при независимости. В таком случае мы полагаем, что у нас нет оснований отвергать нашу нуль-гипотезу и мы ее принимаем – считаем, что признаки независимы. Если же Функция "Хи-квадрат" и проверка на ее основе гипотезы об отсутствии связи - student2.ru ³ (т.е. вероятность появления очень мала, т.е. меньше a), то мы вправе засомневаться в нашем предположении о независимости – ведь мы “наткнулись” на такое событие, которое вроде бы не должно было встретиться при этом предположении. В таком случае мы отвергаем нашу нуль-гипотезу – полагаем, что признаки зависимы.

Итак, рассматриваемый критерий не гарантирует наличие связи, не измеряет ее величину. Он либо говорит о том, что эмпирия не дает оснований сомневаться в отсутствии связи, либо, напротив, дает повод для сомнений.

Наши рекомендации

Quot;МОРЗЕ" "FOUR-N-ONE" "Simple Signs" "Дни нашей жизни" "Земля Санникова" "Чел.OUT"

Этап "каменописи", "глинописи", "клинописи", "древописи", "пергаментописи".

Первое: "Я". Второе: "желаю". Третье: "вспоминать". Четвертое: "себя".

Игры Сессии: "Войдите в мое положение"; "А ты действительно это сделал?"; "Кто хочет тройку?"; "Вы бежите, я догоняю"

Методические рекомендации по организации изучения дисциплины. Учебный курс "Связи с общественностью в органах власти" изучается на базе знаний дисциплин "Политология"

Вопрос 6. Какой смысл заключён в словах "чувствительность"; "сознание", или "осознанность"; "энергия", или "свет"?

Ермин "Дизайн архитектурной среды" создает некоторые проблемы для понимания в связи с тем, что является "синтезом понятий" архитектура и "дизайн".

Задания для самостоятельной подготовки. 1. Разработайте схему отражающую сущность явлений "индивид", "личность", "индивидуальность"

І" 'Ш "*'іиг." '*,'•"• аа ■ го2*г'ї^гчрТ""т,г'г**готг"" МН""'ТИИИі

Quot;1.1.05";"1.3.05";"30.10.05";"15.2.06";"1.4.06"};0,1) дорівнює 0,373363 або 37,3363 відсоткам

← Предыдущая страница | Следующая страница →