Использование критерия хи-квадрат для сравнения показателей внутри одной выборки
Критерий хи-квадрат может быть применен и для выявления сходства или различия внутри одной, но численно достаточно большой выборки. В этом случае вычленяются показатели (а их может быть два и больше), по которым и осуществляется сравнение. Этот аспект применения критерия xи-квадрат сближает его с коэффициентом корреляции, который также находит степень связи между двумя или большим числом признаков. Различие между этими двумя методами, прежде всего в том, что для подсчета коэффициента корреляции необходимо знать все величины сравниваемых признаков, а для использования критерия хи-квадрат важно знать только уровни (градации) сравниваемых признаков.
При сравнении показателей с помощью критерия хи-квадрат нулевая гипотеза звучит так: сравниваемые признаки не влияют друг на друга. В терминах корреляционных отношений: между признаками связи нет, корреляция не отличается от нуля.
Соответственно альтернативная гипотеза звучит следующим образом: сравниваемые признаки влияют друг на друга. В терминах корреляционных отношений: между признаками связь есть, корреляция значимо отличается от нуля.
В этих случаях применение критерия хи-квадрат основывается на использовании так называемых многопольных таблиц или, как их еще называют, таблиц сопряженности, т.е. таких таблиц, эмпирические данные в которых представлены размерностью большей, чем 2 ´ 2.
В этом случае расчет эмпирического значения критерия хи-квадрат может осуществляться по следующим двум формулам:
где разность между эмпирическими и «теоретическими» частотами;
есть вычисленная, или «теоретическая» частота.
где k - число строк многопольной таблицы
т - число столбцов многопольной таблицы
N - общее число значений (элементов) в многопольной таблице, оно всегда является произведением N = k · т
- элементы многопольной таблицы
Ci - суммарные значения по строкам многопольной таблицы
- суммарные значения по столбцам многопольной таблицы
3адача 7. Влияет ли уровень интеллекта на профессиональные достижения?
Решение. (Первый способ решения по формуле 8.10). Для решения этой задачи 90 человек оценили по степени их профессиональных достижений и по уровню интеллекта. При разбиении на уровни (градации признака) по обоим признакам было взято три уровня. Для показателя профессиональных достижений были получены следующие частоты признака: 20 человек с высоким уровнем профессиональных достижений, 40 со средним и 30 с низким. Первая группа составляет 22,2% выборки, вторая – 44,4% и третья – 33,3% от всей выборки. При разбиении по уровню интеллекта было взято три равных по численности группы, в каждой по 30 человек: уровень интеллекта ниже среднего, средний и выше среднего. В процентах каждая группа составляет 33,3% от всей выборки. Все эмпирические данные (частоты) представлены ниже в таблице 8.14:
Для удобства каждая ячейка таблицы обозначена соответствующей латинской буквой: А, В, С ит.д. Таблица 8.14 устроена следующим образом: в ячейку, обозначенную символом А, заносятся эмпирические частоты (или число) тех испытуемых, которые одновременно обладают следующей характеристикой: ниже среднего по уровню профессиональных достижений и ниже среднего по интеллекту. Таких испытуемых (эмпирических частот) оказалось 20. В ячейку, обозначаемую символом В, заносятся эмпирические частоты (или число) тех испытуемых, которые одновременно обладают характеристикой: средние по уровню профессиональных достижений и ниже среднего по интеллекту. Таких испытуемых (эмпирических частот) оказалось 5. В ячейку, обозначенную символом С, заносятся эмпирические частоты (или число) тех испытуемых, которые одновременно обладают характеристикой: выше среднего по уровню профессиональных достижений и ниже среднего по интеллекту. Таких испытуемых (эмпирических частот) оказалось также 5. Заметим, что 20 + 5 + 5 = 30, т.е. числу испытуемых, имеющих уровень интеллекта ниже среднего. Подобные «разбиения» были проделаны для каждой ячейки таблицы 8.14. Подчеркнем, что в круглых скобках в каждой ячейке таблицы представлены вычисленные для этой ячейки «теоретические» частоты.
Покажем, как для каждой ячейки таблицы 8.14 найти соответствующую «теоретическую» частоту. Для каждого столбца таблицы подсчитываются так называемые «частости» в процентах:
Полученные величины «частостей» дают возможность подсчитать «теоретические» частоты для каждой ячейки таблицы 8.14. Они служат основой для подсчета «гипотетических» (а по сути теоретических) частот, т.е. таких частот, которые при заданном соотношении экспериментальных данных должны были бы быть расположены в соответствующих ячейках таблицы 8.14. (Вспомним решение задачи 8.5).
Согласно этому положению «теоретическая» частота для ячейки А подсчитывается следующим образом. 30 человек имеют уровень интеллекта ниже среднего, поэтому 33,3% от этого числа должны были бы попасть в группу с профессиональными достижениями ниже среднего уровня. Находим эту «гипотетическую» величину так: .
Аналогично «теоретическая» частота для ячейки D считается следующим образом: 30 человек имеют средний уровень интеллекта, поэтому 33,3% от этого числа должны были бы попасть в группу с профессиональными достижениями среднего уровня. Находим эту «гипотетическую» величину так: .
Аналогично «теоретическая» частота для ячейки G считается следующим образом: 30 человек имеют высокий уровень интеллекта, поэтому 33,3% от этого числа должны были бы попасть в группу с профессиональными достижениями выше среднего уровня. Находим эту «гипотетическую» величину так: .
Рассмотрим, как производится подсчет для ячейки В: 30 человек имеют низкий уровень интеллекта, поэтому 44,4% от этого числа должны были бы попасть в группу с профессиональными достижениями среднего уровня. Находим эту «гипотетическую» величину так: .
Аналогично, производится подсчет для ячейки Е: 30 человек имеют средний уровень интеллекта, поэтому 44,4% от этого числа должны были бы попасть в группу с профессиональными достижениями среднего уровня. Находим эту «гипотетическую» величину так:
Аналогично, производится подсчет для ячейки Н: 30 человек имеют уровень интеллекта выше среднего, поэтому 44,4% от этого числа должны были бы попасть в группу с профессиональными достижениями среднего уровня. Находим эту «гипотетическую» величину так:
Рассмотрим, наконец, как производится подсчет для ячейки С: 30 человек имеют низкий уровень интеллекта, поэтому 22,2% от этого числа должны были бы попасть в группу с профессиональными достижениями выше среднего уровня. Находим эту «гипотетическую» величину так:
Расчет «теоретических гипотетических» частот для оставшихся ячеек проведите самостоятельно.
Проверим правильность расчета «теоретических» частот для всех столбцов таблицы 8.14: 10 + 10 + 10 = 30; 13,3 + 13,3 + 13,3 = 39,9 ≈ 40; 6,7 + 6,7 + 6,7 = 20,1 ≈ 20.
Теперь все готово для использования формулы (8.1).
Для проверки правильности расчета «теоретических» частот в случае сравнения двух эмпирических наблюдений (см. раздел 8.2) или для сравнения показателей внутри одной выборки может использоваться следующая формула (8.12):
Проверим по этой формуле правильность наших расчетов:
Число степеней свободы подсчитаем по знакомой формуле: v = (k - 1) · (с – 1) = (3 – 1) · (3–1) = 4, где k - число строк, а с - число столбцов и в соответствии с таблицей 12 Приложения 1 находим:
Полученные эмпирическая величина критерия хи-квадрат попала в зону значимости. Иными словами, следует принять гипотезу о том, что уровень интеллекта влияет на успешность профессиональной деятельности.
Решение. (Второй способ решения по формуле 8.11).
Подставим данные таблицы 8.14 в формулу (8.11) получим:
Как и следовало ожидать, эмпирическое значение xи-квадрат получено то же самое, что и при первом способе решения. Все дальнейшие операции уже проделаны выше при первом способе решения данной задачи, поэтому не будем их повторять. Безусловно, что второй способ существенно проще первого, однако, при расчетах по формуле (8.11) можно легко допустить ошибки. Подчеркнем, что как первый, так и второй способы расчета эмпирического значения хи-квадрат позволяют работать с таблицами практически любой размерности: 3 ´ 4, 4 ´ 4, 5 ´ 3, 5 ´ 6 и т.п.
2.4. - критерий Колмогорова—Смирнова
Назначение критерия
Критерий предназначен для сопоставления двух распределений:
а) эмпирического с теоретическим, например, равномерным или нормальным;
б) одного эмпирического распределения с другим эмпирическим распределением.
Критерий позволяет найти точку, в которой сумма накопленных расхождений между двумя распределениями является наибольшей, и оценить достоверность этого расхождения.
Описание критерия
Если в методе мы сопоставляли частоты двух распределений отдельно по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т.д. Таким образом, мы сопоставляем всякий раз накопленные к данному разряду частоты.
Если различия между двумя распределениями существенны, то в какой–то момент разность накопленных частот достигнет критического значения, и мы сможем признать различия статистически достоверными. В формулу критерия включается эта разность. Чем больше эмпирическое значение , тем более существенны различия.
Гипотезы
Различия между распределениями недостоверны (судя по точке максимального накопленного расхождения между ними).
: Различия между распределениями достоверны (судя по точке максимального накопленного расхождения между ними).
Для применения критерия Колмогорова–Смирнова необходимо соблюдать следующие условия:
1. Измерение может быть проведено шкале интервалов и отношений.
2. Выборки должны быть случайными и независимыми.
3. Желательно, чтобы суммарный объем двух выборок ≥ 50. С увеличением объема выборки точность критерия повышается.
4. Эмпирические данные должны допускать возможность упорядочения по возрастанию или убыванию какого-либо признака и обязательно отражать какое-то его однонаправленное изменение. В том случае, если трудно соблюсти принцип упорядоченности признака, лучше использовать критерий хи-квадрат.
Этот критерий используется для решения тех же задач, что и критерий xи-квадрат. Иначе говоря, с его помощью можно сранивать эмпирическое распределение с теоретическим или два эмпирических распределения друг с другом. Однако если при применении хи-квадрат мы сопоставляем частоты двух распределений, то в данном критерии сравниваются накопленные (кумулятивные) частоты по каждому разряду (альтернативе). При этом если разность накопленных частот в двух распределениях оказывается большой, то различия между двумя распределениями являются существенными.
Задача 8.12.Предположим, что в эксперименте психологу необходимо использовать шестигранный игральный кубик с цифрами на гранях от 1 до 6. Для чистоты эксперимента необходимо получить «идеальный» кубик, т.е. такой, чтобы при достаточно большом числе подбрасываний, каждая его грань выпадала бы примерно равное число раз. Задача состоит в выяснении того, будет ли данный кубик близок к идеальному?
Решение. Подбросим кубик 120 раз и сравним полученное эмпирическое распределение с теоретическим. Поскольку теоретическое распределение является равновероятным, то соответствующие теоретические частоты равны 20. Распределение эмпирических и теоретических частот представим совместно в таблице 8.15:
Для подсчета по критерию Колмогорова–Смирнова необходимо провести ряд преобразований с данными таблицы 8.15. Представим эти преобразования в таблице 8.16 и объясним их получение:
Символом FE в таблице 8.16 будем обозначать накопленные теоретические частоты. В таблице они получаются следующим образом: к первой теоретической частоте 20, добавляется вторая частота, также равная 20, получается число 20 + 20 = 40. Число 40 ставится на место второй частоты. Затем к числу 40 прибавляется следующая теоретическая частота, полученная величина 60 — ставится на место третьей теоретической частоты и так далее.
Символом FB в таблице 8.16 обозначаются накопленные эмпирические частоты. Для их подсчета необходимо расположить эмпирические частоты по возрастанию: 15, 18, 18, 21, 23, 25 и затем по порядку сложить. Так, вначале стоит первая частота равная 15, к ней прибавляется вторая по величине частота и полученная сумма 15 + 18 = 33 ставится на место второй частоты, затем к 33 добавляется 18 (33 + 18 = 51), полученное число 51 ставится на место третьей частоты и т.д.
Символом |FE - FB| в таблице 8.16 обозначаются абсолютные величины разности между теоретической и эмпирической частотой по каждому столбцу отдельно.
Эмпирическую величину этого критерия, которая обозначается как Dэмп получают используя формулу (8.13):
Для её получения среди чисел |FE - FB| находят максимальное число (в нашем случае оно равно 9) и делят его на объем выборки п. В нашем случае п = 120, поэтому
Для этого критерия таблица с критическими значениями дана в Приложении 1 под № 13. Из таблицы 13 Приложения 1 следует, однако, что в том случае, если число элементов выборке больше 100, то величины критических значений вычисляются по формуле (8.14):
Иными словами, вместо привычных табличных значений вычисляются величины Dкр подстановкой величины объема выборки вместо символа п.
В нашем случае п = 120, поэтому Dкр для0,05 равно
и Dкp для 0,01 равно , или в привычной форме записи:
В нашем случае Dэмп оказалось равным 0,075, что гораздо меньше 0,124, иначе говоря, эмпирическое значение критерия Колмогорова-Смирнова попало в зону незначимости. Таким образом, гипотеза Н1 отклоняется и принимается гипотеза о том, что теоретическое и эмпирическое распределения не отличаются между собой. Следовательно, можно с уверенностью утверждать, что наш игральный кубик «безупречен».
2.5. Критерий - угловое преобразование Фишера
Назначение критерия
Критерий Фишера предназначен для сопоставления двух рядов выборочных значений по частоте встречаемости какого-либо признака. Этот критерий можно применять для оценки различий в любых двух выборках зависимых или независимых. С его помощью можно сравнивать показатели одной и той же выборки, измеренные в разных условиях.
Описание критерия
Критерий оценивает достоверность различий между процентными долями двух выборок, в которых зарегистрирован интересующий нас эффект.
Суть углового преобразования Фишера состоит в переводе процентных долей в величины центрального угла, который измеряется в радианах. Большей процентной доле будет соответствовать больший угол , а меньшей доле – меньший угол,но соотношения здесь не линейные: , где - процентная доля, выраженная в долях единицы.
При увеличении расхождения между углами , и увеличения численности выборок значение критерия возрастет. Чем больше величина , тем более вероятно, что различия достоверны.
Гипотезы
: Доля лиц, у которых проявляется исследуемый эффект, в выборке 1 не больше, чем в выборке 2.
: Доля лиц, у которых проявляется исследуемый эффект, в выборке 1 больше, чем в выборке 2.
Для применения критерия Фишера необходимо соблюдать следующие условия:
1. Измерение может быть проведено в любой шкале.
2. Характеристики выборок могут быть любыми.
3. Нижняя граница — в одной из выборок может быть только 2 наблюдения, при этом во второй должно быть не менее 30 наблюдений. Верхняя граница не определена.
4. Нижние границы двух выборок должны содержать не меньше 5 элементов (наблюдений) в каждой.