Ошибочные решения при проверке гипотез
При проверке статистической гипотезы решение экспериментатора никогда не принимается с уверенностью, т.е. всегда существует некоторый риск принять неправильное решение. Исключить на 100 % этот риск невозможно. Экспериментатор может выбрать вероятность или уровень значимости. Самыми распространенными уровнями являются 0,001; 0,01; 0,05; 0,1. Уровень 0,05 означает, что выборочное значение может встретиться не чаще, чем 5 раз в 100 наблюдениях.
Величину p = 1 – α называют доверительной вероятностью (при уровне значимости 0,05 доверительная вероятность равна 0,95).
Ошибки, допускаемые при проверке гипотез, удобно разделить на два вида: 1) отклонение гипотезы Н0, когда она верна, – ошибка первого рода; 2) принятие гипотезы Н0, когда в действительности она не верна, – ошибка второго рода.
Вероятность ошибки первого рода и есть уровень значимости a. Величина a называется уровнем значимости критерия, по которому проверяется справедливость гипотезы Н0. Иными словами, уровень значимости a – это вероятность попадания критерия К в критическую область, если верна нулевая гипотеза. Он служит для определения по таблицам критических значений критерия (Ккрит), которые указывают положение критических точек, отделяющих критическую область от области принятия гипотезы. Обычно величина a выбирается малой. Поэтому попадание критерия К в критическую область при справедливости нулевой гипотезы мало вероятно.
Чаще всего a принимают равной 0,05. Это означает, что вероятность ошибочно принять гипотезу H1 при справедливости гипотезы H0 равна только 5 %.
Основные этапы проверки статистических гипотез
1. Исходя из задач исследования, формулируются статистические гипотезы.
2. Выбирается уровень значимости, на котором будут проверяться гипотезы.
3. На основе выборки, полученной из результатов измерения, определяется статистическая характеристика гипотезы.
4. Выбирается критерий для проверки статистической гипотезы.
5. Вычисляется наблюдаемое (фактическое) значение статистического критерия.
6. Определяется критическое значение статистического критерия по соответствующей таблице на основании выбранного уровня значимости и объема выборки.
7. На основе сравнения наблюдаемого и критического значения критерия в зависимости от результатов проверки нулевая гипотеза либо принимается, либо отклоняется в пользу альтернативной.
15.5. Оценка статистической достоверности
коэффициента корреляции
Оценить статистическую достоверность коэффициента корреляции – это значит определить, существует или нет линейная корреляционная связь между генеральными совокупностями или, что то же, установить, существенно или несущественно отличается от нуля коэффициент корреляции между выборками. Эта задача может быть решена с помощью таблиц критических точек распределения коэффициента корреляции (см. Приложение 1) в следующем порядке:
1. Рассчитывается наблюдаемое значение коэффициента корреляции rнабл.
2. Находится по таблице критическое значение коэффициента корреляции rкрит в зависимости от объема выборки n, уровня значимости a и вида критической области (односторонняя или двусторонняя).
3. Сравнивается rнабл и rкрит.
Если rнабл > rкрит, коэффициент корреляции считается статистически достоверным (значимым). Если rнабл ≤ rкрит – статистически недостоверным (незначимым).
НАДЕЖНОСТЬ ТЕСТОВ
Понятие о надежности тестов
Один и тот же тест, применяемый к одним и тем же испытуемым, должен давать в одинаковых условиях совпадающие результаты (если только не изменились сами испытуемые). Однако при самой строгой стандартизации точной аппаратуры результаты тестирования всегда несколько варьируют. Например, спортсмен, только что прыгнувший в длину с места на 260 см в следующем прыжке показывает лишь 255 см.
Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях. Вариацию результатов при повторных измерениях называют внутрииндивидуальной или (используя более общую терминологию математической статистики) внутригрупповой либо внутриклассовой. Четыре основные причины вызывают эту вариацию.
1. Изменение состояния испытуемых (утомление; врабатывание; изменение мотивации, концентрации внимания и т.п.)
2. Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.), т.е. все то, что объединяется термином «случайная ошибка измерения».
3. Изменение состояния человека, проводящего или оценивающего тест (и, конечно, замена одного экспериментатора другим или замена судьи).
4. Несовершенство теста (есть такие тесты, которые заведомо малонадежны, например, штрафные броски в баскетбольную корзину до первого промаха. Даже баскетболист, имеющий высокий процент попадания, может случайно ошибиться при первых бросках).
Основное различие теории надежности тестов от теории ошибок измерения состоит в том, что в теории ошибок измеряемая величина считается неизменной, а в теории надежности тестов предполагается, что она меняется от измерения к измерению. Например, если мы измеряем результат выполненной попытки в метании копья, то он вполне определенный и с течением времени измениться не может. Конечно, в силу случайных причин (например, неодинакового натяжения рулетки), нельзя с идеальной точностью, скажем, с точностью до 0,0001 мм, измерить этот результат. Однако используя более точный мерительный инструмент (например, лазерный измеритель расстояния) и проведя повторные измерения, можно повысить их точность до необходимого уровня. Вместе с тем если перед нами стоит задача определить подготовленность метателя в определенном периоде тренировки, то самое точное измерение показанных им результатов мало чем поможет: ведь они от попытки к попытке будут изменяться.
Чтобы разобраться в идее методов, используемых для суждения о надежности тестов, рассмотрим упрощенный пример. Предположим, что мы хотим сравнить результаты прыжков в длину с места у двух спортсменов по двум выполненным попыткам. Выводы должны быть точными, поэтому нельзя ограничиться регистрацией лишь лучших результатов. Допустим, что результаты каждого из спортсменов варьируют в пределах ±10 см от средней величины и равны соответственно 220±10 см (т.е. 210 и 230 см) и 320±10 см (т.е. 310 и 330 см). В таком случае вывод, конечно, будет совершенно однозначным: второй спортсмен превосходит первого. Различия между их результатами (320 см – 220 см = 100 см) явно больше случайных колебаний (±10 см). Гораздо менее определенным будет вывод, если при той же самой внутригрупповой вариации (±10 см) различие между испытуемыми (межгрупповая вариация) будет маленьким. Скажем, средние значения будут равны 220 см (в одной попытке 210 см, в другой – 230 см) и 222 (212 и 232 см). Тогда может случиться, например, что в первой попытке первый спортсмен прыгнет 230 см, а второй – только 212 см; и создается впечатление, что первый существенно сильнее второго. Из примера видно, что основное значение имеет не сама по себе внутриклассовая изменчивость, а ее соотношение с межклассовыми различиями. Одна и та же внутриклассовая вариация дает разную надежность при разных различиях между классами (в частном случае, между испытуемыми).
Говоря о надежности тестов, различают их стабильность (воспроизводимость), согласованность, эквивалентность.
Стабильность теста
Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом. Схема оценки стабильности теста такова:
ВРЕМЕННОЙ
ТЕСТ РЕТЕСТ
ИНТЕРВАЛ
Степень надежности тестов определяется с помощью коэффициентов взаимосвязи, полученных из корреляционного или дисперсионного анализа.
Выбор коэффициента взаимосвязи зависит от типа применяемой шкалы измерений, от числа выполненных попыток (попыткой считается, например, исходное или повторное тестирование) и количества факторов, влияние которых надо исследовать.
Если изучается влияние только одного фактора и при этом количество попыток не более двух, то надежность теста может быть приближенно оценена с помощью коэффициента корреляции между тестом и ретестом. В остальных случаях рекомендуется использовать дисперсионный анализ.
Стабильность теста зависит от:
1) вида теста;
2) контингента испытуемых;
3) временного интервала между тестом и ретестом.
Например, морфологические характеристики при небольших временных интервалах весьма стабильны; наименьшую стабильность имеют тесты на точность движений (например, броски в цель).
У взрослых результаты тестирования более стабильны, чем у детей; у спортсменов – более стабильны, чем у не занимающихся спортом.
С увеличением временного интервала между тестом и ретестом стабильность теста снижается (таблица 5).
Таблица 5 – Стабильность теста (коэффициент корреляции) при разных
временных интервалах (120 испытуемых студентов)
Тест | Ретест сразу по окончании теста | Ретест через 1 месяц |
Бег 1000 м | 0,94 | 0,76 |
Прыжок в длину с места | 0,93 | 0,82 |
Согласованность теста
Согласованность характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест. Согласованность определяется по степени совпадения результатов, полученных на одних и тех же испытуемых разными экспериментаторами, судьями, экспертами. При этом возможны два варианта:
1) лицо, проводящее тест, только оценивает его результаты, не влияя на них. Например, одну и ту же письменную работу разные экзаменаторы могут оценивать по-разному. Нередко различаются оценки судей в гимнастике, фигурном катании на коньках, боксе, показатели ручного хронометрирования, оценка электрокардиограммы или рентгенограммы разными врачами и т.п.;
2) лицо, проводящее тест, влияет на его результаты. Например, некоторые экспериментаторы более настойчивы и требовательны, чем другие, лучше мотивируют испытуемых. Это сказывается на результатах (которые сами по себе могут измеряться вполне объективно).
Согласованность теста – это, по существу, надежность оценки его результатов при проведении теста разными людьми.
Особенно актуальна задача оценки согласованности при количественном определении качественных показателей. Для этого разработаны специальные методы.
Эквивалентность тестов
Нередко тест выбирают из определенного числа однотипных тестов. Например, броски в баскетбольную корзину можно выполнять с разных точек; спринтерский бег может проводиться на дистанции, скажем, 50, 60 или 100 м; подтягивания можно выполнять на кольцах или перекладине, хватом сверху или снизу и т.п. В таких случаях может использоваться так называемый метод параллельных форм, когда испытуемым предлагают выполнить две разновидности одного и того же теста и затем оценивают степень совпадения результатов. Схема тестирования здесь следующая:
МИНИМАЛЬНЫЙ
ФОРМА А ФОРМА Б
ВРЕМЕННОЙ ИНТЕРВАЛ
Рассчитанный между результатами тестирования коэффициент корреляции называют коэффициентом эквивалентности. Отношение к эквивалентности тестов зависит от конкретной ситуации. С одной стороны, если два или больше тестов эквивалентны, их совместное применение повышает надежность оценок; с другой – может оказаться полезным применять только один эквивалентный тест: это упростит тестирование и лишь незначительно снизит информативность батареи тестов. Решение этого вопроса зависит от таких причин, как сложность и громоздкость тестов, степень необходимой точности тестирования и т.п.
Если же тесты, входящие в какой-либо комплекс тестов, высокоэквивалентны, он называется гомогенным. Весь этот комплекс измеряет одно какое-то свойство моторики человека. Скажем, комплекс, состоящий из прыжков с места в длину, вверх и тройного, вероятно, будет гомогенным. Наоборот, если в комплексе нет эквивалентных тестов, то все тесты, входящие в него, измеряют разные свойства. Такой комплекс называется гетерогенным. Пример гетерогенной батареи тестов: подтягивание на перекладине, наклон вперед (для проверки гибкости), бег на 1500 м.