Тема: Определение надежности тестов

ТЕМА 9. Теория тестов.

ОСНОВЫ ТЕОРИИ ТЕСТОВ

Основные понятия теории тестов

Измерение или испытание, проводимое с целью определения состояния или способностей спортсмена, называется тестом.

Не всякие измерения могут быть использованы как тесты, а только те, которые отвечают специальным требованиям. К ним относятся:

1. стандартизованность (процедура и условия тестирования должны быть одинаковыми во всех случаях применения теста);

2. надежность;

3. информативность;

4. наличие системы оценок.

Тесты, удовлетворяющие требованиям надежности и информативности, называют добротными или аутентичными (греч. аутентико — достоверным образом).

Процесс испытаний называется тестированием; полученное в итоге измерения числовое значение — результатом тестирования (или результатом теста). Например, бег 100 м — это тест, процедура проведения забегов и хронометража — тестирование, время забега — результат теста.

Тесты, в основе которых лежат двигательные задания, называют двигательными или моторными. Результатами их могут быть либо двигательные достижения (время прохождения дистанции, число повторений, пройденное расстояние и т.п.), либо физиологические и биохимические показатели.

Иногда используется не один, а несколько тестов, имеющих единую конечную цель (например, оценку состояния спортсмена в соревновательном периоде тренировки). Такая группа тестов называется комплексом или батареей тестов.

Один и тот же тест, примененный к одним и тем же исследуемым, должен дать в одинаковых условиях совпадающие результаты (если только не изменились сами исследуемые). Однако при самой строгой стандартизации и точной аппаратуре результаты тестирования всегда несколько варьируют. Например, исследуемый, только что показавший в тесте становой динамометрии результат 215 кГ, при повторном выполнении показывает лишь 190 кГ.

2. Надежность тестов и пути ее определения

Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях.

Вариацию результатов при повторном тестировании называют внутри индивидуальной, или внутри групповой, либо внутриклассовой.

Четыре основные причины вызывают эту вариацию:

1. Изменение состояния исследуемых (утомление, врабатывание, научение, изменение мотивации, концентрации внимания и т.п.).

2. Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.), т.е. все то, что объединяется термином “случайная ошибка измерения”.

3. Изменение состояния человека, проводящего или оценивающего тест (и, конечно, замена одного экспериментатора или судьи другим).

4. Несовершенство теста (есть такие тесты, которые заведомо малонадежные. Например, если исследуемые выполняют штрафные броски в баскетбольную корзину, то даже баскетболист, имеющий высокий процент попаданий, может случайно ошибиться при первых бросках).

Основное различие теории надежности тестов от теории ошибок измерения состоит в том, что в теории ошибок измеряемая величина считается неизменной, а в теории надежности тестов предполагается, что она меняется от измерения к измерению. Например, если необходимо измерить результат выполненной попытки в прыжках в длину с разбега, то он вполне определенный и с течением времени значительно измениться не может. Конечно, в силу случайных причин (например, неодинакового натяжения рулетки) нельзя с идеальной точностью (скажем до 0,0001 мм) измерить этот результат. Однако используя более точный измерительный инструмент (например, лазерный измеритель), можно повысить их точность до необходимого уровня. Вместе с тем, если стоит задача определить подготовленность прыгуна на отдельных этапах годичного цикла тренировки, то самое точное измерение показанных им результатов мало чем поможет: ведь они от попытки к попытке изменятся.

Чтобы разобраться в идее методов, используемых для суждения о надежности тестов, рассмотрим упрощенный пример. Предположим, что необходимо сравнить результаты прыжков в длину с места у двух спортсменов по двум выполненным попыткам. Допустим, что результаты каждого из спортсменов варьируют в пределах ± 10 см от средней величины и равны соответственно 230 ± 10 см (т.е. 220 и 240 см) и 280± 10 см (т.е. 270 и 290 см). В таком случае вывод, конечно, будет совершенно однозначным: второй спортсмен превосходит первого (различия между средними в 50см явно выше случайных колебаний в ± 10 см). Если же при той же самой внутригрупповой вариации ( ± 10 см) различие между средними значениями исследуемых (межгрупповая вариация) будут маленькими, то сделать вывод будет гораздо труднее. Допустим, что средние значения будут примерно равны 220 см (в одной попытке — 210, в другой — 230 см) и 222 см (212 и 232 см). При этом первый исследуемый в первой попытке прыгает на 230 см, а второй — только на 212 см; и создается впечатление, что первый существенно сильнее второго. Из этого примера видно, что основное значение имеет не сама по себе внутриклассовая изменчивость, а ее соотношение с межклассовыми различиями. Одна и та же внутриклассовая изменчивость дает разную надежность при равных различиях между классами (в частном случае между исследуемыми, рис. 14).

Тема: Определение надежности тестов - student2.ru

Рис. 14. Соотношение меж- и внутриклассовой вариации при высокой (вверху) и низкой (внизу) надежности:

короткие вертикальные штрихи — данные отдельных попыток;

Тема: Определение надежности тестов - student2.ru — средние результаты трех исследуемых.

Теория надежности тестов исходит из того, что результат любого измерения, проводимого на человеке Тема: Определение надежности тестов - student2.ru , есть сумма двух значений:

Тема: Определение надежности тестов - student2.ru

где: Тема: Определение надежности тестов - student2.ru — так называемый истинный результат, который хотят зафиксировать;

Тема: Определение надежности тестов - student2.ru — ошибка, вызванная неконтролируемыми изменениями в состоянии исследуемого и случайными ошибками измерения.

Под истинным результатом понимают среднее значение х при бесконечно большом числе наблюдений в одинаковых условиях (по этому при х ставят знак Тема: Определение надежности тестов - student2.ru ).

Если ошибки случайны (их сумма равна нулю, и в равных попытках они не зависят друг от друга), тогда из математической статистики следует:

Тема: Определение надежности тестов - student2.ru

т.е. зарегистрированная в опыте дисперсия результатов Тема: Определение надежности тестов - student2.ru равна сумме дисперсий истинных результатов Тема: Определение надежности тестов - student2.ru и ошибок Тема: Определение надежности тестов - student2.ru .

Коэффициентом надежности Тема: Определение надежности тестов - student2.ru называется отношение истинной дисперсии к дисперсии, зарегистрированной в опыте:

Тема: Определение надежности тестов - student2.ru

Тема: Определение надежности тестов - student2.ru

Кроме коэффициента надежности используют еще индекс надежности:

Тема: Определение надежности тестов - student2.ru

который рассматривают как теоретический коэффициент корреляции зарегистрированных значений теста с истинными.

Понятие об истинном результате теста является абстракцией ( Тема: Определение надежности тестов - student2.ru в опыте измерить нельзя). Поэтому приходится использовать косвенные методы. Наиболее предпочтителен для оценки надежности дисперсионный анализ с последующим расчетом внутриклассовых коэффициентов корреляции. Дисперсионный анализ позволяет разложить зарегистрированную в опыте вариацию результатов теста на составляющие, обусловленные влиянием отдельных факторов. Например, если зарегистрировать у исследуемых их результаты в каком-либо тесте, повторяя этот тест в разные дни, причем каждый день делать по несколько попыток, периодически меняя экспериментаторов, то будут иметь место вариации:

а) от испытуемого к испытуемому;

б) ото дня ко дню;

в) от экспериментатора к экспериментатору;

г) от попытки к попытке.

Дисперсионный анализ дает возможность выделить и оценить эти вариации.

Таким образом, чтобы оценить практически надежность теста надо, во-первых, выполнить дисперсионный анализ, во-вторых, рассчитать внутриклассовый коэффициент корреляции (коэффициент надежности).

При двух попытках величина внутриклассового коэффициента корреляции практически совпадает со значениями обычного коэффициента корреляции между результатами первой и второй попыток. Поэтому в таких ситуациях для оценки надежности можно использовать обычный коэффициент корреляции (он при этом оценивает надежность одной, а не двух попыток).

Говоря о надежности тестов, необходимо различать их стабильность (воспроизводимость), согласованность, эквивалентность.

Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом.

Согласованность теста характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест.

При выборе теста из определенного числа однотипных тестов (например, спринтерский бег на 30, 60 и 100 м) методом параллельных форм оценивается степень совпадения результатов. Рассчитанный между результатами коэффициент корреляции называют коэффициентом эквивалентности.

Если все тесты, входящие в какой-либо комплекс тестов, высоко эквивалентны, он называется гомогенным. Весь этот комплекс измеряет одно какое-то свойство моторики человека (например, комплекс, состоящий из прыжков с места в длину, вверх и тройного; оценивается уровень развития скоростно-силовых качеств). Если в комплексе нет эквивалентных тестов, то есть тесты, входящие в него, измеряют разные свойства, то он называется гетерогенным (например, комплекс, состоящий из становой динамометрии, прыжка вверх по Абалакову, бега на 100 м).

Надежность тестов может быть повышена до определенной степени путем:

а) более строгой стандартизации тестирования;

б) увеличения числа попыток;

в) увеличения числа оценщиков (судей, экспериментов) и повышения согласованности их мнений;

г) увеличения числа эквивалентных тестов;

д) лучшей мотивации исследуемых.

Пример 10.1.

Определить надежность результатов тройного прыжка с места в оценке скоростно-силовых возможностей спортсменов-спринтеров, если данные выборок таковы:

Тема: Определение надежности тестов - student2.ru

Решение:

1. Занести результаты тестирования в рабочую таблицу:

Тема: Определение надежности тестов - student2.ru

2. Подставляем полученные результаты в формулу расчета рангового коэффициента корреляции:

Тема: Определение надежности тестов - student2.ru

Тема: Определение надежности тестов - student2.ru

3. Определим число степеней свободы по формуле:

k = n.

Тема: Определение надежности тестов - student2.ru

Вывод: полученное расчетное значение Тема: Определение надежности тестов - student2.ru Следовательно, с уверенностью в 99%можно говорить о том, что тест тройного прыжка с места надежен.

Ход работы

Задача 1.

Определить надежность показателя ___________________________, сравнив данные результатов теста(X)и ретеста(Y) с помощью рангового коэффициента корреляции.

Решение:

1. Занести результаты тестирования в рабочую таблицу и выполнить необходимые расчеты:

Тема: Определение надежности тестов - student2.ru d x Тема: Определение надежности тестов - student2.ru dy Тема: Определение надежности тестов - student2.ru Тема: Определение надежности тестов - student2.ru
           
        Тема: Определение надежности тестов - student2.ru Тема: Определение надежности тестов - student2.ru

2. Вычислить значение рангового коэффициента корреляции по формуле:

Тема: Определение надежности тестов - student2.ru

Тема: Определение надежности тестов - student2.ru

3. Определить число степеней свободы по формуле:

k = n .

Тема: Определение надежности тестов - student2.ru

Вывод :

Теоретические сведения

Информативность теста — это степень точности, с какой он измеряет свойство (качество, способность, характеристику и т.п.), для оценки которого используется. Информативность нередко называют также валидностью (от англ. validity — обоснованность, действительность, законность). В разных случаях одни и те же тесты могут иметь разную информативность.

Вопрос об информативности теста распадается на два частных вопроса:

1) что измеряет данный тест?

2) как точно он измеряет?

Если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности теста. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена — о прогностическойинформативности. Тест может быть диагностически информативен, а прогностически нет, и наоборот.

Степень информативности может характеризоваться количественно на основе опытных данных (так называемая эмпирическаяинформативность) и качественно — на основе содержательного анализа ситуации ( содержа-тельная или логическая информативность).

Идея определения эмпирической информативности (греч. эмпириа — опыт) состоит в том, что результаты сравнивают с некоторым критерием. Для этого рассчитывают коэффициент корреляции между критерием и тестом (такой коэффициент называют коэффициентом информативности и обозначают Тема: Определение надежности тестов - student2.ru , где: t — первая буква в слове “тест”, k — в слове “критерий”).

В качестве теста-критерия берется показатель, заведомо и бесспорно отражающий то качество системы, которое собираются измерять с помощью теста.

Чаще всего в спортивной метрологии критериями служат:

1) спортивный результат;

2) какая-либо количественная характеристика соревновательной деятельности (например, длина шага в беге, сила отталкивания в прыжках, процент точных передач в футболе и т.д.);

3) результаты другого теста, информативность которого доказана;

4) принадлежность к определенной группе. Например, можно сравнивать мастеров спорта и спортсменов низших разрядов; принадлежность к одной из этих групп является критерием;

5) так называемый составной критерий, например, сумма очков в многоборье.

Пример определения информативности одного и того же теста (скорость бега 30 м с ходу у мужчин) при разных критериях приведен в таблице 8. Данные получены на 62 спортсменах, показавших в прыжках в длину результаты от 600 до 772 см; результаты в многоборье брались на основании опроса.

Таблица 8

Информативность теста “бег 30 м с ходу” ( n = 62)

Критерий Мера критерия Коэффициент информативности
Прыжок в длину с разбега Разбег в прыжках в длину Результат прыжка (см) Скорость бега на последних 10 м (м/с) 0,658 0,918
Спортивные достижения в прыжках в длину Разряд по легкой атлетике (от второго до мастера спорта) 0,715
Результат в троеборье: бег 100 м, прыжки в длину, бег 100 м с/б Сумма очков 0,764

Вопрос о выборе критерия является, по существу, самым важным при определении реального значения и информативности тестов.

При практическом использовании показателей эмпирической информативности следует иметь ввиду, что они справедливы лишь по отношению к тем исследуемым и условиям, для которых они рассчитаны. Тест, информативный в группе начинающих, может оказаться совершенно не информативным в группе мастеров спорта.

Информативность теста неодинакова в разных по составу группах. В частности, в группах, более однородных по своему составу, тест обычно менее информативен.

Коэффициент информативности очень сильно зависит от надежности теста и критерия. Тест с низкой надежностью всегда мало информативен, поэтому не имеет смысла проверять малонадежные тесты на информативность. Недостаточная надежность критерия также приводит к снижению коэффициентов информативности. Однако в данном случае было бы не правильно пренебрегать тестом как мало информативным; ведь верхней границей возможной корреляции теста является не ± 1, а его индекс надежности. Поэтому надо сравнивать коэффициент информативности с этим индексом. Действительную информативность (с поправкой на надежность критерия) рассчитывают по формуле:

Тема: Определение надежности тестов - student2.ru ,

где:

Тема: Определение надежности тестов - student2.ru

Коэффициент информативности может определяться как коэффициент корреляции между результатом теста и теста-критерия (например, ранговый коэффициент корреляции):

Тема: Определение надежности тестов - student2.ru .

Пример 11.1.

Эмпирическим путем определить информативность теста становой динамометрии (Х) в оценке силовых возможностей исследуемых, используя в качестве теста-критерия (Y) максимальное количество подтягиваний на перекладине. При этом данные выборок таковы:

Тема: Определение надежности тестов - student2.ru

Решение:

1. Занесем результаты тестирования в рабочую таблицу и сделаем все необходимые расчеты:

Тема: Определение надежности тестов - student2.ru

2. Подставим полученные данные в формулу расчета рангового коэффициента корреляции:

Тема: Определение надежности тестов - student2.ru

Тема: Определение надежности тестов - student2.ru

3. Определим число степеней свободы по формуле:

k = n.

Тема: Определение надежности тестов - student2.ru

Вывод : т.к. Тема: Определение надежности тестов - student2.ru при k = 7, то с уверенностью в 99% можно говорить о том, что в данной группе исследуемых тест становой динамометрии информативен при оценке уровня развития силовых возможностей.

Рассматривая данный частный пример, необходимо отметить, что с информативностью и надежностью теста тесно связано понятие о его различительной возможности — том минимальном различии между исследуемыми, которое диагностируется с помощью теста. Различительная возможность теста зависит от:

1. Межиндивидуальной вариации результатов, которая во многих случаях (например, межклассовая вариация) может быть повышена за счет увеличения трудности теста.

2. Надежности (т.е. соотношения меж- и внутрииндивидуальной вариации) теста и критерия.

Нет фиксированной величины информативности теста, после которой можно считать тест пригодным. Здесь многое зависит от конкретной ситуации: желаемой точности прогноза, необходимости получить хотя бы какие-то дополнительные сведения о спортсмене и т.п. Практически для диагностики используются тесты, информативность которых не меньше 0,3. Для прогноза, как правило, нужна более высокая информативность — не менее 0,6.

Информативность батареи тестов, естественно выше, чем информативность одного теста. Нередко бывает так, что информативность одного отдельно взятого теста слишком низка, чтобы им пользоваться. Информативность же батареи тестов, в которую он входит, может быть вполне достаточна.

В практической деятельности принято выделять такое понятие как добротность теста, которая складывается из его информативности и надежности, определенных с помощью корреляционного анализа (рис.15).

Тема: Определение надежности тестов - student2.ru

Рис. 15. Схема определения добротности тестов.

При определении добротности теста необходимо учесть следующие положения:

1. Если тест информативен Тема: Определение надежности тестов - student2.ru и надёжен Тема: Определение надежности тестов - student2.ru , то он считается добротным, при этом берется меньшая величина уверенности Тема: Определение надежности тестов - student2.ru

2. Если же тест не отвечает хотя бы одному из этих свойств (т.е. ненадежен, или неинформативен), то он считается недобротным.

Пример 11.2.

Для оценки уровня развития скоростных возможностей группы исследуемых был использован показатель времени опоры (м/с) в 10-секундном беге на месте на контактной платформе с высоким подниманием бедра (теппинг-тест). Необходимо доказать добротность данного теста (X),сравнив его результаты с результатами ретеста(Y)и теста-критерия (Z), которым служит время бега на 100 м, если данные выборок таковы:

Тема: Определение надежности тестов - student2.ru

Решение:

1. Занесем результаты тестирования в рабочую таблицу и выполним необходимые расчеты:

Тема: Определение надежности тестов - student2.ru

2. Определим надежность данного теста с помощью расчета рангового коэффициента корреляции между результатами теста и ретеста:

Тема: Определение надежности тестов - student2.ru

Тогда при k = 8 и b = 99% табличное значение рангового коэффициента корреляции равно 0,88.

3. Определим информативность теппинг-теста с помощью расчета рангового коэффициента корреляции между данными теста и теста-критерия:

Тема: Определение надежности тестов - student2.ru

Значение рангового коэффициента корреляции из таблицы при k = 8 и Тема: Определение надежности тестов - student2.ru равно 0,72.

Вывод: 1) Тема: Определение надежности тестов - student2.ru можно говорить о том, что в данной группе исследуемых теппинг-тест надежен в оценке скоростных возможностей;

2) Тема: Определение надежности тестов - student2.ru то с уверенностью Тема: Определение надежности тестов - student2.ru можно говорить об информативности данного теста;

3) т.к. тест надежен и информативен, то с уверенностью Тема: Определение надежности тестов - student2.ru можно говорить о том, что он добротен.

Ход работы

Задача 1.

По результатам тестирования группы в показателе _____________, определить информативность данного теста в оценке ____________________________, используя в качестве теста-критерия результаты ___________________________________________.

Решение:

2. Занести результаты тестирования в рабочую таблицу и произвести необходимые расчеты:

Тема: Определение надежности тестов - student2.ru

2. Определить информативность теста с помощью расчета рангового коэффициента корреляции:

Тема: Определение надежности тестов - student2.ru

Вывод:

Задача 2.

Определить добротность теста ________________________________ в оценке ___________________________________, если в качестве теста-критерия взят тест _____________________, а данные выборок таковы:

Тема: Определение надежности тестов - student2.ru

Решение:

1. Данные тестирования занести в рабочую таблицу:

Тема: Определение надежности тестов - student2.ru

2. Определить надежность данного теста:

Тема: Определение надежности тестов - student2.ru

3. Определить информативность данного теста:

Тема: Определение надежности тестов - student2.ru

Вывод:

Основные задачи оценивания

1. Сопоставить разные достижения в одном и том же задании (тесте, спортивной дисциплине, упражнении, виде многоборья). Например, необходимо сопоставить спортивные результаты, равные норме мастера спорта и I разряда. Ставится задача: сколько перворазрядных результатов соответствует одному мастерскому?

2. Сопоставить достижения в разных заданиях. Главным здесь является уравнивание оценок за достижения одинаковой трудности в разных видах спорта или разных видах соревнований.

3. Определить нормы. В отдельных случаях (школьные оценки, комплекс ГТО и т.п.) нормы совпадают с градациями шкалы.

Решение указанных задач полностью определяет систему оценки спортивных результатов.

Две группы критериев могут лежать в основе оценки. Оценка должна:

1. Быть справедливой, т.е. оценивать достижения:

1. а) равной трудности (эквивалентные) равным числом очков;

2. б) неравной трудности — тем большим числом очков, чем выше трудность достижения.

2. Приводить к практически полезным результатам.

Как уже отмечалось выше, непосредственно сопоставлять достижения в разных заданиях нельзя (скажем, не ясно, что труднее — бег 100 м за 11,0 с или прыжок в высоту на 2,00 м). В таких случаях используют косвенные подходы, в частности перевод результатов в баллы или очки на основе шкал оценок.

Шкалы оценок

2.1. Разновидности шкал

Шкала оценок может быть представлена:

таблицей;

графиком функции;

математической формулой.

Все шкалы можно разделить на две группы:

1. Пропорциональные (линейные) шкалы.

2. Нелинейные шкалы.

Принято выделять четыре основных типа шкал оценок (рис. 17).

Тема: Определение надежности тестов - student2.ru

Рис. 17. Основные типы шкал оценивания:

I — пропорциональная шкала,

II — регрессирующая,

III — прогрессирующая,

IV — сигмовидная.

Первый тип — пропорциональные шкалы. Этот тип шкал предполагает начисление одинакового числа очков за равный прирост результатов (например, за каждые 0,1с улучшения результата в беге на 100м начисляется 20 очков).

Второй тип — регрессирующие шкалы. В этом случае за один и тот же прирост результата начисляются по мере возрастания спортивных достижений все меньшее число очков (например, за улучшение результата в беге на 100 м с 15,0 с до 14,9 с добавляются 20 очков, а за 0,1 с в диапазоне 10,0–9,9 с — только 15 очков).

Третий тип — прогрессирующие шкалы. Здесь, чем выше спортивный результат, тем большей прибавкой очков оценивается его улучшение (например, за улучшение времени в беге от 15,0 с до 14,9 с добавляются 10 очков, а от 10,0–9,9 с — 100 очков).

Четвертый тип — комбинированные, сигмовидные (или S-образные). В этих шкалах улучшение результатов в зонах очень низких и очень высоких достижений поощряется скупо; больше всего очков приносит прирост результатов в средней зоне достижений, т.е. в этих шкалах за равный прирост результата дается меняющаяся сумма баллов.

В спортивной практике наиболее часто применяются шкалы, для которых эквивалентными принято считать результаты в различных видах спорта, в равной степени доступные одинаковому проценту спортсменов одного возраста и пола. Исходя из этого, считают все мировые рекорды эквивалентными, независимо от вида спорта, и оценивают их одинаковым числом очков, например 100. Составив список сильнейших спортсменов по каждому виду спорта, считают эквивалентными также сотые результаты, т.е. всем таким спортсменам начисляют один балл.

Стандартные шкалы

Относятся к группе пропорциональных шкал. Названы они стандартными потому, что масштабом в них служат стандартные отклонения. Наиболее популярна среди стандартных шкал Т-шкала. Здесь средняя величина приравнивается к 50 очкам, а стандарт — к 10 очкам, и расчет суммы баллов ведется по формуле:

Тема: Определение надежности тестов - student2.ru

Например, если средняя величина в прыжках в длину с места равнялась 224 см, а стандартное отклонение составило ± 20 см, то за результат 222 см начисляется 49 очков:

Тема: Определение надежности тестов - student2.ru

При массовых обследованиях спортсменов или групп здоровья можно использовать так называемую С-шкалу, описываемую формулой:

Тема: Определение надежности тестов - student2.ru

Достоинством этой шкалы является простота подсчетов, что достигается за счет меньшей точности.

Перцентильная шкала

Основана на мере преимущества каждого спортсмена по сравнению с более слабыми участниками соревнования. Если, например, проводится кросс с общим стартом, спортсмену можно начислять столько очков, сколько участников (в процентах) он обогнал. Если спортсмен опередил всех участников (99%), то он получает 99 очков, если опередил 72% — 72 очка и т.д. Тот же принцип можно использовать и в других тестах: число начисляемых очков приравнивается к проценту лиц, которых опередил (по результату) данный участник.

Шкала, построенная таким образом, называется перцентильной, а интервал этой шкалы — перцентилем.

Один перцентиль включает 1% всех испытуемых. 50%-ный перцентиль называется медианой.

Шкалы выбранных точек

Описанные шкалы можно построить, если известно статистическое распределение результатов теста: средняя, стандарты и другие параметры распределения. Такие данные не всегда удается получить. Это достижимо, например, при разработке таких шкал, как комплекс ГТО, нормы по физическому воспитанию в школе и т.п., и недостижимо при разработке таблиц по видам спорта.

В последнем случае обычно поступают так: берут какой-нибудь высокий спортивный результат (например, мировой рекорд или 10-й результат в истории данного вида спорта) и приравнивают его, скажем, к 1000 очкам. Затем на основе результатов массовых испытаний определяют среднее достижение группы слабо подготовленных лиц и приравнивают его, скажем, к 100 очкам. После этого, если используется пропорциональная шкала, остается выполнить лишь арифметические вычисления — ведь две точки однозначно определяют прямую линию. Шкала, построенная таким образом, называется шкалой выбранных точек.

Для примера рассмотрим построение шкалы выбранных точек на основе данных мирового табеля о рангах спортсменов по итогам выступления в течение года. В нем мировым рекордам во всех видах спорта дается наивысшая сумма баллов — 1000 очков, а худшие результаты оцениваются 100 очками. Используя принцип построения пропорциональных шкал, строится график шкалы выбранных точек, представленный на рисунке 18.

Тема: Определение надежности тестов - student2.ru

Рис. 18. График шкалы выбранных точек

Далее производится расчет уравнения прямой для данной шкалы оценок по формуле:

K = ax + b — уравнение прямой,

где: K — сумма баллов или очков;

x — результат;

a — коэффициент пропорциональности;

b — свободный член уравнения.

Подставив в данное уравнение значение Тема: Определение надежности тестов - student2.ru и соответствующее ему значение Тема: Определение надежности тестов - student2.ru , которому соответствует Тема: Определение надежности тестов - student2.ru — лучший результаты), составим систему уравнений:

Тема: Определение надежности тестов - student2.ru

Решая систему относительно a , получим:

Тема: Определение надежности тестов - student2.ru .

Подставляя a в уравнение (1) получим b:

Тема: Определение надежности тестов - student2.ru .

Подставив полученные числовые значения a и b в уравнение прямой, получим формулу для расчета оценок по шкале выбранных точек:

Тема: Определение надежности тестов - student2.ru .

Таким образом, конечный вид уравнения прямой для расчета оценок по шкале выбранных точек будет следующим:

Тема: Определение надежности тестов - student2.ru ,

Тема: Определение надежности тестов - student2.ru

Например, лучший результат в беге на 100 м в группе исследуемых спортсменов, равный 11,0 с, оценивался 100 очками, а худший (14,0 с) — 10 очками. Тогда сумма очков спортсмена, показавшего время забега, равное 12,5 с, по формуле уравнения прямой для расчета оценок по шкале выбранных точек равна:

Тема: Определение надежности тестов - student2.ru

Шкала ГЦОЛИФК

При периодических обследованиях состав и общая численность тестируемой команды по разным причинам не остаются постоянными: кто-то заболел, кто-то отозван для участия в других соревнованиях т.п.

Предположим, что в ноябре тестирование проводилось на 10, а в феврале на 20 спортсменах. Конечно, занять 10 место при 10 или при 20 участниках — ни одно и то же (во втором случае спортсмен опередил девятерых, а в первом — никого). Кроме того, ранговая шкала (шкала порядка), например, перцентильная, неудобна тем, что она однозначно не определяет интервалы между исследуемыми.

Для случаев, когда условия тестирования не остаются постоянными, в ГЦОЛИФКе была разработана шкала, в основе которой лежит следующее математическое выражение:

Тема: Определение надежности тестов - student2.ru

где: К — оценка результата в баллах или очках.

Например, лучший результат в ударе ногой по мячу на дальность (в метрах) для подростков 10-11 лет равнялся 30,5м, худший — 8,5м. Очки, начисляемые спортсмену за результат 19,5м, рассчитываются по следующей формуле:

Тема: Определение надежности тестов - student2.ru

Спортсмен, показавший лучший результат, по шкале ГЦОЛИФКа всегда получает 100 очков, занявший же последнее место очков не получает.

Шкала ГЦОЛИФК относится к сигмовидным шкалам оценок, в то время как стандартные, перцентильные и шкалы выбранных точек — это пропорциональные шкалы.

Тема: Основы теории оценок

Цель:научиться правильно выбирать шкалы оценок для оценивания результатов спортсменов в различных видах спорта.

Ход работы

ЗАДАЧА №1.

Используя данные таблицы тестирования ОФП студентов группы в показателях

x — результаты ____________________________________________

y — результаты_____________________________________________

z — результаты______________________________________________

определить личный результат в баллах по каждому из предлагаемых тестов, применив следующие шкалы оценок: 1 — перцентильная шкала; 2 — шкала выбранных точек; 3 — стандартная Т-шкала; 4 — шкала ГЦОЛИФК. Сделать вывод о том, какая из этих шкал более объективна в оценивании результатов проведенных тестов.

Решение:

1. Занести результаты тестирования в рабочую таблицу 9.

2. Рассчитать количество баллов, используя шкалы оценок.

Перцентильная шкала оценок

1. Проранжировать показатели тестов в порядке неубывания (не-возрастания).

2. Рассчитать оценки в каждом тесте по формуле:

Тема: Определение надежности тестов - student2.ru

Тема: Определение надежности тестов - student2.ru

3. Распределить места по сумме очков в рабочей таблице 9 для каждого теста.

Шкала выбранных точек

1. Рассчитать оценки в каждом тесте по формуле:

Тема: Определение надежности тестов - student2.ru

Тема: Определение надежности тестов - student2.ru

Тема: Определение надежности тестов - student2.ru

3. Распределить места по сумме очков в рабочей таблице 9 для каждого теста.

Стандартная Т-шкала

1. Занести данные тестов в таблицу 10, где:

Тема: Определение надежности тестов - student2.ru — результаты ______________________________________

Тема: Определение надежности тестов - student2.ru — результаты ______________________________________

Тема: Определение надежности тестов - student2.ru — результаты ______________________________________

Таблица 10

Тема: Определение надежности тестов - student2.ru

Рассчитать среднее арифметическое и стандартное отклонение для выборок по формулам:

Тема: Определение надежности тестов - student2.ru

3. Рассчитать оценки в каждом тесте по формуле:

Тема: Определение надежности тестов - student2.ru ,

Тема: Определение надежности тестов - student2.ru

Тема: Определение надежности тестов - student2.ru

4. Распределить места по сумме очков в рабочей таблице 9 для каждого теста.

Шкала ГЦОЛИФК

Наши рекомендации