Понятие и классификация тестов.

Требования к тестам.

1. Тестом называется измерение или испытание, проводимое с целью определение состояния или способностей спортсмена.

Тесты, в основе которых лежат двигательные задания, называют двигательными или моторными.

Тест, в основе которого лежат двигательные задания, называется двигательным. Существует три группы двигательных тестов:

1) Контрольные упражнения, выполняя которые спортсмен получает задание показать максимальный результат. Результатом теста является двигательное достижение. Например, время, за которое спортсмен пробегает дистанцию 100 м.

2) Стандартные функциональные пробы, в ходе которых задание, одинаковое для всех, дозируется либо по величине выполненной работы, либо по величине физиологических сдвигов. Результатом теста являются физиологические или биохимические показатели при стандартной работе либо двигательные достижения при стандартной величине физиологических сдвигов. Например, процент увеличения ЧСС после 20 приседаний или скорость, с которой бежит спортсмен при фиксируемой величине ЧСС 160 ударов в минуту.

3) Максимальные функциональные пробы, в ходе которых спортсмен должен показать максимальный результат. Результатом теста являются физиологические или биохимические показатели при максимальной работе. Например, максимальное потребление кислорода или максимальная величина кислородного долга.

2. Тестами могут считаться только те измерения, которые отвечают специальным требованиям:

1) цель тестирования;

2) стандартность (процедура и условия тестирования должны быть одинаковыми во всех случаях применения теста);

3) наличие системы оценок;

4) надежность – качество, характеризующее повторяемость результатов теста при одинаковых условиях тестирования с одними и теми же испытуемыми;

5) информативность – степень точности, с которой тест измеряет свойство, для оценки которого используется.

Тест, удовлетворяющий требованиям надёжности и информативности называется добротным.

Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях. Вариацию результатов при повторных измерениях называют внутрииндивидуальной или (используя более общую терминологию математической статистики) внутригрупповой либо внутриклассовой. Четыре основные причины вызывают эту вариацию.

1) Изменение состояния испытуемых (утомление, врабатывание, научение, изменение мотивации, концентрации внимания и т.п.)

2) Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.), т.е. все то, что объединяется термином «случайная ошибка измерения».

3) Изменение состояния человека, проводящего или оценивающего тест (и, конечно, замена одного экспериментатора другим или замена судьи).

4) Несовершенство теста (есть такие тесты, которые заведомо малонадежны, например, штрафные броски в баскетбольную корзину до первого промаха. Даже баскетболист, имеющий высокий процент попадания, может случайно ошибиться при первых бросках).

Говоря о надежности тестов, различают их стабильность (воспроизводимость), согласованность, эквивалентность.

Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом.

Степень надежности тестов определяется с помощью коэффициентов взаимосвязи, полученных из корреляционного или дисперсионного анализа.

Выбор коэффициента взаимосвязи зависит от типа применяемой шкалы измерений, от числа выполненных попыток (попыткой считается, например, исходное или повторное тестирование) и количества факторов, влияние которых надо исследовать.

Если изучается влияние только одного фактора и при этом количество попыток не более двух, то надежность теста может быть приближенно оценена с помощью коэффициента корреляции между тестом и ретестом. В остальных случаях рекомендуется использовать дисперсионный анализ.

Стабильность теста зависит от:

1) вида теста;

2) контингента испытуемых;

3) временного интервала между тестом и ретестом.

Например, морфологические характеристики при небольших временных интервалах весьма стабильны; наименьшую стабильность имеют тесты на точность движений (например, броски в цель).

У взрослых результаты тестирования более стабильны, чем у детей; у спортсменов¾более стабильны, чем у не занимающихся спортом.

С увеличением временного интервала между тестом и ретестом стабильность теста снижается.

Согласованность характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест. Согласованность определяется по степени совпадения результатов, полученных на одних и тех же испытуемых разными экспериментаторами, судьями, экспертами. При этом возможны два варианта:

1) лицо, проводящее тест, только оценивает его результаты, не влияя на них. Например, одну и ту же письменную работу разные экзаменаторы могут оценивать по-разному. Нередко различаются оценки судей в гимнастике, фигурном катании на коньках, боксе, показатели ручного хронометрирования, оценка электрокардиограммы или рентгенограммы разными врачами и т.п.;

2) лицо, проводящее тест, влияет на его результаты. Например, некоторые экспериментаторы более настойчивы и требовательны, чем другие, лучше мотивируют испытуемых. Это сказывается на результатах (которые сами по себе могут измеряться вполне объективно).

Согласованность теста¾это, по существу, надежность оценки его результатов при проведении теста разными людьми.

Особенно актуальна задача оценки согласованности при количественном определении качественных показателей. Для этого разработаны специальные методы.

Нередко тест выбирают из определенного числа однотипных тестов. Например, броски в баскетбольную корзину можно выполнять с разных точек; спринтерский бег может проводиться на дистанции, скажем, 50, 60 или 100 м; подтягивания можно выполнять на кольцах или перекладине, хватом сверху или снизу и т.п. В таких случаях может использоваться так называемый метод параллельных форм, когда испытуемым предлагают выполнить две разновидности одного и того же теста и затем оценивают степень совпадения результатов.

Рассчитанный между результатами тестирования коэффициент корреляции называют коэффициентом эквивалентности. Отношение к эквивалентности тестов зависит от конкретной ситуации. С одной стороны, если два или больше тестов эквивалентны, их совместное применение повышает надежность оценок; с другой¾может оказаться полезным применять только один эквивалентный тест: это упростит тестирование и лишь незначительно снизит информативность батареи тестов. Решение этого вопроса зависит от таких причин, как сложность и громоздкость тестов, степень необходимой точности тестирования и т.п.

Если же тесты, входящие в какой-либо комплекс тестов, высокоэквивалентны, он называется гомогенным. Весь этот комплекс измеряет одно какое-то свойство моторики человека. Скажем, комплекс, состоящий из прыжков с места в длину, вверх и тройного, вероятно, будет гомогенным. Наоборот, если в комплексе нет эквивалентных тестов, то все тесты, входящие в него, измеряют разные свойства. Такой комплекс называется гетерогенным. Пример гетерогенной батареи тестов: подтягивание на перекладине, наклон вперед (для проверки гибкости), бег на 1500 м.

Информативность теста - это степень точности, с какой он измеряет свойство (качество, способность, характеристику и т.п.), для оценки которого используется. Информативность нередко называют валидностью (обоснованность, действительность, законность).

Вопрос об информативности теста распадается на 2 частных вопроса:

1) Что измеряет данный тест?

2) Как точно он измеряет?

Если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности теста. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена, - о прогностической информативности. Тест может быть диагностически информативен, а прогностически - нет, и наоборот.

Степень информативности может характеризоваться количественно на основе опытных данных (так называемая эмпирическая информативность) и качественно ¾ на основе содержательного анализа ситуации (содержательная, или логическая информативность). Хотя в практической работе содержательный анализ всегда должен предшествовать математическому, здесь для удобства изложения рассматриваются сначала методы расчета эмпирической информативности.

Идея определения эмпирической информативности состоит в том, что результаты теста сравнивают с некоторым критерием. Для этого рассчитывают коэффициент корреляции между критерием и тестом (и такой коэффициент называют коэффициентом информативности и обозначают r_tk, где t ¾ первая буква в слове «тест»; k ¾ в слове «критерий»).

В качестве критерия берется показатель, заведомо и бесспорно содержащий то свойство, которое собираются измерять с помощью теста.

Чаще всего в спортивной метрологии критериями служат:

1) Спортивный результат.

2) Какая-либо количественная характеристика соревновательной деятельности (например, длина шага в беге, сила отталкивания в прыжках, успешность борьба под щитом в баскетболе, выполнение подачи в теннисе или волейболе, процент точных длинных передач в футболе).

3) Результаты другого теста, информативность которого доказана если проведение теста-критерия громоздко и сложно и можно подобрать другой тест, столь же информативный, но более простой. Например, вместо газообмена определять ЧСС). Этот частный случай, когда критерием является другой тест, называют конкурентной информативностью.

4) Принадлежность к определенной группе. Например, можно сравнивать мастеров спорта и спортсменов низших разрядов. Принадлежность к одной из этих групп является критерием. В данном случае используются специальные разновидности корреляционного анализа.

5) Так называемый составной критерий. Например, сумма очков в многоборье. При этом виды многоборья и таблицы очков могут быть как общепринятыми, так и заново составленные экспериментатором. Составным критерием пользуются, когда нет единичного критерия (например, если стоит задача оценить общую физическую подготовленность, мастерство игрока в спортивных играх и т.п., ни один показатель, взятый сам по себе, не может служить критерием).

При практическом использовании показателей эмпирической информативности следует иметь в виду, что они справедливы лишь по отношению к тем испытуемым и условиям, для которых они рассчитаны.

Информативность теста не всегда может быть установлена с помощью эксперимента и статистической обработки его результатов. Например, требуется подготовить билеты для экзамена или темы дипломных работ и т.д. При этом надо отобрать наиболее информативные вопросы, по которым можно точнее всего оценить знания учащихся и подготовленность к практической работе. В этом случае опираются на содержательный (логический) анализ.

Контрольные вопросы для самопроверки:

1. Что называют тестом?

2. Классификация двигательных тестов.

3. Требования, предъявляемые к тестам.

4. Добротность тестов.

5. Надёжность тестов.

6. Стабильность тестов.

7. Согласованность тестов.

8. Эквивалентность тестов.

9. Информативность тестов.

10. Диагностическая и прогностическая информативность.

11. Эмпирическая и логическая информативность.

12. Критерии информативности.

Литература:

1. Годик М.А. Спортивная метрология. Учебник для ин-тов физической культуры. – М.: Физкультура и спорт, 1988. – С. 17 – 36.

2. Спортивная метрология. Учебник для ин-тов физической культуры (под общ. ред. В.М. Зациорского). – М.: Физкультура и спорт, 1982. – С. 63 – 80/

3. Рукавицына С.Л., Волков Ю.О., Солтанович Л.Л. Спортивная метрология. Проверка эффективности методики тренировки с применением методов математической статистики. Практикум для студентов БГУФК. – Минск: БГУФК, 2006. – С. 8, 51 – 56.

ЛЕКЦИЯ 7.

Тема: Основы теории педагогических оценок.

Вопросы для рассмотрения:

Понятие оценки.

Типы шкал оценок.

Оценка комплекса тестов.

Нормы.

1. Показанные спортсменами результаты выражаются в разных единицах измерения и поэтому непосредственно не сопоставимы друг с другом. Кроме того, сами по себе они не указывают, насколько они удовлетворительны. Поэтому результаты превращаются в оценки (очки, баллы, отметки, разряды и т.п.) Исходя из этого основными задачами оценивания являются следующие:

1) Сопоставить разные достижения в одном и том же задании (тесте, спортивной дисциплине, упражнении, виде многоборья).

2) Сопоставить достижения в разных заданиях. Главным здесь является уравнивание оценок за достижения одинаковой трудности в разных видах спорта или разных дисциплинах соревнований. Такие равно трудные достижения называются эквивалентные.

3) Определить нормы. В отдельных случаях нормы совпадают с градациями шкалы оценок.

Оценкой (педагогической оценкой) называется унифицированная мера успеха в каком-либо задании. Процесс выведения оценки называют оцениванием. Различают учебные оценки, которые выставляет преподаватель ученикам по ходу учебного процесса, и квалификационные, под которыми понимаются все прочие виды оценок (результаты официальных соревнований, тестирования и т.д.).

2. Закон преобразования спортивных результатов в очки называется шкалой оценок. Шкала может быть задана в виде математического выражения (формулы), таблицы или графика.

В физическом воспитании и спорте наиболее часто встречаются следующие типы шкал:

1) Пропорциональные шкалы. Этот тип шкал предполагает начисление одинакового числа очков за равный прирост результатов.

2) Регрессирующие шкалы. В этом случае за одни и тот же прирост результата начисляют по мере возрастания спортивных достижений всё меньшее количество очков. Такие шкалы, кажутся несправедливыми, но они полезны. Применяются в командных видах спорта, где стимулируют массовость в ущерб мастерству.

3) Прогрессирующие шкалы. Здесь чем выше спортивный результат, тем большей прибавкой очков оценивается его улучшение.

4) Сигмовидные (S-образные) шкалы. Здесь улучшение результатов в зонах очень низких и очень высоких достижений поощряется скупо; больше всего очков приносит прирост результатов в средней зоне.

В большинстве случаев непосредственно сопоставлять достижения в разных заданиях нельзя. В таких случаях используют косвенные подходы. Наиболее распространёнными считают шкалы, где эквивалентными считают достижения, доступные одинаковому числу людей одного возраста и пола. На этом критерии основаны: стандартные шкалы оценок, перцентильная шкала, шкалы выбранных точек.

3. Оценивание спортсменов, проходящих испытание в батарее тестов, можно проводить двумя основными способами:

1) Общая оценка по всему комплексу тестов не выводится, а в процессе последующего анализа используются оценки, полученные отдельно по каждому тесту.

2) Выводится итоговая оценка по всему комплексу тестов. Здесь возможны два варианта:

1) суммируют оценки, полученные по отдельным тестам, входящим в комплекс;

2) оценки, полученные за отдельные виды, сначала умножают на коэффициенты («веса»), различные для каждого теста, а потом складывают. Такая итоговая оценка по комплексу тестов, называется взвешенной оценкой.

4. Нормой в спортивной метрологии называется граничная величина результата, служащая основой для отнесения спортсмена к одной из классификационных групп. Существуют нормы: сопоставительные, индивидуальные, должные.

Сопоставительные нормы имеют в своей основе сравнение людей, принадлежащих к одной и той же совокупности. Сюда относятся возрастные нормы. Они основаны на том, что с возрастом функциональные возможности людей изменяются. Есть два варианта определения возрастных норм:

1) Для людей каждого возраста составляется обычным образом одна из рассмотренных нами ранее шкал оценок и затем с её помощью вводятся нормы.

2) Определяется так называемый биологический двигательный возраст, соответствующий среднему календарному возрасту людей, показывающих данный результат.

Индивидуальные нормы основаны на сравнении показателей одного и того же спортсмена в разных состояниях. Эти нормы широко используются в текущем контроле.

Должные нормы основаны на анализе того, что должен уметь делать человек, чтобы успешно справляться с задачами, которые перед ним ставит жизнь. Эти нормы неверно вводить на основе среднего уровня умения людей, так как этот уровень может оказаться недостаточно хорошим.

Обязательными условиями пригодности норм являются их релевантность, репрезентативность и современность.

Релевантностью норм называют пригодность норм только для той совокупности, для которой они разработаны. Репрезентативные нормы устанавливаются на основе обследования типичной выборки испытуемых из всей группы, которая точно отражает генеральную совокупность. Современными нормы остаются в том случае, если они периодически пересматриваются, учитывая, что двигательные возможности людей разных поколений неодинаковы.

Контрольные вопросы для самопроверки:

1. Что называют оценкой? Учебные и квалификационные оценки.

2. Основные задачи оценивания.

3. Что такое шкала оценок? Какими способами она задаётся?

4. Типы шкал оценок.

5. Как оценивается достижение спортсменов в комплексе тестов?

6. Нормы: сопоставительные, индивидуальные, должные.

7. Условия пригодности норм.

Литература:

1. Годик М.А. Спортивная метрология. Учебник для ин-тов физической культуры. – М.: Физкультура и спорт, 1988. – С. 37 – 49.

2. Спортивная метрология. Учебник для ин-тов физической культуры (под общ. ред. В.М. Зациорского). – М.: Физкультура и спорт, 1982. – С. 81 – 95.

ЛЕКЦИЯ 8.

Тема: Методы количественной оценки качественных показателей.

Вопросы для рассмотрения:

Основы квалиметрии.

Метод экспертных оценок.

Анкетирование.

1. Показатели, не имеющие определенных единиц измерения, называются качественными. Для количественной оценки таких показателей используются методы, основанные на идеях квалиметрии.

Квалиметрия (лат. qualitas – качество, metron – мера) изучает и разрабатывает количественные методы оценок качества.

Основные положения квалиметрии:

1) Любое качество можно измерить. В спорте издавна применялись количественные методы для оценки красоты и выразительности движений, а сейчас их используют для оценки всех без исключения сторон спортивного мастерства, эффективности тренировочной и соревновательной деятельности, качества спортивного инвентаря и т.д.

2) Качество зависит от ряда свойств, образующих «древо качества». Пример древа качества – исполнение упражнений в фигурном катании – состоит из трех уровней: высшего (мастерство исполнения композиции в целом), среднего (техника исполнения и артистизм), низшего (измеряемые показатели, характеризующие качество исполнения отдельных элементов).

3) Каждое свойство характеризуется двумя числами: относительным показателем К и весомостью М.

4) Сумма весомостей свойств на каждом уровне равна единице (или 100%).

Методические приемы квалиметрии делятся на две группы: эвристические (интуитивные) – основанные на экспертных оценках и анкетировании – и инструментальные, или аппаратурные.

Проведение экспертизы и анкетирования – это отчасти техническая работа, предполагающая строгое соблюдение определенных правил, а отчасти – искусство, требующее интуиции и опыта.

2. Экспертной называется оценка, получаемая путем выяснения мнений специалистов. Эксперт (лат. expertus – опытный) – сведущее лицо, приглашаемое для решения вопроса, требующего специальных знаний.

Экспертиза бывает индивидуальной, когда к решению задачи привлекается один специалист, и групповой. Эксперты могут устно высказывать свое мнение или заполнять специальную анкету.

Анкетой (фр. anquete – расследование) называется опросный лист, содержащий вопросы, на которые нужно ответить письменно.

Техника экспертизы и анкетирования – это сбор и обобщение мнений отдельных людей.

Девиз экспертизы – «Ум хорошо, а два – лучше!»

Индивидуальные мнения, как случайные величины, обрабатываются статистическими методами.

Современная экспертиза – это система организационных, логических и математико-статистических процедур, направленных на получение от специалистов информации и ее анализ с целью выработки оптимальных решений.

Проведение экспертизы включает следующие основные этапы:

1) Формирование цели.

2) Подбор экспертов.

3) Выбор методики.

4) Проведение опроса.

5) Обработку полученной информации, в т.ч. оценку согласованности индивидуальных экспертных оценок.

Подбор экспертов – важный этап экспертизы. Высококвалифицированному эксперту свойственны компетентность, беспристрастность, интуиция, широта взглядов и независимость суждений.

Кандидатам в эксперты предлагают заполнить анкету, где в течение определенного времени они должны продемонстрировать свои знания. Кроме того, хорошо, когда им дают заполнить анкету самооценки своих знаний. Опыт показывает, что люди с высокой самооценкой ошибаются меньше других.

Другой подход к отбору экспертов основан на определении эффективности их деятельности.

Абсолютная эффективность определяется отношением числа случаев, когда эксперт верно предсказал дальнейший ход событий, к общему числу экспертиз, проведенных данным специалистом. Например: эксперт участвовал в 10 экспертизах и 8 раз оказался прав. Тогда эффективность его деятельности равна 0,8.

Относительная эффективность деятельности эксперта – это отношение абсолютной эффективности его деятельности к средней абсолютной деятельности группы экспертов.

Эксперты стараются повысить эффективность своей деятельности.

3. Анкетирование – это метод сбора мнений посредством заполнения анкет.

Среди методов сбора мнений можно выделить анкетирование, интервью, беседу. Методы опроса позволяют получать информацию о мнениях людей, мотивах поведения, намерениях и т.д., т.е. обо всем, что не может быть установлено при помощи инструментальных методов измерения.

По отношению к методу экспертных оценок анкетирование играет служебную роль, но если речь идет о сборе массовых мнений, имеет самостоятельное значение. Анкетирование предполагает письменные ответы респондента (лица, заполняющего анкету) на систему стандартизированных вопросов.

Применяются следующие варианты анкетирования:

1) Групповое (на вопросы отвечает коллектив) и индивидуальное.

2) Очное и заочное (ответы присылаются по почте).

3) Персональное (анкета содержит демографическую часть – фамилия, имя, отчество, возраст, образование и другие паспортные данные респондента) и анонимное (демографическая часть отсутствует или не заполняется).

Вопросы демографического характера рекомендуется помещать в конце анкеты.

Вопросы основной части анкеты характеризуются как:

открытые (свободные) – не ограничивающие ответы респондента – и закрытые – предполагающие заранее определенные варианты ответа;

безусловные и условные – предполагающие респонденту высказать свое мнение о явлениях, которые могли бы иметь место при определенных условиях;

прямые (нацелены непосредственно на решение задач исследования) и косвенные («Каково Ваше мнение о…?»).

Требования при составлении анкет:

1) От составителя анкеты требуется высокая профессиональная компетентность, безупречная грамотность, такт.

2) Вопросы должны быть лаконичны и точны, они должны соответствовать образовательному уровню респондентов.

3) Желательно в начале анкеты расположить нетрудные вопросы, которые могли бы заинтересовать респондентов, а основную часть вопросов «по существу» поместить в середину анкеты.

Для повышения качества анкетирования до начала опроса составленную анкету подвергают экспертной оценке и в соответствии с высказываниями экспертов совершенствуют ее.

Контрольные вопросы для самопроверки:

1. Какие показатели называются качественными?

2. Основные положения квалиметрии.

3. Сущность метода экспертных оценок.

4. Основные этапы проведения экспертизы.

5. Охарактеризуйте метод анкетирования.

6. Как классифицируются вопросы в анкете?

7. Требования при составлении анкет.

Литература:

1. Годик М.А. Спортивная метрология. Учебник для ин-тов физической культуры. – М.: Физкультура и спорт, 1988. – С. 50 – 57.

2. Спортивная метрология. Учебник для ин-тов физической культуры (под общ. ред. В.М. Зациорского). – М.: Физкультура и спорт, 1982. – С. 95 – 103.

ЛЕКЦИЯ 9.