Трудоемкость отражает изменения результата труда работников текущего периода времени с ему предшествующим.
§
§ 1) По процедуре создания:
§ - стандартизированные (осуществляется во время итоговой аттестации);
§ - не стандартизированные (осуществляется текущий контроль знаний на этапе обучения).
§ Стандартизация — это последовательный ряд процедур по планированию, проведению оценивания и выставления баллов.
§
§ Цель стандартизации — обеспечить всем учащимся возможность проходить оценивание в равных условиях, чтобы их оценки имели одинаковое значение и не подвергались влиянию различных условий.
§ 2) По способу предъявления:
§ - бланковые (тесты «бумага и карандаш», в которых используются тестовые тетради или бланки. В них испытуемые отмечают или вписывают правильные ответы, большинство тестов школьных достижений и др.);
§ - предметные (манипуляция материальными объектами);
§ - аппаратурные (используется специальная аппаратура — различного рода датчиков);
§ - практические (аналоги лабораторных работ с тестовыми условиями задач);
§ - компьютерные.
§ 3) По ведущей ориентации:
§ - тесты на скорость (содержат простые задачи, время решения которых ограничено настолько, что ни один испытуемый не успевает решить все задачи в заданное время);
§ - тесты на результативность (включают трудные задачи, время решения которых либо вовсе не ограничено, либо мягко лимитировано. Оценке подлежат успешность и способ решения задачи);
§ - смешанные тесты (в них представлены задачи различного уровня сложности от самых простых до очень сложных. Время испытания в данном случае ограничено, но достаточное для решения предлагаемых задач большинством обследуемых. Оценкой служат как скорость выполнения заданий, так и правильность решения.).
§ 4) По степени однородности задач:
§ - гомогенные тесты (однородные по составу задания, позволяющие измерять одно качество или уровень подготовки по одному предмету или изученному навыку);
§ - гетерогенные тесты (многомерные тесты, измеряющие уровень подготовленности по нескольким учебным предметам).
§ 5) По характеру ответов на вопросы:
§ - открытого типа;
§ со свободными ответами, когда испытуемому необходимо самостоятельно дописать слово, словосочетание, предложение, знак, формулу и т.д.;
§ задания дополнения (с ограничениями на ответы, с заданными ограничениями) — испытуемый должен сформулировать ответы с учетом предусмотренных в задании ограничений;
§ свободного изложения (свободного конструирования, без заданных ограничений) — испытуемый должен самостоятельно сформулировать ответы, никакие ограничения на них в задании не накладываются.
§ - закрытого типа
§ с предписанными ответами, когда испытуемому необходимо выбрать из предложенных вариантов ответов тот или иной вариант
§ альтернативных ответов — испытуемый должен ответить «да» или «нет»;
§ 6) По целям использования в учебном процессе:
§ - определяющий (показывает знания учащихся в начале обучения);
§ - формирующий (тест прогресса, достигнутого в обучении);
§ - диагностический (тест на выявление трудностей в обучении и их источников);
§ - суммирующий (тест достижений в конце обучения).
§
§ Преимущество такой формы - невозможность угадывания правильного ответа, что особенно важно при проверке номенклатуры понятий учебной эрудиции учащихся[2].
§ Существует довольно большое количество автоматизированных электронных систем тестирования, поддерживающие тестовые задания различной формы[2,3].
§ В результате анализа 35 автоматизированных систем контроля знаний и 15 конструкторов тестов получены следующие результаты по использованию различных форм тестовых заданий в существующих системах компьютерного тестирования: закрытая форма – 89.1%, открытая форма – 54.5%, установление соответствия – 63.6%, установление правильной последовательности – 81.8%.
§ Проведенный анализ систем тестовых заданий показал, что тестовые задания открытой формы можно классифицировать по типу вопросов, а также по вводимой информации. Исходя из этого, классификацию тестовых заданий открытой формы по типу вопросов можно представить следующими группами: вставка; дополнение; кодировка. Классификацию тестовых заданий открытой формы по вводимой информации можно представить следующими группами: вещественное число; текстовое выражение; формула; графика; звук.
§ При анализе систем, поддерживающих тестовые задания открытой формы, была установлена, в процентном соотношении, наиболее распространенная форма тестовых заданий: вещественное число(83.3%), текстовое выражение(93.3%), формула(33.3%), графика(23.3%), звук(16.7%).[1,3]
§ Исходя из вышесказанного, актуальным является развитие систем тестового контроля, введением тестовых заданий открытой формы с вводом графического типа ответа.
§ Формализованное описание тестового задания открытой формы можно представить как:
§ ТЗ(N,P1,R1,P2, R2 ,…..,Pi , Ri ,V ),
§ где N-название вопроса теста, P1 , P2 ,…, Pi - пропуск1,…,пропуск i в вопросе теста,
§ R1 , R2 ,…., Ri - продолжение1,..,продолженин i после i-го пропуска в вопросе теста,
§ V – вариант ответа в тесте, где Pi → Vi, то есть каждому i-му пропуску соответствует свой i-й вариант ответа.
§ Формализованное описание тестового задания открытой формы положено в основу алгоритма хранения тестов и соответствующих им вариантов ответов.
§ Задача САПР тестовых заданий на сегодняшний день является актуальной. И развивать процессы создания таких систем необходимо в направлении расширения их функций по разработке всех форм тестовых заданий. В работе предлагается структура САПР тестовых заданий открытой формы, включающая следующие подсистемы: редактор тестовых заданий, проектирование тестовых заданий, внесения ответов в базу данных, сравнения ответов с эталонами, подсистема расчета результатов тестирования.
§ Практическая ценность работы заключается в том, что в результате разработки САПР тестовых заданий открытой формы появится возможность широкого их использования в современных автоматизированных системах контроля и обучения.
§ Группа А – цели формирования сознания и поведения.
§ Группа В – цели развития отношений к обществу, труду, теме урока, профессии, друзьям, родителям, искусству и т. д.
§ Группа С – цели воспитания творческой деятельности, воспитание способностей, задатков, интересов учащихся.
§ В управленческую функцию педагога входит задача постановки организационных целей. Эти цели могут заключаться в применении самоуправления в построении учебной деятельности учащихся, расширении функций учащихся, в оказании взаимопомощи в течение занятия.
§ Методические цели педагога – это перестройка технологии учебной и внеучебной деятельности обучающихся, например применение новых форм создания учебного процесса.
§ Задачи педагога заключаются в обучении учащихся процедурам целеполагания, постижении и знании целей каждого ученика, содействии исполнению полезных целей. В педагогическом процессе цели учащихся должны совпадать с целями, поставленными преподавателем, так как главным условием успешного педагогического процесса является совпадение целей педагога и учащихся.
§ Разработка цели – это логико-конструктивный процесс, он заключается:
§ – в сравнении и обобщении информации;
§ – выборе наиболее важной информации;
§ – выражении цели, или, по-другому, нахождении объекта цели, предмета цели и нужных действий. Объект педагогической цели – конкретный ученик или группа с определенными ролевыми взглядами. Предметом педагогической цели являются качества, которые необходимо изменить в течение данного педагогического процесса;
§ – осуществлении цели.
§
§ 1. Этап целеполагания.
§ Разработка теста начинается с формулирования его цели, то есть определения того, что тест должен измерять. Должны быть четко и однозначно описаны все знания, умения и навыки, владение которыми проверяется с помощью теста, т.е. необходимо четкое описание области содержания теста. Определяется вид теста, ресурсные возможности, круг привлекаемых специалистов и пр.
§ 2. Подготовительный этап (спецификация).
§ Анализируется и отбирается содержание проверяемого материала. Готовится структура работы, определяется тип и количество заданий, время проверки, система оценивания, условия проведения и проверки, рекомендации по подготовке к тестированию.
§ Спецификация теста представляет собой набор описательных схем, которые позволяют установить соответствие между тестовыми заданиями и областью содержания теста. Она обеспечивает репрезентативность заданий по отношению к области содержания. Спецификация представляет собой, по сути, правила, по которым должны разрабатываться задания. При разработке спецификации необходимо стремиться сделать эти привила настолько четкими, чтобы их можно было использовать как алгоритмы.
§ Спецификация является основным нормативным документом теста и выполняет следующие основные функции:
§ – дает разработчикам заданий правила, по которым можно конструировать задания;
§ – позволяет экспертам оценивать имеющиеся задания на предмет их соответствия области содержания теста и выбраковывать неудачные задания;
§ – помогает интерпретировать результаты тестирования, так как в ней ясно и конкретно объясняется, что измеряет тест;
§ – дает учащемуся (пользователю теста) четкое представление об измеряемых знаниях, умениях и навыках.
§ Основная проблема при написании спецификации состоит в обратном соотношении между широтой области содержания теста и четкостью спецификации. Если выбирается очень узкая область содержания, то довольно просто создать спецификацию, которая была бы краткой и в то же время четко задавала бы правила для написания заданий. Однако тесты с узкой областью содержания имеют ограниченное применение.
§ Ниже предлагается возможная схема составления спецификации:
§ - пример инструкции и тестового задания. Здесь дается представление о том, как выглядит тест, и какая форма заданий в нем используется.
§ - характеристика формы заданий. В этом разделе указывается какие формы заданий используются в тесте.
§ - характеристика содержания заданий. Указывается содержание, которое может и должно входить в тестовые задания. Подробно описываются все аспекты содержания, представляющиеся существенными при разработке заданий, в том числе обычно указывается, какое смежное содержание не должно входить в тест.
§ - характеристика ответов. Содержание этого раздела зависит от выбора формы задания. Для заданий закрытой формы даются правила, по которым формулируются правильные ответы и варианты неправильных ответов. Для заданий открытой формы даются, если это необходимо, критерии для оценки ответа испытуемого как правильного. Для заданий на установление соответствия и на установление правильной последовательности данный раздел может не заполняться. Если выполнение заданий оценивается более сложным способом, чем присвоение баллов 0 или 1, то этот способ также указывается в данном разделе.
§ 3. Этап составления плана теста.
§ Послесоставления спецификации разрабатывается план теста. Если, например, тест состоит из четырех разделов, то вначале делается примерная раскладка необходимого числа заданий на каждый раздел, исходя из общего предельного числа, обычно не превышающий 30-60 коротких заданий разного уровня сложности. Число заданий, выделяемых на каждый раздел, зависит от его важности в изучении дисциплины (см. пример табл. 1).
§ 4.Этап составления теста(разрабатываются тестовые задания, проходит экспертиза и доработка заданий, стандартизируется и нормируется тест).
§ При составлении заданий теста следует соблюдать ряд правил, необходимых для создания надежного, сбалансированного инструмента оценки успешности овладения определенными учебными дисциплинами или их разделами.
§ Правила для разработки тестовых заданий:
§ – необходимо проанализировать содержание заданий с позиции равной представленности в тесте разных учебных тем, понятий, правил, действий и т.д. Тест не должен быть перегружен второстепенными терминами, несущественными деталями с акцентом на механическую память, которая может быть задействована, если в тест включены точные формулировки из учебника или фрагменты из него;
§ – задания теста должны быть сформулированы четко, кратко и не двусмысленно, чтобы все учащиеся однозначно понимали смысл того, что у них спрашивается. Важно проследить, чтобы ни одно задание теста немогло служить подсказкой для ответа на другое;
§ – варианты ответов на каждое задание должны подбираться таким образом, чтобы исключались возможности простой догадки или отбрасывания заведомо неподходящего ответа. Важно выбирать и наиболее приемлемую форму ответов на задания;
§ – учитывая, что задаваемый вопрос должен быть сформулирован коротко, желательно также кратко и однозначно формулировать ответы. Например, удобна альтернативная форма ответов, когда учащийся должен подчеркнуть одно из перечисленных решений "да - нет", "верно -неверно". Часто в задании делаются пропуски, которые должен заполнить испытуемый, или же выбирать из представленного набора ответов верный. Обычно навыбор предлагаются 4-5 вариантов ответа.
§ 5. Этап проведения теста.
§ Отслеживается проведение теста.
§ 6. Этап анализа полученных результатов.
§ Обработка результатов, получение статистических данных для анализа и анализ результатов. Подготовка итогового отчета.
§
1. Компоненты и уровни измерений.
§ 2. Объективность педагогических измерений.
§ 3. Размерность пространства измерений, одномерные и многомерные конструкты, латентные переменные.
§ 4. Уровни измерений в образовании.
§ 5. Надежность и валидность результатов педагогических измерений.
§
§ Основные понятия теории педагогических измерений
§
§ Измерение в образовании, латентные переменные. Согласно наиболее распространенному определению, введенному в 1946 г. американским психологом С.Стивенсом, измерение – это процедура приписывания чисел некоторым характеристикам объектов в соответствии с определенными правилами [6; 22]. Данное определение – результат формального обобщения опыта количественных измерений, широко применяемых в физике и других естественных науках, однако на протяжении многих лет его брали за основу и в эмпирических науках.
§ По мере развития педагогики, психологии и социологии возникла потребность во введении не только количественных, но и качественных оценок для величин, отличающихся по степени проявления того или иного свойства. Качественные оценки являются менее точными по сравнению с количественными в силу применяемых способов и инструментов измерения. Например, классифицирующие понятия в образовании («знающий», «подготовленный» и др.), которые дифференцируют обучающихся по уровню знаний и играют важную роль в учебном процессе, определяются субъективно учителем или группой учителей. Нередко качественные оценки выражают с помощью чисел, которые выбирают на основе экспертных суждений и соглашений. Приписываемые числа могут трактоваться по-разному. Так, в традиционном педагогическом контроле у каждого учителя есть свои представления о том, за что нужно ставить «5», «4», «3» и т.д.
§ Неоднозначность оценивания в образовании усугубляется латентным (скрытым, исключающим возможность непосредственного измерения) характером измеряемых переменных. В силу латентности оцениванию подвергаются не сами характеристики обученности и обучаемости, а их эмпирические референты – наблюдаемые признаки измеряемых характеристик. Выбор последних происходит, интуитивно, поэтому их соответствие латентным характеристикам нуждается в доказательстве на основе экспертного и статистического анализа эмпирических результатов измерения.
§ Современная трактовка понятия «педагогическое измерение». Современная теория измерений появилась в 80-х гг. XX в. Она строится на более строгой аксиоматической основе [22; 34]. В соответствии с новыми представлениями, измерение трактуется как конструирование числовой функции, осуществляющей изоморфное отображение некоторой эмпирической структуры в соответствующим образом подобранную числовую структуру.
§ Изоморфизм – важное понятие математики, которое определяет ряд условий взаимно однозначного, отображения двух множеств с сохранением их свойств в процессе такого отображения. Хотя это понятие впервые появилось в высшей алгебре, в наше время оно используется довольно широко, хотя и не вполне строго, например в педагогических измерениях. Поскольку эмпирическая структура и строящаяся по результатам оценивания числовая структура (шкала) изоморфны, имея шкалу, можно, не обращаясь непосредственно к измеряемым объектам, восстановить все их свойства, характерные для эмпирической структуры.
§ 1. Компоненты процесса педагогических измерений.
§ Процесс педагогических измерений включает:
§ - выбор предмета измерения (латентных характеристик объектов) и их числа;
§ - выбор эмпирических референтов (наблюдаемых характеристик объектов);
§ - выбор измерительных процедур;
§ - конструирование и использование измерительных инструментов;
§ - выбор шкалы (если измеряемая переменная одна) или шкал (если измеряют более одной переменной при многомерных измерениях);
§ - построение отображения результатов измерения на шкалу (шкалы в случае многомерных измерений) по определенным процедурам и правилам;
§ - обработку, анализ и интерпретацию результатов измерения.
§ В силу неизбежности ошибок измерения оцениваемые характеристики объектов могут принимать более или менее точные значения, поэтому эти характеристики принято называть переменными измерения. Любые отклонения от стандартизированных условий измерения, обработки, анализа и интерпретации полученных результатов увеличивают ошибки измерения, которые представляют наибольшую опасность в эмпирических науках в силу латентного характера переменных. Поэтому так важен анализ устойчивости и точности (надежности) результатов тестирования, что выгодно отличает тесты от традиционных оценочных средств [22; 46; 60].
§ Еще одна характеристика качества результатов тестирования –валидность – отражает адекватность эмпирических результатов поставленным целям измерения [22; 60]. В силу многогранности целей анализ валидности должен быть многоаспектным, но в любом случае важное, место занимает доказательство адекватности эмпирических референтов концептуально выделенной переменной (переменных) измерения (конструктная валидность).
§ Измерительный инструмент. Измерительный инструмент включает два компонента. Первый компонент – само измеряющее устройство, роль которого в педагогических измерениях чаще всего, но не всегда выполняет тест. В самом обобщенном виде под тестом можно понимать совокупность контрольных заданий в стандартизированной форме, обладающих необходимыми системообразующими статистическими характеристиками и обеспечивающих обоснованные оценки концептуально выделенной переменной (переменных) измерения с высокой объективностью. Таким образом, в самом определении теста заложены требования к его качеству, отсутствующие в традиционных оценочных средствах.
§ Второй компонент измерительного инструмента – заранее подготовленная шкала, которая служит для фиксации результатов измерения и на которой откладываются оценки (количественные или качественные) измеряемой переменной. В процессе упорядочения оценок каждому элементу совокупности наблюдаемых эмпирических данных ставится в соответствие определенный балл, устанавливающий положение наблюдаемого элемента на шкале, где можно размещать сырые (первичные) баллы (результаты суммирования оценок по отдельным заданиям теста) или производные баллы, получающиеся в результате преобразования первичных оценок для повышения сопоставимости и удобства интерпретации результатов учащихся.
§ Шкала с отложенными оценками переменной, является целью измерения. При измерениях с высокой надежностью, и валидностью она адекватно отображает оцениваемые характеристики и представляет их без существенных искажений. В зависимости от количества оцениваемых характеристик объекта можно говорить об одномерных (одна переменная) или многомерных (более одной переменной)измерениях. Соответственно по результатам измерения строился одна шкала или несколько шкал, число которых в последнем случае обычно бывает равно числу переменных измерения.
§ Обработка и анализ данных измерения. Последний компонент процесса педагогических измерений, включающий обработку, анализ и интерпретацию данных, служит для выявления обеспечиваемого качества результатов измерения, коррекции тестов и представления полученных данных в форме, удобной для интерпретации и сравнения. Благодаря сопоставимости тестовых баллов, достигаемой в процессе обработки, по результатам педагогических измерений можно выстраивать качественный анализ результатов учащихся, проводить мониторинг и принимать обоснованные управленческие решения в образовании.
§
§ 2. Объективность педагогических измерений
§
§ Может ли быть абсолютная объективность? Появление первых стандартизованных тестов в образовании вызвало массовую позитивную реакцию, поскольку первоначально они рассматривались как средство получения объективных оценок подготовленности обучаемых, преодолевающее субъективизм традиционных оценочных средств. По мере развития теории педагогических измерений и накопления опыта применения тестов пришло понимание того, что абсолютная объективность – это недостижимая характеристика результатов любых, в том числе и педагогических, измерений в силу существования ошибочных компонентов, неизбежно смещающих оценки. Поэтому при использовании тестов можно говорить лишь о высокой или низкой объективности, степень проявления которой связана с величиной надежности теста.
§ Наиболее полно трактовка термина «объективность измерений» представлена в исследованиях Е.Вебстера (E.Webster) [22], предложившего восемь толкований этого понятия. Три из них – процедурная объективность, классическая (традиционная) объективность и инвариантная (специфическая) объективность – непосредственно относятся к педагогическим измерениям.
§ Процедурная объективность. Под процедурной объективностью (первая трактовка термина «объективность измерений») понимается независимость результатов тестирования от субъективных суждений педагога, использующего тест. Эта независимость обеспечивается благодаря равенству условий тестирования, использованию для одной группы тестируемых параллельных (совпадающих по трудности и другим характеристикам) вариантов теста, стандартизации процедуры проверки результатов и максимальной ее автоматизации, исключающей влияние педагога на оценки.
§ Сведение всех видов объективности только к процедурной недопустимо, поскольку при таком подходе не выдвигается никаких требований к качеству теста. В этом случае может создаться впечатление, что для получения объективных данных о подготовленности испытуемых достаточно перейти от традиционных экзаменов к любым, в том числе некачественным, тестам, устранив влияние педагога на оценку тестирования путем автоматизации процедуры подсчета баллов испытуемых.
§ Классическая, или традиционная, объективность. Второе, углубленное, понимание объективности измерений рассматривается в классической теории тестов и основывается на понятиях «сырой балл» и «истинный балл», отличающихся друг от друга на величину ошибки измерения.
§ Сырой (первичный, наблюдаемый, индивидуальный) балл получается простым суммированием результатов испытуемого по отдельным заданиям теста. При дихотомической оценке результатов по заданиям (1 или 0) индивидуальный балл равен количеству правильно выполненных заданий теста.Истинный балл вклассической теории отождествляется с абсолютно объективной оценкой свойств испытуемого, свободной от влияния любых ошибок измерения. В отличие от сырого балла, который меняется в зависимости от теста и способа подсчета результата испытуемого, истинный балл трактуется как не зависящая от средств измерения константа, характеризующая оцениваемое свойство испытуемого в момент измерения, но меняющаяся в процессе обучения.
§ Согласно основной аксиоме классической теории тестов любой наблюдаемый балл равен сумме истинного балла и ошибки измерения. В тех случаях, когда ошибка измерения не превышает выбранных пределов точности измерений, говорят о высокой объективности результатов тестирования, а оценки испытуемых принимают за их истинные баллы. Таким образом, углубленное понимание объективности измерений требует оценивания величины ошибки измерения, на размер которой влияют не только условия проведения тестирования, но и качество теста.
§ Инвариантная, или специфическая, объективность. Третья трактовка объективности основана на современной теории конструирования тестов – Item Response Theory (IRT). Преимущества.IRT, позволяющие оценить подготовленность обучаемых независимо от трудности заданий теста, приводят к достижению так называемой инвариантной объективности измерений, которая предпочтительнее объективности, обеспечиваемой классической теорией тестов [60].
§ Для достижения специфической объективности необходима подгонка данных тестирования к требованиям моделей теории IRT и длительная серьезная работа над тестом. Поэтому на практике тестологи часто сталкиваются с тем, что эффект инвариантной объективности либо реализуется со слишком большими затратами, либо не реализуется вообще в силу недостаточно высокого качества теста.
§
§ 3. Размерность пространства измерений, одномерные и многомерные конструкты, латентные переменные.
§
§ Концептуальные и реальные переменные измерения, конструкты. Измерение начинается с постановки цели, в соответствии с которой выбирают одну (одномерный случай) или несколько (многомерный случай) переменных. В последнем случае для обозначения измеряемых характеристик часто используют обобщающий термин – «конструкт». Каждый разработчик теста уверен в том, что он ясно представляет себе измеряемые характеристики и способен на основании своего педагогического опыта точно подобрать задания обеспечивающие оценивание конструкта. Многие тестологи так и остаются в полном заблуждении относительно того, что на самом деле измеряет тест, поскольку не проверяют соответствие задуманного конструкта и реальных результатов измерения.
§ Анализ такого соответствия является необходимым этапом оценивания валидности измерения. Нередко его пытаются провести априорно, до начала тестирования, экспертным путем, и в результате, как правило, получают недостоверную информацию. Для корректного оценивания валидности необходим статистический анализ эмпирических данных тестирования, поэтому понять, что же мы на самом деле измеряем, можно лишь после применения теста.
§ Сложность процедуры установления размерности пространства измерений увеличивает проблемы, связанные с неоднозначной трактовкой многих конструктов в образовании и в других социальных науках (рис. 2). Каждый педагог вкладывает в оценивание учебных достижений свое видение оптимального набора переменных измерения. Неоднозначность трактовки конструкта усугубляется по мере продвижения от начальных ступеней образования к более высоким ступеням, когда содержание большинства учебных курсов приобретает междисциплинарный характер.
§
§ Рис. 2. Пример неоднозначной трактовки конструкта и ошибки в выводах
§ о связи переменных
§
§ Операционализации. Операционализация заключается в придании оцениваемым латентным характеристикам подготовленности учащихся формы, удобной для фиксации определенными правилами измерения. При педагогическом измерении в качестве таких характеристик подготовленности обучаемых обычно выступают знания, умения, навыки, компетентности и т.д. ... В процессе операционализации происходит выделение, набора эмпирических индикаторов, в роли которых выступают задания теста. Количество правильно выполненных заданий, подсчитанное и преобразованное по определенным правилам, дает основание для присвоения испытуемому определенного места на шкале переменной измерения.
§ Визуализация результатов педагогического измерения. Визуализация – геометрическая интерпретация связи между латентной переменной А (одномерной или многомерной) и наблюдаемой переменной В – показана на рис. 3.
§
§
§ Рис. 3. Связь между латентной и наблюдаемой переменными.
§
§ Стрелки на рисунке указывают характер связи между переменными. Латентная переменная Аявляется первопричиной, порождающей множество наблюдаемых результатов выполнения теста. Однако при измерениях всегда ставят обратную задачу – по наблюдаемым результатам тестирования найти достаточно точные оценки латентных переменных.
§ Взаимосвязь результатов измерения и положения испытуемого на шкале переменной для одномерного случая представлена на рис. 4. Каждая оценка переменной измерения для учащихся из тестируемой группы соответствует одной из точек оси. В свою очередь каждая точка определяет положение испытуемого или группы испытуемых с одинаковым тестовым баллом, полученным по результатам выполнения теста.
§
§
§ Рис. 4. Геометрическая интерпретация результата тестовых измерений
§
§ На изображенной оси более высокие баллы располагаются правее, а более низкие – левее. Крайний слева результат отражает случай, когда испытуемый выполнил правильно лишь несколько заданий теста. Противоположной ситуаций, когда ученик выполнил все или почти все, соответствует крайняя правая точка на оси переменной измерения. Остальные точки занимают некоторое промежуточное положение на отрезке, где лежат тестовые баллы учащихся.
§ Если правильно выполненные задания теста соотнести с результатами учащихся и расположить их вдоль оси переменной измерения, то можно предположить, что более трудны задания сместятся вдоль оси вправо, так как их, скорее всего, будут выполнять правильно наиболее сильные учащиеся в классе. И наоборот, более легкие задания будут смещены влево – они по силам ученикам с низким уровнем подготовки (см. рис. 5).
§
§
§ Рис. 5. Соотношение между трудностью заданий и подготовленностью учащихся:
§ β– уровень трудности j -го задания, j = 1, 2,.... 4, θ1 и θ2 – тестовые баллы двух
§ учащихся
§
§ Из дидактических соображений на рисунке показано выполнение четырех заданий, однако все выводы, получаемые с помощью этого примера, применимы к любому числу заданий в тесте. Расположение тестового балла первого учащегося говорит о том, что он выполнил верно два самых легких задания, но не справился с третьим и четвертым заданиями. Второй учащийся имеет более высокий тестовый балл и подготовлен лучше. Он не выполнил только самое трудное – четвертое задание теста.
§ Ошибки измерения. Локализация места расположения результата ученика на оси переменной зависит в основном от соотношения между величиной его истинного балла и трудностью заданий теста. Если балл довольно высок, а задание довольно легкое, то у ученика все основания для успешного выполнения этого задания теста. В противном случае ученика скорее всего ждет неудача.
§ Конечно, наверняка предугадать ничего нельзя в силу действия различных смещающих факторов (эффект забывания, подсказки и т.д.), поэтому обычно говорят лишь о некоторой вероятности успеха или неуспеха.
§ Вероятностный характер наблюдаемых результатов выполнения теста Обусловлен влиянием случайных и неслучайных ошибок измерения. В число последних входят те, которые появляются из-за просчетов разработчиков в процессе создания теста. К ошибкам систематического характера могут также привести нарушение требований к сбору статистических данных, некачественная интерпретация результатов выполнения теста и ряд других причин. К случайным факторам можно отнести настроение испытуемого, поведение экзаменатора, обстановку при тестировании в классе и многое другое – словом, все, что учесть и предвидеть при тестировании попросту невозможно.
§ Одномерные измерения. Чаще всего при планировании измерений в образовании выбирают одномерные конструкты. Это упрощает процесс построения шкалы, но не всегда бывает адекватно содержанию тестов. Рис. 6 иллюстрирует случай одномерных измерений, который может быть интерпретирован следующим образом: одна латентная переменная Т – истинный уровень подготовленности каждого обучаемого – приводит к возникновению одной оценки наблюдаемой переменнойХ – уровня подготовленности обучаемого. Помимо переменной Т на оценку X оказывает влияние фактор Е – ошибка измерения.
§
§ Рис. 6. Иллюстрация связи переменной измерения, истинного бала и ошибки при одномерном измерении
§
§ Чтобы принять гипотезу об одномерности теста, необходимо выявить связь между теоретическим конструктом и эмпирическими индикаторами, роль которых выполняют задания теста. Оценка связи требует ответа на вопрос – есть ли разница между доказательством одномерности конструкта и доказательством одномерности заданий теста?
§ На рис. 7 представлена измерительная модель для одномерного случая, иллюстрирующая связь между конструктом, обозначенным символом Т, и четырьмя заданиями (Х1, Х2, Х3, Х4), Числа, стоящие у каждого луча, показывают меру предполагаемой корреляционной связи между конструктом и эмпирическими индикаторами – заданиями теста.
§
§ Рис. 7. Измерительная модель, иллюстрирующая связь между конструктом и заданиями теста (одномерный случай)
§
§ При анализе модели важно понимать, что конструкт является латентным (скрытым от возможностей непосредственного измерения) фактором, взаимодействие которого с заданиями порождает наблюдаемые результаты выполнения теста. Влияние конструкта на наблюдаемые переменные показано на рис. 7 с помощью направленных лучей.
§ Поскольку каждое задание в рассмотренном гипотетическом примере измеряет только один конструкт, то справедлив, вывод об одномерности заданий теста. Обратный вывод, в общем случае, неверен: из одномерности заданий не следует одномерности теста.
§ Многомерные измерения. Если конструкт включает не одну, а несколько переменных, то измерения называются многомерными, Совокупность переменных образует пространство переменных измерения, размерность которого равна их числу. Иногда при проведении многомерных измерений создают несколько субтестов, каждый из которых является одномерным и измеряет свою переменную с помощью одномерных заданий.
§ Примером такого подхода является полидисциплинарный тест, состоящий из набора одномерных субтестов. В другом случае в многомерных измерениях используют междисциплинарный тест, задания которого не являются одномерными. Каждое из заданий измеряет свою совокупность переменных, которые могут отличаться как по количеству, так и по содержательной трактовке конструкта.
§ В практике педагогических измерений существуют специальные методы анализа размерности пространства измерений. Такую группу методов предоставляет исследовательский и конфирматорный факторный анализ, применение аппарата которого основано на использовании соответствующего программного обеспечения, например статистического пакета SPSS.
§
§ 4. Уровни измерений в образовании
§
§ Типология уровней измерения. Общая типология уровней измерения основывается на проявлении совокупности свойств, лежащей в основе построения шкал. В качестве таких свойств выделяют: идентичность, позволяющую однозначно относить объекты к одной из выделяемых совокупностей; транзитивность, способствующую ранжированию объектов в определенном порядке; метричность, обеспечивающую единую единицу измерения, и наличие абсолютного нуля.
§ Наиболее общая классификация, предложенная С.Стивенсон [18; 22; 60], включает четыре уровня измерений и фиксирует присущие им свойства. Согласно такой классификации различают шкалы качественные (шкала наименований, или классификаций, и порядковая шкала) и количественные (интервальная шкала и шкала отношений) шкалы. Качественные шкалы иногда называют неметрическими (концептуальными), а количественные – метрическими (материальными). Для каждого уровня измерений существуют группы допустимых преобразований и операций с различными математическими и статистическими величинами, характеризующими измеряемые признаки.
§ Качественные шкалы. На качественном уровне отнесение эмпирических объектов измерения к различным классам проводится по признаку эквивалентности (шкала наименований, или номинальная шкала) или по признаку упорядочения внутри эквивалентных объектов одного класса (порядковая шкала). Для построения шкалы наименований и порядковой шкалы в основном применяются экспертные методы, при которых оценки на шкале считаются достоверными, если они признаны большинством экспертов,
§ Примером номинальной шкалы могут служить результаты зачетной сессии, когда все студенты делятся на две труппы – получивших и не получивших зачет. Порядковые шкалы используются в образовании в тех случаях, когда педагогический контроль осуществляется традиционными способами без применения тестов. Например, порядковой является привычная четырехбальная школьная шкала, которую иногда неоправданно называют пятибалльной. Каждой группе учащихся, проявляющей согласно мнению, учителя сходные знания, присваивается одинаковый (один из четырех) номер места от двух до пяти.
§ Недостатки качественных шкал – ограниченная сфера применения и низкая точность измерения. Числа или символы, приписываемые объектам путем экспертного оценивания, субъективны и носят исключительно условный характер. Их нельзя суммировать или проводить с ними другие математические операции.
§ Количественные шкалы. К количественным шкалам относятся интервальная шкала и шкала отношений. Процесс их построения основывается на измерениях, поэтому представленные в них оценки характеристик объектов отличаются более высокой объективностью по сравнению с оценками в качественных шкалах и поддаются определенным математическим операциям.Интервальная шкала используется для упорядочения объектов, свойства которых удовлетворяют отношениям эквивалентности, порядка и аддитивности. В ней определено расстояние между объектами и предусмотрена общая для всех объектов единица измерения, а началом отсчета является условно выбранная нулевая точка. Благодаря существованию единицы измерения в интервальной шкале возможны все арифметические действия над числами, кроме операции деления в силу отсутствия абсолютного нуля. Примером интервальной шкалы в образовании, обеспечивающей корректную сравнимость результатов педагогических измерений, является шкала логитов, построение которой осуществляется на основе теории IRT [22; 60; 67; 83].
§ Шкала отношений описывает свойства объектов, удовлетворяющие отношениям эквивалентности, порядка, аддитивности и пропорциональности. Последнее свойство появляется благодаря существованию в этой шкале однозначного естественно определенного критерия нулевого проявления измеряемого свойства – абсолютного нуля. Другими словами, шкала отношений является интервальной шкалой с естественным, а не условным началом отсчета, что расширяет возможности преобразований чисел, приписанных объектам. По сравнению со всеми ранее рассмотренными шкалами эта шкала обеспечивает самый высокий уровень измерений, но реализовать ее в образовании невозможно в силу отсутствия абсолютного нуля.
§
§ 5. Надежность и валидность результатов педагогических измерений
§
§ Общие замечания. Размерность, надежность и валидность являются взаимосвязанными свойствами, характеризующими различные аспекты качества педагогических измерений. Выявление размерности – необходимый предварительный этап работ по оцениванию надежности и валидности результатов измерений.
§ Надежность результатов тестирования. Надежностью (reliability) называется характеристика точности тестовых результатов и их устойчивости к действию случайных факторов [60]. По сложившейся традиции термин «надежность» часто, хотя и не совсем верно, используют по отношению к тесту. Однако надежность теста является необходимым, но не достаточным условием получения высокой точности измерений. В случае нарушений требований к стандартизации условий проведения тестирования, проверке и оцениванию его результатов даже с помощью очень надежного измерителя можно получить результаты со значительным ошибочным компонентом.
§ Концепция истинного балла. Анализ надежности основан на предположении классической теории тестов о связи между наблюдаемым баллом, истинным баллом и ошибкой измерения. Оценка истинных баллов (true scores) испытуемых – главная цель всех, кто создает или применяет педагогические тесты. Так как любые результаты тестирования всегда содержат в себе ошибочные компоненты, то приходится заменять истинные баллы – параметры испытуемых – их наиболее достоверными оценками, которые тем точнее, чем надежнее тест.
§ Концептуальная формула для коэффициента надежности. Основная аксиома классической теории тестов приводит к фундаментальному соотношению, позволяющему получить концептуальную формулу для коэффициента надежности результатов измерений (количественной характеристики надежности), которая связывает дисперсию (показатель разброса) наблюдаемых баллов и дисперсию ошибок измерения с rн – коэффициентом надежности теста. Эта формула имеет вид
§ (1)
§
§ Ее значение исключительно теоретическое, поскольку по эмпирическим результатам выполнения теста нельзя подсчитать .
§ Несложный анализ формулы дляоценивая надежности (1) позволяет сделать выводы о возможных пределах величины rн.Очевидно, что дробь всегда неотрицательна, поэтому коэффициент надежности не может принимать значение больше единицы. Максимальное значение rн равное 1, получается в том случае, когда = 0, – случай, который не встречается в практике измерений. Так как величина дроби уменьшается с ростом знаменателя, то естественно предположить, что надежность увеличивается в тех случаях, когда тест обеспечивает высокий разброс тестовых баллов учеников.
§ Факторы, влияющие на надежность гомогенного теста. На основе постулатов классической теорий тестов и различных модификаций концептуальной формулы (1) можно определить факторы, влияющие на повышение надежности теста.
§ 1. Если при компоновке теста отбирать задания, имеющие наибольшую корреляцию с другими заданиями теста, то тест будет иметь высокую надежность и обеспечит низкую погрешность измерения. Другими словами, чем выше содержательная однородность (гомогенность) теста, тем он надежнее. Этот вывод представляет особую важность для коротких тестов (от 20 до 35 заданий). В очень длинных тестах (более 100 заданий) малые значения интеркорреляции заданий могут сочетаться с высокой надежностью теста.
§ 2. Надежность измерений повышается с увеличением длины теста. Этот формальный вывод не всегда согласуется с реальными возможностями учеников. По мере роста длины теста повышается утомляемость и снижается мотивация к выполнению заданий, что в совокупности ведет к росту ошибки измерения. Поэтому при выборе оптимальной длины теста разработчики анализируют группу факторов, среди которых: высокая дисперсия тестовых баллов, нормальный характер их распределения, форма используемых заданий, возраст учеников и время выполнения теста, выбранное в соответствии с целями тестирования и физиологическими возможностями учащихся.
§ По данным Н.Гронлунда, учащиеся старших классов в среднем за 1 мин могут выполнить одно задание с выбором ответа (при числе ответов не более четырех) [88]. На задание с кратким дополняемым ответом требуется в среднем до 2 мин, а с полным свободно конструируемым ответом – до 5 мин. В целом для обеспечения достаточно высокой надежности измерений рекомендуется проводить тестирование выпускников неполной средней школы (IX класс) в течение 2 – 3 уроков, а выпускников средней школы (XI класс) – в течение 2—4 уроков.
§ Валидность результатов педагогических измерений. Валидность – это характеристика адекватности результатов измерения поставленной цели создания теста [60]. Другими словами, валидность – это характеристика того, в какой мере удается измерить именно запланированный конструкт. Поэтому оценивание валидности тесно связано с анализом размерности пространства педагогических измерений.
§ Оценивание валидности. Количественная опенка валидности получается путем соотнесения результатов измерения с различными внешними критериями (обычно качественного характера), независимо описывающими вне ситуации тестирования все, что собирались измерять. Высокая корреляция результатов измерений с внешними критериями свидетельствует о высокой валидности теста. Наоборот, слабая корреляция указывает на неполную адекватность теста своему предназначению и позволяет сделать вывод о низкой валидности теста. Поскольку можно выбрать достаточно много внешних критериев адекватности теста поставленным целям измерения, существуют различные виды валидности и многочисленные методы ее исследования.
§ Конструктная валидность. Оценка конструктной валидности связана с выявлением того, насколько хорошо измеряется концептуально выбранный латентный конструкт. При анализе конструктной валидности часто рассматривают корреляцию между результатами по новым и уже существующим тестам, валидность которых подтверждена многолетней практикой их применения. Проводят независимую экспертизу качества содержания теста, используют факторный анализ, позволяющий выстроить факторную структуру теста, анализируют внутреннюю согласованность теста методами корреляционного анализа и т.д.
§ Содержательная валидность. В педагогических измерениях на первый план выходит исследование содержательной валидности теста, основанное на тщательной экспертизе. В общем случае содержательная валидность – это степень релевантности и репрезентативности отражения концептуально выделенного конструкта в содержании заданий теста. В основе работы экспертов обычно лежит анализ полноты, значимости, правильности пропорций содержания теста и его соответствия запланированным для проверки видам учебной деятельности (рис. 8).
§
§ Рис. 8. Модель обеспечения содержательной валидности измерения
§
Методы априорного анализа включают:
• выявление экономически обоснованных и существенных причинно-следственных связей между признаками и явлениями;
• оценку однородности исследуемой совокупности;
• анализ характера распределения совокупности по изучаемым признакам.
Одной из основополагающих предпосылок проведения научно обоснованного статистического анализа, адекватно отражающего причинно-следственные связи и зависимости, тенденции .развития реальных явлений и процессов в статике и динамике, является однородность статистической совокупности.
Анализ однородности статистической совокупности целесообразно проводить в следующей последовательности:
1. определение степени однородности всей совокупности по одному или нескольким существенным признакам;
2. определение и анализ аномальных наблюдений;
3. выбор оптимального варианта выделения однородных совокупностей.
Однако следует учитывать, что любая исследуемая совокупность наряду со значениями признаков, сложившихся под влиянием факторов, непосредственно характерных для анализируемой совокупности, может содержать и значения признаков, полученных под воздействием иных факторов, не характерных для основной совокупности. Такие значения резко выделяются, и, следовательно, использование методологии статистического анализа данной совокупности без предварительного анализа и изучения аномальных наблюдений приводит к серьезным ошибкам. Резко выделяющиеся из общей совокупности наблюдения требуют изучения.
Причины появления в совокупности аномальных наблюдений условно подразделяют следующим образом:
1. внешние, возникающие в результате технических ошибок;
2. внутренние, объективно существующие.
Такие наблюдения представляют интерес для исследователя, так как могут содержать за счет влияния неучтенных факторов особую информацию. На практике в зависимости от условий места и времени влияние одних факторов в каждый конкретный исследуемый момент или промежуток времени значительнее, чем других. Выбор того или иного метода выявления, анализа аномальных наблюдений определяется объемом совокупности, характером исследуемых процессов и задач (одномерных и многомерных).
Нецелесообразность исключения аномальных наблюдений из изучаемой совокупности реализуется широким использованием метода группировок.
Важной задачей статистических исследований на этапе априорного анализа является выделение однородных групп (даже аномальных). В данном случае в анализе эффективно применять сложные комбинационные группировки с развернутым сказуемым.
Всесторонний качественный анализ исходных данных является залогом проведения научно-обоснованного, логически выверенного экономико-статистического исследования социально-экономических явлений и процессов.