Ошибка измерения и надежность
В предыдущих главах описывались концептуальные основы, способы оценки и сферы применения надежности как показателя наличия (или отсутствия) ошибки измерения. Как уже говорилось, одним из важнейших следствий наличия ошибки измерения является ее эффект на коэффициент корреляции между двумя переменными – ошибка измерения снижает коэффициент корреляции. Следовательно, ошибка измерения влияет на коэффициенты валидности.
Как было показано в предыдущих главах, корреляция между тестами X1 и Y2, направленными на измерение двух психологических конструктов, является функцией истинной корреляции между конструктами и надежности данных двух тестов:
(9.1)
В этом уравнении – коэффициент корреляции между двумя тестами. В нашем случае этот коэффициент можно назвать коэффициентом валидности, выражающим взаимосвязь валидизируемого теста и одной из критериальных переменных. – это истинная корреляция между двумя конструктами, – надежность валидизируемого теста, а – надежность показателя критериальной переменной.
Например, исследуя конвергентную и дивергентную валидность теста социальной мотивации, Furr с коллегами (2004; Nave & Furr, 2006) были заинтересованы в получении коэффициента корреляции между показателями социальной мотивации и социального самосознания. Представим, что истинная корреляция данных двух конструктов составляет 0.60. Какой коэффициент валидности был бы получен в исследовании, если бы оба теста обладали низкой надежностью измерения? Если бы надежность теста социальной мотивации составляла 0.63, а надежность теста социального самосознания – 0.58, полученный коэффициент валидности составил бы лишь 0.36:
,
,
Вспомните, что для оценки конвергентной валидности исследователю необходимо сравнить эмпирически полученную корреляцию с той, которая ожидалась бы на сугубо теоретических основаниях. В данном случае, если бы Furr с коллегами (2004) ожидали получение коэффициента корреляции, близкого к 0.60, они были бы несколько разочарованы, обнаружив коэффициент «всего лишь» в 0.36. Следовательно, они могли бы заключить, что разработанный ими тест социальной мотивации обладает низкой валидностью.
Заметьте, что на коэффициент корреляции оказывают влияние два показателя надежности: а) надежность валидизируемого теста и б) надежность критериальной переменной. Таким образом, валидизируемый тест мог бы являться неплохим инструментом диагностики соответствующего психологического конструкта, однако даже в этом случае коэффициент валидности мог бы быть низким. Если бы надежность теста социальной мотивации составляла 0.84, а надежность теста социального самосознания – 0.40, эмпирически полученный коэффициент валидности составил бы всего лишь 0.35:
,
,
Следовательно, при оценке абсолютной величины коэффициента корреляции, выражающего конвергентную или дивергентную валидность, необходимо учитывать надежность обоих тестов. Вероятно, коэффициент валидности будет низким, если низка надежность одного или обоих тестов. Это соображение указывает на важность грамотного подбора критериальной переменной. Даже если валидизируемый тест адекватно отображает психологический конструкт, лежащий в его основе, полученные по результатам исследования коэффициенты валидности могут оказаться низкими. Другими словами, если критериальные переменные ненадежны, вряд ли исследователь обнаружит хорошие показатели валидности, даже если исследуемый тест на самом деле является валидным! Хотя это и важно, разработчики тестов зачастую забывают об этом.
Ограниченный размах
Вспомним, что коэффициент корреляции отражает совместную вариативность двух распределений тестовых баллов. Другими словами, он представляет собой степень соответствия между вариативностью в одном распределении баллов (например, распределении баллов валидизируемого теста) и вариативностью в другом распределении баллов (например, распределении баллов критериальной переменной). Величина вариативности в одном или обоих наборах данных оказывает влияние на коэффициент корреляции между ними. В частности, корреляция между двумя переменными может быть низкой, если размах баллов в одной или обоих переменных узок или искусственно ограничен.
Классический тому пример - взаимосвязь результатов теста академических способностей SAT с показателем академической успеваемости. Ранее мы обсуждали тот факт, что многие показатели валидности результатов теста SAT основаны на корреляции между результатами этого теста и академической успеваемостью, измеренной посредством среднего академического балла в колледже (GPA). Распространителям теста SAT хочется продемонстрировать, что люди, которые набирают относительно высокий балл по этому тесту, обычно достаточно хорошо учатся в колледже. При этом подразумевается также, что респонденты, которые набирают относительно низкий балл по SAT, обычно имеют относительно низкую успеваемость в колледже. Чтобы продемонстрировать данный вид связи, исследователям необходимо доказать, что вариативность в распределении баллов теста SAT соответствует вариативности в распределении среднего академического балла в колледже (GPA). Однако наличие ограниченности в размахе баллов нарушает эту взаимосвязь в двух аспектах.
Во-первых, показатель академической успеваемости GPA сам по себе ограничен. Во многих колледжах размах баллов GPA находится в пределах от 0.0 до 4.0. Самый низкий балл, который может набрать студент, равен 0.0, а самый высокий – 4.0. Но разве этот размах в 4 единицы действительно отражает полный спектр возможной академической успеваемости? Рассмотрим двух студентов, оба из которых хорошо учатся и получают оценку «четыре» по всем дисциплинам. Хотя Лео и учился хорошо, в каждом из предметов он с трудом «дотягивал» до четырех баллов. Таким образом, он едва дотянул до 4-х баллов, и эта четверка в некотором смысле представляет собой верхний предел его академической успеваемости. Мэри тоже учится хорошо и получает четверки по всем предметам. Но по каждой из дисциплин Мэри действительно превзошла остальных студентов. Она была единственной, кто по всем предметам выполнил все контрольные работы на четверки. Кроме того, она без труда овладела всем теоретическим материалом и справилась со всеми заданиями, за которые выставлялись оценки. Таким образом, Мэри также получила 4.0 балла, но эта оценка в некотором смысле занижает уровень ее академической успеваемости. Она усвоила весь материал настолько успешно, что ее преподаватели хотели бы поставить ей что-нибудь выше 4.0. Хотя Лео и Мэри набрали один и тот же балл, в действительности их успеваемость различна. Лео вполне заработал свои 4 балла и может этим гордиться, но преподаватели, возможно, согласились бы с тем, что Мэри его превзошла. Соответственно, четырехбалльная шкала академической успеваемости ограничивает возможный размах данных.
Обратите внимание на то, что средний балл успеваемости ограничен в обоих направлениях (и сверху, и снизу). Рассмотрим Дженни и Брюса. Хотя оба, и Дженни и Брюс, провалились на всех экзаменах, Брюсу до получения положительной отметки каждый раз не хватало совсем немного. С другой стороны, Дженни даже близко не была к тому, чтобы сдать хоть один предмет. Итак, и Брюс, и Дженни получили средний балл успеваемости, равный 0.0, но в некотором смысле у Брюса уровень академической успеваемости был выше, чем у Дженни. Исходя из оценок за контрольные работы, домашние задания и экзамены, Брюс превзошел Дженни (т.к. он получил 59 баллов за каждую работу, тогда как Дженни получила 30)[6]. Несмотря на различные уровни их успеваемости в течение семестра, шкала среднего балла академической успеваемости имеет нижний предел, равный 0.0, поэтому Дженни не может набрать меньше баллов, чем Брюс.
Диаграмма рассеивания на рисунке 9.1 демонстрирует гипотетические данные, полученные на выборке из 5000 студентов. Этот рисунок показывает «идеальную» взаимосвязь между результатами теста академических способностей и «неограниченным» показателем успеваемости в колледже. Другими словами, он представляет результаты студентов, уровень академической успеваемости которых не ограничен четырехбалльной шкалой. Обратите внимание, что некоторые баллы успеваемости опускаются ниже нулевой отметки на графике, что позволяет отразить различия между такими студентами, как Дженни и Брюс. Заметьте также, что некоторые баллы успеваемости находятся выше отметки 4.0, что отражает различия между такими студентами, как Лео и Мэри. Согласно показателям, изображенным на рисунке 9.1, корреляция между академическими способностями и средним баллом успеваемости составляет 0.61. Это указывает на то, что студенты, набравшие относительно низкий балл по тесту SAT, обычно получали относительно низкий балл по «неограниченному» показателю успеваемости.
В действительности, однако, размах баллов по успеваемости ограничен, поэтому студенты, академическая успеваемость которых могла бы быть оценена в 5.0 и 6.0 баллов, могут набрать только 4.0. Таким же образом, студенты, академическая успеваемость которых могла бы быть оценена ниже нуля, в действительности не могут получить оценку со знаком «минус». Итак, все те студенты, кто бы мог, теоретически, быть достоин среднего академического балла выше 4.0 (или ниже 0), на самом деле получат 4.0 (или 0).
Рисунок 9.1. Диаграмма рассеивания баллов по тесту академических способностей SAT и «неограниченных» баллов успеваемости в колледже GPA
Диаграмма рассеивания на рисунке 9.2 демонстрирует данные той же выборки из 5000 студентов, основанные на результатах «ограниченного» балла успеваемости GPA. Обратите внимание, что баллов, превышающих отметку 4.0, нет, т.к. эта отметка является высшим пределом. Обратите внимание также, что отметок со знаком «минус» на этом рисунке тоже нет, т.к. нулевой балл является низшим пределом. Данная диаграмма рассеивания является более сжатой, и связь между результатами теста академических способностей и средним академическим баллом не так очевидна, как в предыдущем случае. Для данных, изображенных на Рисунке 9.4, корреляция между результатами теста академических способностей и средним академическим баллом GPA несколько ниже: 0.60. Таким образом, ограничение размаха показателей успеваемости слегка снижает коэффициент корреляции.
Второй аспект, по которому ограниченный размах может повлиять на коэффициент взаимосвязи между результатами теста академических способностей и учебной успеваемостью, это количество человек, которые в принципе получают балл по успеваемости. Дело в том, что ученик с низким баллом по тесту SAT имеет куда меньше шансов вообще попасть в колледж, нежели ученик с высоким баллом по этому тесту. Изучая взаимосвязь между баллами по тесту SAT и академической успеваемостью, исследователь ограничивает себя подвыборкой респондентов, а не всей совокупностью учеников, проходивших SAT. Это происходит потому, что рассматриваются лишь те респонденты, которые заполняли SAT и которые впоследствии поступили в колледж. Не все ученики, проходящие тестирование по SAT, в дальнейшем учатся в колледже. В гипотетическом наборе данных, рассматривавшемся в данной главе, почти 400 «студентов» набрали по SAT баллы ниже 700. В действительности эти респонденты могут и не поступить в колледж; следовательно, возможно, что они никогда не получат среднего балла по академической успеваемости.
Рисунок 9.2. Диаграмма рассеивания баллов по тесту академических способностей SAT и ограниченных баллов успеваемости в колледже GPA
Диаграмма рассеивания на рисунке 9.3 демонстрирует данные об оставшихся 4600 студентах, чьи результаты по тесту академических способностей (SAT) превысили700. Обратите внимание, что респонденты с результатами ниже 700 на этой диаграмме отсутствуют. Предполагается, что респондент с таким баллом скорее всего (если даже не наверняка) не будет допущен в колледж, а потому не сможет участвовать в исследовании взаимосвязи между академическими способностями и успешностью обучения. И снова данная диаграмма рассеивания является более сжатой, чем две предыдущие. Неудивительно, что корреляция между успеваемостью и академической успешностью для данных, изображенных на Рисунке 9.3, составляет 0.55.
В целом рассмотренный пример иллюстрирует то, как ограниченность размаха данных может оказывать влияние на коэффициент корреляции. При оценке конвергентной и дивергентной валидности теста в качестве показателя валидности используется именно корреляция, либо же другие статистические процедуры, являющиеся ее расширением. При оценке ковергентной валидности исследователь надеется на то, что коэффициенты корреляции окажутся высокими. Тем не менее, необходимо помнить, что ограниченный размах данных может снизить коэффициент корреляции, даже если в действительности соответствующие конструкты взаимосвязаны достаточно тесно. В примере, рассмотренном в данном разделе главы, ограничение размаха данных оказывало на корреляцию между академическими способностями (SAT) и средним баллом по успеваемости (GPA) двоякое влияние, и в обеих аспектах коэффициент корреляции был несколько ниже, чем в случае с «неограниченными» распределениями данных. Хотя в данном примере эффект ограниченности размаха данных не столь уж и значителен, понимание потенциальных угроз этого эффекта поможет исследователю более грамотно интерпретировать коэффициенты валидности.
Рисунок 9.3. Диаграмма рассеивания ограниченных баллов по тесту академических способностей SAT и ограниченных баллов успеваемости в колледже GPA