Нормативы или стандарты в определенной области

Корреляции валидности также следует оценивать в контексте определенной сферы исследования или практического применения. В различных сферах науки можно найти различные стандарты или привычные диапазоны величины взаимосвязей. В некоторых сферах науки экспериментальный контроль над переменными является более строгим, чем в других. Некоторые сферы обладают более точными измерительными техниками. В некоторых сферах рассматриваются более комплексные явления, обусловленные большим количеством причин. Все эти различия оказывают влияние на значительность результатов, получаемых в исследовании.

В рамках физических наук ученые могут в порядке вещей обнаруживать взаимосвязи, которые психологи и другие ученые, исследующие поведение, посчитали бы невероятно сильными. Например, в 2000 году изучалась взаимосвязь между массой черных дыр в центре галактики и средней скоростью звезд на краю галактики (Gebhardt et al., 2000). В данное исследование были включены примерно 26 галактик («испытуемых»), и для каждой галактики проводилось измерение по двум переменным. Одна из переменных – величина черной дыры в центре галактики, а вторая – скорость звезд, вращающихся по периферии галактики. По результатам анализа корреляция между этими двумя показателями составила 0.93. В реальных эмпирических данных из сферы психологии такую высокую корреляцию обнаружить если и можно, то достаточно редко. Сходным образом, Cohen (1988) указывает на то, что исследователи в сфере классической механики часто приходят к результатам, в которых доля объяснимой дисперсии зависимой переменной составляет 99 %.

В психологии на Джейкоба Коэна (Jacob Cohen) часто ссылаются в связи с тем, что он сформулировал приблизительные нормативы для интерпретации корреляции как малой, средней и значительной меры взаимосвязи. Согласно рекомендациям Cohen (1988), коэффициент корреляции 0.10 считается малым, 0.30 - средним, а 0.50 – значительным, большим (следует заметить, что Cohen предлагает также другие нормативы для толкования других величин эффекта, таких как d). Не так давно Hemphill (2003) провел обзор нескольких крупных исследований и предположил, что более приемлемый ряд нормативов будет состоять в том, что корреляции ниже 0.20 будут считаться малыми, корреляции между 0.20 и 0.30 будут считаться средними, а корреляции выше 0.30 – большими.

Даже в рамках психологии различные области исследования могут иметь разные ожидаемые результаты величины эффекта. Например, нормативы Hemphill (2003) были выведены из исследований по психологическим диагнозам и терапии. Степень, в которой его нормативы подходят другим областям исследования в психологии и в целом в науках о поведении, остается неизвестной. Сходным образом, Cohen (1988) признает, что его нормативы «могут иметь крен в более «гуманитарную» сферу – т.е. в сторону психологии личности, социальной психологии, социологии и культурной антропологии и в противоположном направлении от экспериментальной психологии и психофизиологии» (с.79). Можно сделать вывод о том, что интерпретация коэффициентов валидности, как и любой другой меры взаимосвязи, должна производиться в контексте определенной сферы или области исследования.

Статистическая значимость

Можно ли интерпретировать результаты исследования теста академических способностей SAT, в котором получен коэффициент прогностической валидности 0.55, как свидетельствующий о конвергентной валидности теста? При использовании для данной корреляции биномиальной таблицы величины эффекта успешность прогноза успеваемости школьников, принятых в колледж, составляет почти 80%. А что если обнаружилось бы, что исследование включало лишь 20 респондентов? Это изменило бы степень уверенности в коэффициента валидности? Если да, то как? Что, если обнаружилось бы, что исследование включало 200 респондентов? Изменило бы это уверенность в его результатах в лучшую сторону? В чем именно заключалось бы преимущество данного исследования перед предыдущим?

Ранее в этой главе описывалось реальное исследование прогностической валидности теста SAT. Это было большое исследование, которое включало более 100 000 студентов из 25 колледжей. В чем состоит польза проведения такого большого исследования? Действительно ли существует необходимость в настолько большой выборке? Как известно, большинство исследований в психологии, включая большинство исследований валидности, используют гораздо меньшие выборки – обычно как максимум несколько сотен участников. Теряем ли мы что-то, набирая выборки такого размера?

Последняя тема, которая будет рассмотрена в представленном здесь обсуждении показателей конвергентной и дивергентной валидности, – статистическая значимость. Понятие статистической значимости является важной частью статистики вывода, т.е. процедур, использующихся для оценки распространимости выводов с выборки на генеральную совокупность. Ниже будут описаны несколько основополагающих вопросов статистики вывода, затем будет рассмотрена их роль в интерпретации коэффициентов валидности.

В большинстве исследований задействована относительно небольшая выборка участников. Эти участники обеспечивают исследователей данными, которые анализируются и служат основанием для того, чтобы делать определенные заключения. Но у исследователей обычно возникает желание делать заключения о большем количестве людей, нежели лишь тех, которые принимали участие в их исследовании. Как правило, ученый предполагает, что опрошенные им респонденты представляют собой случайную выборку из гораздо большей популяции. Те 20, 200 или 100 000 людей, которые принимают участие в тестировании по SAT, предположительно репрезентативны по отношению к совокупности всех учеников, которые могли бы заполнить SAT и в дальнейшем поступать в колледж.

Поскольку выборка участников исследования предположительно репрезентативна по отношению к генеральной совокупности, исследователи предполагают, что данные, полученные на выборке, более или менее соответствуют генеральной совокупности. Поэтому данные, полученные на выборке, используются для того, чтобы делать выводы относительно всей генеральной совокупности респондентов. Например, исследователь, обнаруживший, что коэффициент прогностической валидности теста SAT равен 0.55, полагает, что этот результат применим к куда большему количеству людей, чем лишь к тем 20, 200 или 100 000 респондентам, которые непосредственно принимали участие в исследовании.

Вместе с тем исследователи осознают, что распространение результатов с относительно небольшой выборки на генеральную совокупность – дело весьма неточное. Например, можем ли мы быть уверены в том, что тест академических способностей SAT в генеральной совокупности будет обладать прогностической валидностью, равной 0.55, только лишь потому, что данные тестирования 20 человек показывают прогностическую валидность, равную 0.55? Возможно, выборка из 20 человек не является репрезентативной по отношению ко всей совокупности учеников, которые могли бы заполнить тест. Поэтому возможно, что коэффициент прогностической валидности, полученный на данной выборке, не соответствуют реальной прогностической валидности теста.

Статистика вывода используется для того, чтобы оценить степень достоверности в распространении выводов с выборки на генеральную совокупность. Исследователи подсчитывают показатели статистики вывода вместе с такими показателями, как корреляции, чтобы в итоге оценить репрезентативность корреляции, обнаруженной на определенной выборке респондентов. Проще говоря, если какой-либо результат при исследовании выборки оказывается «статистически значимым», исследователи уверены в том, что этот результат показателен для всей генеральной совокупности. Например, если в исследовании получена статистически значимая положительная корреляция, характеризующая прогностическую валидность SAT, ученый делает вывод о том, что в генеральной совокупности, из которой была набрана выборка респондентов, баллы по тесту SAT действительно положительно коррелируют с успеваемостью в колледже. С другой стороны, если результат оказывается статистически незначимым, исследователь не может быть уверенным в том, что этот результат характерен и для всей генеральной совокупности. Например, если в исследовании получен статистически незначимый положительный коэффициент валидности теста SAT, делается вывод о том, что этот коэффициент мог быть обнаружен случайно. Другими словами, в данном случае нельзя сделать вывод о том, что в рамках генеральной совокупности респондентов (из которой была набрана выборка) баллы по тесту академических способностей действительно положительно связаны со средним баллом успеваемости в колледже.

Зная все это, неудивительно, что многие исследователи придают статистической значимости большую важность. Зачастую статистически значимые результаты рассматриваются как «настоящие» и достойные внимания, а статистически незначимые результаты - как бессмысленные или неприменимые к генеральной совокупности. Несмотря на то, что такой подход недостаточно точен, он очень распространен.

Таким образом, абсолютная величина коэффициента валидности – лишь один из компонентов, который необходимо учитывать при оценке наличия или отсутствия конструктной валидности. В дополнение к вычислению и интерпретации этой величины самой по себе (напр., является ли она малой, средней или значительной) разработчики и пользователи тестов обычно изъявляют желание знать, является ли коэффициент валидности статистически значимым. При оценке конвергентной валидности исследователи предполагают обнаружить статистически значимые коэффициенты корреляции. При оценке дивергентной валидности исследователи предполагают обнаружить статистически незначимые коэффициенты корреляции (указывающие на то, что результаты теста в рамках генеральной совокупности с критериальной перменной не связаны).

Поскольку статистическая значимость часто является важной частью процесса интерпретации коэффициентов валидности, необходимо иметь базовое представление о понятии статистической значимости и факторах, на нее влияющих. В типичном варианте интерпретации коэффициента валидности показатель статистической значимости необходим для ответа лишь на один вопрос – действительно ли коэффициент корреляции, указывающий на валидность, в генеральной совокупности отличается от нуля?

Следует заметить, что данный вопрос предполагает два варианта ответа – «да» или «нет». Вычисление статистической значимости приводит к дихотомическому заключению – исследователи либо приходят к выводу, что взаимосвязь между тестом и критериальной переменной в генеральной совокупности существует, либо же они приходят к выводу, что такой взаимосвязи не существует. Опять же, при оценке конвергентной валидности исследователи хотят прийти к выводу о том, что данная взаимосвязь существует, следовательно, надеются обнаружить статистически значимые результаты. При оценке дивергентной валидности исследователи хотят прийти к выводу о том, что взаимосвязи между тестом и критериальной переменной не существует (или же она является малой), следовательно, надеются обнаружить статистически незначимые результаты. Campbell и Fiske (1959) считали статистическую значимость ключевым моментом в толковании результатов анализа матрицы множественных методов и признаков (МММП).

Более сложный вариант формулировки основного вопроса звучит так: являются ли результаты, полученные на выборке, достаточно убедительными, чтобы быть уверенными в том, что корреляция для генеральной совокупности (из которой была набрана выборка респондентов) отлична от нуля? В такой формулировке на первый план выдвигается понятие уверенности (доверия), кроме того, имплицитно предполагаются еще два вопроса, в которых подчеркиваются факторы, влияющие на статистическую значимость. Первый вопрос: насколько велика уверенность в том, что коэффициент корреляции в генеральной совокупности, из которой была набрана выборка, не равен нулю? Второй вопрос: достаточно ли велика степень уверенности в этом, чтобы прийти к выводу, что коэффициент корреляции в генеральной совокупности, из которой была набрана выборка, не равен нулю?

Существуют два фактора, влияющих на степень уверенности в том, что корреляция в генеральной совокупности не равна нулю – величина коэффициента корреляции в данных по выборке и величина самой выборки. Обратите внимание на то, что большие коэффициенты корреляции (полученные на выборке респондентов) повышают уверенность в том, что корреляция в генеральной совокупности также не равна нулю. Если корреляция между показателями теста академических способностей SAT и средним баллом успеваемости в колледже (GPA) в рамках генеральной совокупности буквально равна нулю, то какую корреляцию можно обнаружить для выборки, набранной из числа респондентов этой генеральной совокупности? Даже если коэффициент корреляции в генеральной совокупности составляет ровно 0.00, не столь уж и удивительно, что в рамках выборки был получен коэффициент, равный, скажем, 0.07. Данная корреляция не столь велика и лишь слегка отличается от «истинной» корреляции между показателями. Не слишком неожиданным будет и обнаружение коэффициента корреляции, составляющего 0.15. Идя дальше, есть вероятность обнаружить на выборке еще большую корреляцию, равную, скажем, 0.30, хотя в действительности (в генеральной совокупности) эта корреляция и равна нулю. Такой результат (0.30) маловероятен, но все же возможен. Фактически, возможно даже, что в выборке обнаружится очень значительный коэффициент корреляции (напр., равный 0.89) - даже если эта выборка была набрана из генеральной совокупности, в которой «истинный» коэффициент корреляции равняется нулю. Коротко говоря, если выборка набрана из генеральной совокупности, коэффициент корреляции в которой равняется нулю, вероятность обнаружить в выборке значительный коэффициент корреляции мала, хотя и не исключается. Поэтому чем больше корреляции, полученные на выборке, тем больше уверенность исследователя в том, что в генеральной совокупности соответствующая корреляция также отлична от нуля. Следовательно, такие корреляции с большей вероятностью будут обладать высокой статистической значимостью.

Второй фактор, влияющий на степень уверенности исследователя в том, что корреляция в генеральной совокупности отлична от нуля - величина выборки. При прочих равных условиях более многочисленные выборки увеличивают уверенность в выводах, распространяемых на генеральную совокупность. Предположим, опубликованы результаты исследования, в котором получен коэффициент корреляции между баллами по тесту SAT и средним баллом успеваемости в колледже GPA, равный 0.30. Допустим, известно, что данное исследование включало только 20 респондентов. Какова степень уверенности в том, что существует положительная корреляция между баллами SAT и GPA для всехстудентов, которые могли бы принять участие в такого рода исследовании? Изменится ли что-либо, если выборка составит 200 или 100 000 респондентов? Очевидно, что большие размеры выборки делают выводы о генеральной совокупности более достоверными.

Итак, на уверенность исследователя в выводах о том, что корреляция в генеральной совокупности не равна нулю, влияют величина самой корреляции и величина выборки. Точные статистические уравнения выходят за рамки представленного здесь обсуждения, но в целом можно сделать вывод о том, что более значительные по величине корреляции и выборки увеличивают уверенность исследователя в том, что истинная корреляция в генеральной совокупности не равна нулю. Поэтому более значительные по величине корреляции и увеличивают вероятность того, что результаты исследования валидности будут статистически значимы. Все эти соображения выражены в следующем уравнении (по Rosenthal, Rosnow & Rubin, 2000):

Чтобы признать результаты статистически значимыми, необходимо обладать определенным уровнем уверенности в том, что корреляция между исследуемыми показателями в генеральной совокупности не равна нулю.

Степень уверенности в том, что тест коррелирует с критериальной переменной в генеральной совокупности = Величина коэффициента валидности в выборке х Размер выборки

Таким образом, второй вопрос, имеющий отношение к статистической значимости, - достаточно ли велика степень уверенности в результатах, чтобы прийти к выводу о том, что корреляция для генеральной совокупности, из которой была набрана выборка, не равна нулю? Более значительные по величине корреляции и более значительные по величине выборки увеличивают степень уверенности исследователя в полученных результатах, однако необходимо все же задаться вопросом, предполагают ли результаты определенного исследования достаточную степень уверенности для того, чтобы считать эти результаты статистически значимыми? Необходимо установить определенный уровень достоверности, которого нужно достичь, чтобы иметь право утверждать, что корреляция исследуемых показателей в генеральной совокупности не равна нулю. Традиционно в науках о поведении в качестве порогового значения статистической значимости используется степень достоверности на уровне 95 %. Другими словами, исследователи рассматривают результаты как статистически значимые, если вероятность того, что они ошибочны либо обнаружены случайно, составляет меньше 5 % (0.05). Данный условный уровень получил название «альфа-уровня» исследования. Если данные статистики вывода превышают альфа-уровень, можно быть достаточно уверенными в том, что коэффициент валидности в генеральной совокупности, из которой была набрана выборка, не равен нулю.

Как уже говорилось, статистическая значимость является важным моментом интерпретации показателей конвергентной и дивергентной валидности. Тот факт, что на статистическую значимость влияют величина выборки, величина эффекта (т.е., величина коэффициента валидности в выборке) и альфа-уровень, является весьма важным. На эти моменты необходимо обращать пристальное внимание при интерпретации данных статистики вывода. Результаты исследования валидности могут быть статистически значимыми, даже если коэффициент валидности весьма мал. Так может случиться, например, если выборка, использованная в исследовании валидности, достаточно велика. Сходным образом, результаты исследования валидности могут быть статистически незначимыми, даже если коэффициент валидности довольно значителен. Так может случиться, если в исследовании была использована относительно небольшая выборка.

Ранее было замечено, что большинство исследователей надеются обнаружить статистически значимые показатели конвергентной валидности и статистически незначимые показатели дивергентной валидности. Но каковы следствия обнаружения того, что коэффициент корреляции, выражающий конвергентную валидность, статистически незначим? Типичное объяснение будет заключаться в том, что исследуемый тест обладает слабой конвергентной валидностью (т.е., конвергентная корреляция для генеральной совокупности может быть равна нулю). Однако подобный результат следует толковать не только в соответствии с величиной корреляции, но и с величиной выборки. Статистически незначимая конвергентная корреляция валидности может обнаруживаться из-за малой величины самого коэффициента корреляции или же из-за малого размера выборки. Если корреляция мала, это, несомненно, является свидетельством невысокой конвергентной валидности теста. Однако если корреляция достаточно велика, а выборка – мала, результаты могут и не означать слабой валидности теста. Они могут означать, например, слабые места в организации самого исследования. Если использовалась слишком малая выборка, тогда перед тем, как делать выводы о конструктной валидности, следует провести более масштабное исследование.

С другой стороны, каковы следствия обнаружения того, что коэффициент корреляции, выражающий дивергентную валидность, статистически значим? Типичное объяснение заключается в том, что тест обладает слабой дивергентной валидностью (т.е. дивергентная корреляция для генеральной совокупности может быть не равна нулю). Однако подобный результат следует толковать не только в соответствии с величиной корреляции, но и в соответствии с величиной выборки. Статистически значимая дивергентная корреляция валидности может обнаруживаться из-за большой величины корреляции или из-за большой величины выборки. Если корреляция велика, это является несомненным свидетельством против дивергентной валидности теста. Однако если корреляция мала, а выборка – достаточно велика, результаты могут и не относиться напрямую к дивергентной валидности теста. Если выборка достаточно велика (скажем несколько тысяч участников), существует вероятность того, что корреляция, равная лишь 0.10, 0.06 или даже меньше может оказаться статистически значимой. В таких случаях показатели статистической значимости являются практически бессмысленными, и их следует игнорировать.

В целом статистическая значимость, применимо к исследованию валидности, является важным, однако сложным понятием. Несмотря на то, что она играет значительную роль в интерпретации коэффициентов конвергентной и дивергентной валидности, к ней стоит относиться с некоторой осторожностью. Как правило, конвергентные корреляции должны быть статистически значимы, а корреляции дивергентной валидности – статистически незначимы. Однако это общее правило следует применять, обращая внимание и на другие факторы. Углубленное изучение показателей статистической значимости показывает, что они определяются и величиной выборки, и величиной коэффициентов конвергентной и дивергентной валидности. Поэтому статистически незначимая конвергентная корреляция может отражать тот факт, что в исследовании была использована выборка недостаточного размера, а статистически значимая дивергентная корреляция может отражать тот факт, что выборка, использованная в исследовании, была слишком большой.

РЕЗЮМЕ

Исследование конвергентной и дивергентной валидности является ключевым моментом в эмпирической оценке валидности теста. В данной главе рассматривались вопросы, имеющие отношение к вычислению и оценке соответствующих показателей этих важных форм валидности теста. Сперва были описаны четыре метода, использующиеся для оценки конвергентной и дивергентной валидности (напр., матрицы множественных методов и признаков). Затем рассматривались семь факторов, которые могут оказывать влияние на величину коэффициентов валидности (напр., ошибка измерения, процентное соотношение количества респондентов в разных группах, дисперсия метода). Наконец, были рассмотрены четыре важных вопроса, на которые следует обращать внимание при интерпретации коэффициентов валидности (напр., доля объяснимой дисперсии, статистическая значимость, практическая ценность). Знание вопросов, рассмотренных в данной главе, может обеспечить более глубокое и изысканное понимание процессов оценки и интерпретации валидности теста.

РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА

Обсуждение вопросов интерпретации величины эффекта:

Abelson, R. P. (1985). A variance explanation paradox: When a little is a lot. Psychological Bulletin, 97, 129-133.

Классическая статья, в которой впервые описываются матрицы множественных методов и признаков:

Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait multimethod matrix. Psychological Bulletin, 56, 81-104.

Описание таблиц Тейлора-Расселла:

Taylor, H. C., & Russell, J. T. (1939). The relationship of validity coefficients to the practical effectiveness of tests in selection: Discussion and tables. Journal of Applied Psychology, 23, 565-578.

В данной статье представлена общая логика и вычислительные тонкости процедуры квантификации конструктной валидности:

Westen, D., & Rosenthal, R. (2003). Quantifying construct validity: Two simple measures. Journal of Personality and Social Psychology, 84, 608-618.

В этой работе дается обзор понятия статистической мощности. Статистическая мощность – важная составляющая оценки статистической значимости коэффициентов валидности.

Cohen, J. (1992). A power primer. Psychological Bulletin, 112, 155-159.

В данной работе представлен факторно-аналитический подход к исследованию матриц множественных методов и признаков (МММП):

Widaman, K. E. (1985). Hierarchically nested covariance structure models for multitrait multimethod data. Applied Psychological Measurement, 9, 1-26.

ГЛАВА 10

УСТАНОВКИ НА ОТВЕТ

В самом начале обсуждения проблемы валидности приводился пример, в котором при собеседовании на получение рабочего места используется личностный опросник. Обратимся к данному примеру снова: представьте, что вы заполняете анкету. Перед вами вопрос: «Вы когда-нибудь крали у вашего работодателя?», и еще один: «Всегда ли вы говорите правду?». Пока вы раздумываете над этими вопросами, в памяти всплывает случай, когда вы «позаимствовали» хорошую шариковую ручку с предыдущего места работы, но «забыли» вернуть ее. Кроме того, вы думаете о том, как на прошлой неделе сказали лучшему другу, что должны были работать в выходные, хотя на самом деле вы просто хотели отдохнуть дома в одиночестве. Тем не менее, вы также думаете о том, что хотели бы получить эту работу, и используете те варианты ответа, которые с большей вероятностью повлияют на решение работодателя нанять вас. Соответственно, несмотря на тот факт, что правдивый ответ на первый вопрос – «да», а на второй – «нет», вы, как и большинство людей, будете склонны к тому, чтобы дать «альтернативные» ответы на оба вопроса.

Каким образом ваше желание получить работу влияет на качество заполнения личностного опросника? Работодатель может интерпретировать ваши ответы как свидетельствующие об искренности или честности. Однако, если вы выберете альтернативные ответы, тогда ваши результаты больше не могут быть интерпретированы как честность. На результат оказывает влияние ваше стремление впечатлить работодателя, и он не отражает ваш истинный уровень честности, который несколько не соответствует идеальному.

В этой главе рассматривается проблема установок респондента на те или иные ответы и дается несколько вариантов решения данной проблемы, разработанных психологами. В идеале ответы респондента на утверждения опросника должны абсолютно точно отражать те психологические характеристики, для измерения которых данный опросник предназначается. Однако известно, что на ответы респондента может систематически влиять ряд посторонних факторов. Эти факторы могут уменьшать достоверность результатов теста и валидность интерпретации результатов психодиагностических инструментов, таких как личностные опросники, опросники отношений, тесты способностей, тесты достижений, а также нейропсихологические тесты. Сниженная валидность психодиагностического инструментария может, в свою очередь, отразиться на решениях, принимаемых в отношении людей, а также вызвать проблемы с интерпретацией исследований, основанных на этом инструментарии.

Установки на ответ являются в практике психологических измерений постоянным предметом заботы, независимо от того, являются ли они осознанными или нет, движимы ли они эгоистическими мотивами или альтруистическими, отражают ли они стремление выглядеть лучше или стремление выглядеть хуже, чем на самом деле. Несомненно, необъективность в выборе ответов – фундаментальная проблема для тех, кто изучает поведение людей. Более того, проблема эта возникает, вероятно, только лишь в науках о поведении. Ученые, изучающие камни, планеты, насекомых, химические реактивы, вулканы или цветы редко попадают в ситуацию, когда предмет их исследования желает произвести впечатление разумного или непонятливого, здорового или больного, дружелюбного или недружелюбного, приветливого или властного, компетентного или некомпетентного, честного или добродетельного. Психологи же определенно должны беспокоиться об этих и других проблемах.

Будучи осведомленными об этих проблемах, психологи посвятили себя идентификации, пониманию, обнаружению и контролю над установками респондентов, оказывающими влияние на их ответы в психологических тестах (например, Cronbach, 1946, 1950). Сначала в данной главе приводится описание некоторых установок на ответ, которые получили наибольшее внимание со стороны ученых. Затем рассматриваются методы и подходы (некоторые из которых простые, другие – сложные), которые используются, чтобы понять, раскрыть, свести к минимуму или проконтролировать эти установки.

Наши рекомендации