Квадрат корреляции и «доля объяснимой дисперсии»
В психологических исследованиях установившейся практикой является интерпретация квадрата коэффициента корреляции. Квадрат корреляции между двумя переменными зачастую интерпретируется как доля дисперсии одной переменной, которая «объясняется» другой переменной. Например, если между показателями социальной компетентности и самооценки обнаруживается коэффициент корреляции 0.30, он может быть интерпретирован в свете того, что 9% дисперсии переменной «самооценка» объясняется социальной компетентностью (0.30 в квадрате равняется 0.9). Конечно, этот результат можно истолковать и как свидетельство того, что 9% переменной «социальная компетентность» объясняется самооценкой.
Возможность толкования корреляции с позиций «доли объяснимой дисперсии» привлекательна, особенно в свете того, что психологические исследования в целом (и психометрика в частности) направлены на измерение и объяснение вариативности данных. Чем большая часть вариативности какого-либо феномена может быть объяснена, тем больше у исследователя уверенности в том, что он этот феномен понимает. Кроме того, интерпретация с позиций «доли объяснимой дисперсии» согласуется с различными статистическими процедурами, основанными на выделении компонентов дисперсии (например, регрессионный анализ и дисперсионный анализ ANOVA). Таким образом, интерпретация корреляционных взаимосвязей через квадрат корреляции и объяснение какой-либо части дисперсии весьма широко распространена.
Несмотря на то, что к этому методу достаточно часто прибегают, интерпретация корреляции через возведение ее в квадрат критиковалась по крайней мере по трем причинам. Во-первых, в ряде случаев такая процедура является технически некорректной. Более подробное обсуждение данного аргумента выходит за рамки этой книги. Заметим только, что Ozer (1985) утверждает, что в некоторых случаях в качестве доли объяснимой дисперсии следует интерпретировать не квадрат корреляции, а сам корреляционный коэффициент. Во-вторых, некоторые эксперты замечают, что метрика самой дисперсии не является интуитивно понятной. Вспомните, что дисперсия, будучи мерой разброса данный, вычисляется на основе отклонений от среднего, возведенных в квадрат. Дисперсия действительно обладает рядом замечательных статистических свойств, но как понимать квадраты отклонения от среднего арифметического? D’Andrade и Dart (1990) подчеркивают, что описание результатов в терминах квадратов отклонения или расстояния не является содержательным: вы ведь не объясняете друзьям, как пройти к вашему дому, говоря, что он находится в 9 квадратных милях от автострады? То же самое соображение верно и по отношению к квадрату коэффициента корреляции: есть мнение, что этот показатель не является интуитивно понятным и, следовательно, бесполезен для интерпретации взаимосвязи между двумя переменными.
Третий повод для критики квадрата корреляции является наименее техническим, но, возможно, самым веским из всех. Проще говоря, возведение корреляции в квадрат приводит к тому, что взаимосвязь между переменными кажется весьма незначительной. Часто можно услышать, что исследователи разочарованы тем, что они объяснили «только» 9% или 12% дисперсии какого-либо явления. Или можно столкнуться с критикой какого-либо исследования, в которой говорится, что объяснено «только» 16 % дисперсии. В самом деле, на первый взгляд кажется, что 9%, 12% и 16% представляют собой не слишком уж значительную долю чего бы то ни было. В конце концов, это значит, что около 90% дисперсии не объяснено, а это звучит уже довольно внушительно. Тем не менее, как будет показано ниже, 9%, 12% или 16% дисперсии какого-либо явления могут оказаться довольно значительным и важным показателем. Особенно это касается ситуации, когда речь идет о взаимосвязи только лишь двух переменных. Так, если выясняется, что с помощью всего одной переменной (например, социальной компетентности) можно объяснить почти 10 % вариативности такого сложного психологического феномена, как самооценка, этот показатель можно рассматривать как весьма значительную взаимосвязь.
Здесь можно привести и пример ситуации с бейсболом, описанный Abelson (1985). Вспомним, что исследование Abelson привело его к выводу о том, что взаимосвязь между средним количеством отбитых мячей и успехом в какой-либо единичной ситуации достаточно мала. В действительности его заключение было основано на анализах, которые показали, что навыки отбивания мяча (выраженные в среднем количестве отбитых мячей) объясняли в общем разбросе данных по каждому отдельному случаю всего лишь одну треть от 1 % дисперсии. Как уже обсуждалось выше, Abelson подчеркнул, что кумулятивный эффект многих ситуаций отбивания мяча является более объективным показателем и может объяснить распространенное доверие публики к характеристике бейсболистов по среднему количеству отбитых мячей. D’Andrade и Dart (1990) предлагают другой взгляд на то, как объяснить расхождение между итоговыми показателями, которые получил Abelson (весьма малый процент объяснимой дисперсии), и соображениями здравого смысла (среднее количество отбитых мячей является важным статистическим индикатором, характеризующим мастерство бейсболиста). Они полагают, что данное расхождение частично является следствием того, что процент объяснимой дисперсии является плохой мерой взаимосвязи. Комментируя данные, представленные Abelson, они указывают, что полученные результаты могут быть проинтерпретированы как свидетельство того, что разница между игроком с показателем 0.220 и игроком с показателем 0.320 создает 10-процентное различие в вероятности попадания по мячу в единичной игровой ситуации. D’Andrade и Dart признают, что «10% - число не огромное», однако «для тех, кто делает ставки, десятипроцентные рубежи имеют большой смысл. Как и для менеджеров бейсбольных команд» (с.58).
Толкование коэффициента валидности методом возведения его в квадрат и описания «доли объяснимой дисперсии» - общепринятый подход, который, однако, не избавлен от определенных проблем. Несмотря на то, что такая интерпретация соответствует ориентации психометрики на исследование дисперсии, в ней можно обнаружить некоторые технические и логические недостатки. Вероятно, момент, который подвергается наибольшей критике, заключается в том, что «доля объяснимой дисперсии» представляет взаимосвязи с некоторым преуменьшением их абсолютной величины и значимости.
Оценка практических эффектов: биномиальная таблица величины эффекта, таблицы Тейлора-Расселла, анализ полезности и чувствительность/специфичность
Один из способов толкования корреляции заключается в оценке степени ее влияния на «реальные» решения и прогнозы. Чем больше корреляция между тестом и критериальной переменной, тем более успешно можно использовать тест для принятия решений о критериальной переменной. Возвращаясь к предыдущему примеру, можно отметить, что директор по персоналу мог бы представить вопрос в терминах успешности использования теста для принятия решений о найме на работу, в терминах прогнозирования профессиональной успешности работника. Другими словами, как часто прогноз директора о том, что люди с относительно высокими тестовыми баллами будут иметь также относительно высокие показатели профессиональной успешности, будет оказываться верным? И как часто данный прогноз будет неверным? Существует по крайней мере четыре метода, разработанные для представления смысла корреляционной взаимосвязи в терминах точности прогнозирования, – биномиальная таблица величины эффекта (BESD; Rosenthal & Rubin, 1982), таблицы Тейлора-Рассела (Taylor & Russell, 1939), анализ полезности (Brogden & Taylor, 1950) и анализ чувствительности и специфичности теста (Loong, 2003).
Биномиальная таблица величины эффекта (BESD) была разработана для того, чтобы проиллюстрировать практические следствия использования корреляции для принятия решений. Как правило, такая таблица оформляется таким образом, чтобы она могла применяться для формулировки прогнозов и принятия решений на выборке из 200 человек, 100 из которых имеют относительно высокий балл по результатам тестирования, а 100 – относительно низкий балл. У какого количества человек (из первой и второй группы в отдельности) будет высокий балл по критериальной переменной? Ответ на этот вопрос можно представить в виде таблицы сопряженности 2х2 (см. Таблицу 9.6а). Построение биномиальной таблицы величины эффекта можно использовать для того, чтобы показать, какое количество успешных и неуспешных прогнозов будет сделано на основе коэффициента корреляции.
Начнем с наихудшего сценария, в котором корреляция между тестом и критериальной переменной составляет 0. Если тестовые баллы не коррелируют с показателем профессиональной успешности, доля точных прогнозов составит всего лишь 50/50 (см. Таблицу 9.6а). Из 100 человек с относительно низкими результатами тестирования 50 будут относительно успешными, а 50 – неуспешными. Сходным образом, из 100 человек с относительно высокими результатами тестирования 50 будут относительно успешными, а 50 – неуспешными. Когда тест не коррелирует с критериальной переменной, использовать его для того, чтобы делать прогнозы, все равно, что подбрасывать монетку. Естественно, директор по персоналу признает негодным тест, коэффициент валидности которого дает такую же долю успешных прогнозов, как орел и решка.
Таблица 9.6. Пример биномиальной таблицы величины эффекта (BESD)
(a) Для корреляции r = 0.00
Тестовый балл | Профессиональная успешность | |
Низкая | Высокая | |
Низкий | ||
Высокий |
(b) Для корреляции r = 0.40
Тестовый балл | Профессиональная успешность | |
Низкая | Высокая | |
Низкий | A | B |
Высокий | C | D |
Что если рассмотреть сценарий, при котором корреляция между тестом и критериальной переменной не равна нулю? Если результаты тестирования коррелируют с профессиональной успешностью, доля точных прогнозов будет превышать 50/50. Rosenthal и Rubin (1982) предлагают способ точно узнать, насколько именно. Заметьте, что Таблица 9.6b, структурирована так, что ячейка А соответствует количеству людей с низкими результатами тестирования, которые (согласно прогнозам) будут плохо справляться с работой. Чтобы определить данную величину, используется следующая формула:
Ячейка А = 50 + 100 (r/2),
где r – корреляция между тестом и критериальной переменной. Если корреляция между тестовыми баллами и профессиональной успешностью составляет r = 0.40, исследователь может дать прогноз, согласно которому 70 человек с низкими результатами тестирования будут иметь низкие показатели профессиональной успешности:
Ячейка А = 50 + 100 (0.40/2),
Ячейка А = 50 + 20,
Ячейка А = 70.
В данном случае прогноз для ячейки B (количество людей с низкими результатами тестирования, которые, согласно прогнозу, будут успешными в профессиональном плане) будет следующим:
Ячейка B = 50 – 100 (r/2),
Ячейка В = 50 – 100 (0.40/2),
Ячейка В = 50 – 20,
Ячейка В = 30.
Прогноз профессиональной успешности для ячеек С и D соответствует ячейкам А и В, дополняя их:
Ячейка С = Ячейка В = 50 – 100 (r/2) = 30,
Ячейка D = Ячейка А = 50 + 100 (r/2) = 70.
Попробуем, основываясь на данных, представленных в биномиальной таблице величин эффекта, рассмотреть значение и полезность коэффициента корреляции, составляющего «всего лишь» 0.40. Если бы директор по персоналу нанял только кандидатов с относительно высокими тестовыми баллами, тогда 70 % этих кандидатов оказались бы в профессиональном плане успешными и только 30 % - неуспешными. Доля точности прогноза, равная 70 %, несовершенна, но для такого сложного феномена, как профессиональная успешность, весьма приемлема. Многое зависит от стоимости обучения персонала, однако работодатель может рассматривать долю точности прогноза, равную 70%, как весьма значительную.
В целом биномиальная таблица величины эффекта используется для того, чтобы перевести коэффициент корреляции в простую и интуитивно понятную форму. Представляя взаимосвязь между двумя переменными в форме доли успешных прогнозов, таблица BESD выражает коэффициент корреляции между тестом и критериальной переменной в такой форме, которая знакома большинству людей и которую легко понять.
Несмотря на всю наглядность биномиальных таблиц величины эффекта, способность данного метода выражать практический смысл коэффициента корреляции подвергалась критике (Hsu, 2004). Один из ключевых моментов критики этого метода заключается в том, что в таблице автоматически предполагается численное равенство групп респондентов. Другими словами, данный метод предполагает такую ситуацию, в которой количество людей с низкими тестовыми баллами является равным количеству людей с высокими тестовыми баллами. Кроме того, в этом методе предполагается, что половина выборки является «успешной» в отношении критериальной переменной, а половина – нет. Как указывалось ранее в этой главе, количественное соотношение респондентов в разных группах может оказывать влияние на коэффициент корреляции. Несмотря на то, что допущение равенства групп в некоторых случаях оправдано и возможно, в реальных жизненных ситуациях оно может использоваться не всегда. Например, директор по персоналу может нанять только 10% людей из всей выборки, а не 50%. Кроме того, может оказаться, что достичь профессиональной успешности достаточно трудно, такая возможность может составлять, например, лишь 20%.
В ситуациях, когда допущение равных пропорций численности респондентов является неприемлемым, можно использовать таблицы, разработанные Taylor и Russell (1939). Данные таблицы были разработаны для того, чтобы сопровождать принятие решений об отборе. Они отображают вероятность того, что принятие конкретного решения, основанное на «приемлемых» результатах тестирования, отразится (в сторону улучшения) на успешности по критериальной переменной. Как и в BESD, в таблицах Тейлора-Расселла и предиктор (тест), и зависимая (критериальная) переменная выражаются в дихотомической шкале. Например, директор по персоналу, принимая решение о найме на работу, может воспринимать итоги тестирования кандидата в терминах «прошел – не прошел». Кроме того, он будет воспринимать саму критериальную переменную (успешность профессиональной деятельности) как высокую либо низкую (третьего не дано). Главное отличие биномиальных таблиц величины эффекта и таблиц Тейлора-Расселла заключается в том, что таблицы Тейлора-Расселла могут применяться к решениям, основанным на различных пропорциях удовлетворительных / неудовлетворительных результатов тестирования и успешного/неуспешного выполнения работы.
Чтобы использовать таблицы Тейлора-Расселла, необходимо обладать некоторой информацией. Во-первых, какова величина коэффициента валидности? Во-вторых, какова доля отбора – то есть процент кандидатов, которых собираются нанять на работу? Будут ли наняты 10% кандидатов (а 90% будет отказано) или 30%? В-третьих, какова доля людей, которые могли бы иметь «успешные» критериальные показатели, если бы отбор был сделан без помощи тестирования? То есть, допуская, что найм был проведен невзирая на показатели теста, сколько работников достигли бы успешности в выполнении своей деятельности?
Обладая данной информацией, можно воспользоваться таблицами Тейлора-Расселла, чтобы оценить долю людей с приемлемыми результатами тестирования, которые к тому же достигают успеха на работе. Например, если бы исследователю было известно, что 10% людей будут наняты (доля отбора составляет 0.10) и что общий показатель профессиональной успешности равен 60% (доля успешности составляет 0.60), тогда он мог бы оценить степень полезности теста для принятия решений об отборе. Если отборочный тест имеет коэффициент валидности, равный 0.30, таблицы Тейлора-Расселла покажут директору по персоналу, что 79% кандидатов, отобранных на основании тестирования, будут профессионально успешными. Следует заметить, что данный показатель выше, чем те 60%, которые были бы получены, если бы найм был произведен невзирая на тестовые показатели. Таким образом, директор по персоналу приходит к выводу о том, что данный тест увеличивает эффективность отбора кандидатов на 19%.
Применяясь в рамках принятия решений о найме на работу, таблицы Тейлора-Расселла были популярны в промышленной и организационной психологии. Описывая их, мы ставим перед собой цель осведомить читателя о существовании данного метода (см. Taylor & Russell, 1939) и обозначить его важность в контексте оценки значения коэффициента валидности.
Третий метод интерпретации коэффициента валидности – анализ полезности, который можно рассматривать как логическое развитие биномиальных таблиц величины эффекта (BESD) и таблиц Тейлора-Расселла. Анализ полезности определяет валидность в рамках сопоставления затрат и выгод от использования теста. Другими словами, «Выгодно ли использовать тест, действительно ли преимущества от его использования окупают затраты?» (Vance & Colella, 1990, с.124). Несмотря на то, что подробное обсуждение анализа полезности выходит за рамки данной книги, предоставим краткое его описание.
При проведении анализа полезности различным аспектам тестирования и процесса принятия решения приписывается денежная стоимость. Во-первых, исследователь должен оценить денежную выгоду от использования в процессе принятия решения именно данного теста, а не других средств. Например, можно оценить финансовую выгоду от применения теста по сравнению с той ситуацией, когда кандидат принимается на работу без прохождения тестирования. Следует заметить, что при этом могут применяться и таблицы Тейлора-Расселла, например, указывая процентную долю получивших работу соискателей, достигших впоследствии больших профессиональных успехов. Исходя из этого показателя, исследователь затем оценивает соответствующую финансовую выгоду от применения процедуры тестирования. Во-вторых, необходимо оценить тестирование на затратность. Процедура тестирования может предполагать затраты на покупку теста, обработку результатов, обучение людей, принимающих решения, интерпретации и грамотному использованию тестовых баллов, а также на время, затрачиваемое респондентами и диагностами. По результатам анализа полезности исследователь может оценить, превышает ли денежная выгода от использования теста (на которую, опять же, влияет способность теста прогнозировать критериальные переменные) потенциальные затраты, связанные с проведением тестирования.
Четвертый метод оценки практического эффекта использования определенного теста - анализ чувствительности и специфичности. Такой анализ применяется обычно в рамках диагностики групповой принадлежности респондента или категории, приписываемой ему по некоторой качественной шкале. Так, тест может быть направлен на то, чтобы диагностировать присутствие либо отсутствие определенного психологического расстройства. В таком случае существуют четыре возможных исхода диагностики, как показано в Таблице 9.7:
1. Верный положительный – тест позволяет исследователю верно идентифицировать респондента, который действительно страдает от психологического расстройства.
2. Верный отрицательный – позволяет исследователю верно идентифицировать респондента который в действительности не страдает от психологического расстройства.
3. Ошибочный положительный – по результатам тестирования исследователь ошибочно делает заключение о наличии расстройства, когда в действительности его нет.
4. Ошибочный отрицательный – по результатам тестирования исследователь ошибочно делает заключение об отсутствии расстройства, когда в действительности расстройство имеется.
Таблица 9.7. Пример анализа чувствительности и специфичности
В действительности, расстройство: | |||||
Присутствует | Отсутствует | ||||
Результаты теста показывают, что расстройство | Присутствует | Верный положительный | Ошибочный положительный | Всего с положительным результатом 200 | Положительный прогностический коэффициент 80/200 = 0.40 |
Отсутствует | Ошибочный отрицательный | Верный отрицательный | Всего с отрицательным результатом 800 | Отрицательный прогностический коэффициент 780/800 =0.975 | |
Всего с расстройством 100 | Всего без расстройства 900 | Всего = 1000 | |||
Чувствительность 80/100 = 0.80 | Специфичность 780/900 = 0.87 | Базовое отношение (преобладание, предтестовая вероятность) = 100/1000 = 0.10 |
Очевидно, что пользователи предпочитают такие тесты, которые приводят к большому количеству верных выводов и малому количеству ошибочных.
Чувствительность и специфичность - величины, указывающие долю правильных заключений исследователя о групповой принадлежности респондента. Как показано в Таблице 9.7, чувствительность отражает способность теста распознавать респондентов, страдающих от расстройства, а специфичность отражает способность теста распознавать респондентов, не страдающих от расстройства. В техническом плане чувствительность отражает вероятность того, что у респондента, обладающего расстройством, по результатам тестирования это расстройство будет диагностировано; специфичность же отражает вероятность того, что тест не выявит расстройства у человека, его не имеющего. На практике ученые и пользователи теста не могут точно знать, кто из респондентов действительно страдает от расстройства, но показатели чувствительности и специфичности теста оцениваются с помощью исследований, в которых используются высоконадежные стандарты постановки диагноза.
В целом такие методы, как биномиальные таблицы величины эффекта, таблицы Тейлора-Расселла, анализ полезности и анализ чувствительности/специфичности, позволяют оценщикам более наглядно представить и описать значение определенного коэффициента валидности и потенциальную практическую пользу от применения разработанного теста. Данные методы важны и полезны особенно тогда, когда тест тесно связан с определенным конкретным результатом, характеристикой или решением.