Проведение и интерпретация анализа генерализуемости: двухкомпонентный исследовательский дизайн
Способность анализировать несколько компонентов измерительного дизайна одновременно делает теорию генерализуемости весьма полезной альтернативой классической теории тестов. Многие измерительные дизайны предполагают несколько компонентов (аспектов) измерения, и различные компоненты измерения могут по-разному влиять на его общее психометрическое качество. G-теория способна уловить эти различия.
Например, улучшенный исследовательский дизайн доктора Джонсон задействует нескольких наблюдателей, оценивающих поведение испытуемых по нескольким пунктам. По сравнению с предыдущим данный исследовательский план более совершенен, т.к. у одного наблюдателя может оказаться достаточно уникальный способ восприятия и интерпретации поведения испытуемых. Фактически, описанный выше однокомпонентный исследовательский дизайн ограничен, поскольку включает в себя лишь одного наблюдателя, Дорис. Хотя в рассмотренном выше примере и было показано, что оценки Дорис характеризуются высокой генерализуемостью, может оказаться так, что Дорис – необычно восприимчивый и добросовестный наблюдатель. У доктора Джонсон могут быть подозрения о том, что оценки других наблюдателей обладали бы куда более низким психометрическим качеством. С другой стороны, если Дорис не сможет продолжать работать на доктора Джонсон на основном этапе исследования, придется нанимать других наблюдателей. В какой степени результаты анализа генерализуемости оценок Дорис (см. выше) могут быть распространены на других наблюдателей? Задав себе все эти вопросы, доктор Джонсон наняла еще двух наблюдателей и попросила их оценить поведение тех же пяти испытуемых по тем же трем пунктам агрессивности.
Таблица 12.5. Гипотетические данные для двухкомпонентного дизайна в рамках теории генерализуемости: оценки пяти респондентов тремя наблюдателями по трем пунктам
Участник | Кен | Дорис | Тим | Среднее | ||||||
Враждебный | Злой | Недоброжелательный | Враждебный | Злой | Недоброжелательный | Враждебный | Злой | Недоброжелательный | ||
Энн | 2.67 | |||||||||
Боб | 2.44 | |||||||||
Кэролин | 3.67 | |||||||||
Дрю | 5.78 | |||||||||
Элеанор | 6.67 |
В Таблице 12.5 представлены гипотетические данные, которые доктор Джонсон могла бы получить в такого рода исследовании. В данном измерительном дизайне пять испытуемых оцениваются тремя наблюдателями по трем пунктам. Каждый испытуемый оценивался по каждому из пунктов, при этом использовалась шкала от 1 до 10, где более высокие баллы означают более высокий уровень агрессивности. Как и в прошлый раз, доктор Джонсон планирует вычислить средний балл агрессивности для каждого из респондентов; как и в прошлый раз, она надеется, что индивидуальные различия респондентов по среднему баллу агрессивности будут генерализуемыми.
Улучшенный дизайн включает в себя два компонента измерения – пункты и наблюдатели. Таким образом, доктор Джонсон надеется достичь генерализуемости по двум «универсумам». Как и в однокомпонентном исследовательском дизайне, она рассчитывает на то, что баллы, полученные с использованием трех пунктов, будут генерализуемы на баллы, которые могли бы быть получены при использовании всех возможных пунктов на измерение агрессивности. Кроме того, она надеется, что баллы, полученные с использованием трех наблюдателей, будут генерализуемы на тот гипотетический случай, когда поведение испытуемых оценивается огромным количеством наблюдателей. Другими словами, доктор Джонсон рассчитывает на то, что средние баллы агрессивности респондентов будут генерализуемы как на «универсум» пунктов, так и на «универсум» наблюдателей.
Анализ многокомпонентного исследовательского дизайна во многом напоминает анализ однокомпонентного. Сперва проводится G-анализ, в котором для каждого из эффектов вычисляются соответствующие компоненты дисперсии. В многокомпонентых дизайнах, как и в однокомпонентных, для вычисления компонентов дисперсии, как правило, используется ANOVA. Затем проводится D-анализ, в котором вычисляются коэффициенты генерализуемости для различных модификаций использованного измерительного дизайна. В многокомпонентых исследовательских дизайнах коэффициенты генерализуемости также оцениваются через отношение сигнала к шуму, что выражается соотношением соответствующих компонентов дисперсии.
Несмотря на все эти сходства, между однокомпонентными и многокомпонентыми измерительными дизайнами существует и одно важное различие. Это различие касается сложности тех компонентов дисперсии, которые вносят вклад в общую вариативность данных. Добавление в исследовательский дизайн одного дополнительного компонента (аспекта) измерения приводит к необходимости вычисления нескольких дополнительных компонентов дисперсии. Вспомните, что в однокомпонентном дизайне доктора Джонсон вычислялись три компонента дисперсии – дисперсия респондентов, пунктов и остатка. Двухкомпонентый дизайн будет включать в себя 7 компонентов дисперсии, трехкомпонентный дизайн – уже 16, и так далее. Эти дополнительные компоненты создают дополнительный «шум» и вносят вклад в усложнение ошибки измерения. В данной части главы в качестве иллюстрации общей логики анализа более сложных дизайнов будет рассмотрен двухкомпонентый исследовательский дизайн.
Стадия 1: G-анализ
Как и в предыдущем случае, для вычисления компонентов дисперсии для каждого из факторов, оказывающих влияние на оценки агрессивности, используется дисперсионный анализ ANOVA. Результаты анализа ANOVA, оценивающие вариативность в 45 оценках агрессивности, полученных доктором Джонсон, представлены в Таблице 12.6. Исследователь заинтересована в том, насколько данные оценки подвержены влиянию трех основных эффектов (индивидуальные различия респондентов, различия наблюдателей, различия пунктов), взаимодействия этих трех эффектов, а также случайной ошибки измерения. В Таблице 12.7 приведены уравнения, по которым вычисляются компоненты дисперсии для этого исследовательского дизайна. В Таблице 12.6 приведены абсолютные значения компонентов дисперсии, а также доля объяснимой дисперсии для каждого из рассматриваемых эффектов.
Результаты показывают относительный вклад каждого из эффектов в оценку агрессивности, а в Таблице 12.8 для каждого из эффектов приведена интерпретация и пояснение на примере. Для оценки относительной генерализуемости использованной процедуры кодирования агрессивности в поведении респондентов наибольший интерес представляют четыре эффекта: один из них является «сигналом», который необходимо обнаружить, остальные три вносят вклад в искажающий этот сигнал шум. Для упрощения понимания этих эффектов в Таблице 12.9 приведены средние арифметические значения по каждому из них.
Таблица 12.6. Гипотетические данные по наблюдению за поведением испытуемых: результаты дисперсионного анализа ANOVA и анализа генерализуемости
Эффект | df | Сумма квадратов | Среднеквадратичное отклонение | Компонент дисперсии | % дисперсии |
Индивидуальные различия респондентов (target) | 128.533 | 32.133 | 3.233 | 0.544 | |
Пункты | 12.044 | 6.022 | 0.289 | 0.049 | |
Наблюдатели | 19.244 | 9.622 | 0.439 | 0.074 | |
Респонденты х Пункты | 12.400 | 1.550 | 0.044 | 0.007 | |
Респонденты х Наблюдатели | 23.200 | 2.900 | 0.494 | 0.083 | |
Пункты х Наблюдатели | 6.222 | 1.556 | 0.028 | 0.005 | |
Остаток | 22.667 | 1.417 | 1.4170 | 0.238 | |
Всего | 224.311 | 5.944 | 1.000 |
Таблица 12.7. Уравнения оценки компонентов дисперсии в исследовательском дизайне «респонденты х наблюдатели х пункты»
Эффект | Уравнение |
Индивидуальные различия респондентов (target) | |
Пункты | |
Наблюдатели | |
Респонденты х Пункты | |
Респонденты х Наблюдатели | |
Пункты х Наблюдатели | |
Остаток |
Наибольший интерес, как и прежде, представляет основной эффект индивидуальных различий респондентов. Как сказано в Таблице 12.8, данный эффект отражает степень различий респондентов по баллам агрессивности, усредненным по всем пунктам и по всем наблюдателям. В данном случае эти различия варьируются от 2.44 до 6.67 (см. Таблицу 12.9). Как показано в Таблице 12.6, абсолютное значение компонента дисперсии, связанного с этим основным эффектом, наивысшее из всех:
,
,
,
.
Фактически, индивидуальные различия между респондентами объясняют более 50 % общего разброса данных, что означает довольно высокую силу сигнала. Для доктора Джонсон, как и в предыдущем случае, это хорошая новость, так как она заинтересована в обнаружении и измерении различий между респондентами. Коэффициенты генерализуемости, которые будут вычисляться на следующей стадии анализа, покажут, насколько данные индивидуальные различия респондентов устойчивы для разных пунктов и разных наблюдателей.
Таблица 12.8. Содержательные интерпретации и примеры различных эффектов, выявляемых при анализе генерализуемости
Эффект | Интерпретация (степень того, насколько…) | Пример |
Респонденты | Различны баллы респондентов, усредненные по семи наблюдателям и двум пунктам | У респондента X средняя оценка выше, чем у респондента Y |
Пункты | Различны значения пунктов, усредненные по 60 респондентам и семи наблюдателям | Средняя оценка по пункту 1 выше, чем средняя оценка по пункту 2 |
Наблюдатели | Различны средние оценки наблюдателей, усредненные по 60 респондентам и двум пунктам | Наблюдатель A в среднем ставит более высокие оценки, чем наблюдатель B |
Респонденты х Пунктыa | Различно ранжирование респондентов по разным пунктам (при усреднении по наблюдателям) | По пункту 1 респондента X оценили выше, чем респондента Y; однако по пункту 2 респондента Y оценили выше, чем респондента X |
Респонденты х Наблюдателиa | Различно ранжирование респондентов у разных наблюдателей (при усреднении по двум пунктам) | Наблюдатель A оценивает респондента X выше, чем респондента Y; однако наблюдатель B оценивает респондента Y выше, чем респондента X |
Пункты х Наблюдатели | Различно ранжирование пунктов у разных наблюдателей (при усреднении по респондентам) | Наблюдатель A имеет тенденцию по пункту 1 ставить более высокие оценки, чем по пункту 2; наблюдатель B имеет тенденцию по пункту 2 ставить более высокие оценки, чем по пункту 1 |
Остатокa | Вариативность оценок, не связанная ни с одним из предыдущих эффектов |
Примечание: а. Эти эффекты при вычислении относительного коэффициента генерализуемости считаются вносящими вклад в ошибку измерения
С точки зрения способности исследователя обнаруживать индивидуальные различия между респондентами, ошибка измерения (т.е. шум) включает в себя три эффекта. Все они включены в числитель формулы, вычисляющей компонент дисперсии для основного эффекта индивидуальных различий респондентов (MSti, MSto, MSres), и все они повлияют на коэффициент генерализуемости данного эффекта. Взаимодействие эффектов «респонденты х пункты» отражает степень рассогласованности в порядковом ранжировании респондентов по различным пунктам. Высокий показатель по взаимодействию данных двух эффектов будет означать, что пункты для разных респондентов работают по-разному, а это может исказить истинные индивидуальные различия между респондентами. Другими словами, высокий показатель взаимодействия «респонденты х пункты» будет означать, что индивидуальные различия респондентов, выявляемые различными пунктами, не согласуются друг с другом. Как видно по Таблице 12.6, взаимодействие «респонденты х пункты» в исследовании доктора Джонсон достаточно невелико (оно объясняет менее 1 % общего разброса данных), это же отражено и в средних арифметических значениях в Таблице 12.9. Заметьте, например, что по всем трем пунктам Дрю набирает более высокие баллы, нежели Кэролин. Средний (т.е. усредненный по всем трем наблюдателям) балл по пункту «враждебность» у Дрю на 2 выше, чем аналогичный балл у Кэролин (5 – 3 = 2), баллы по пунктам «злой» и «недоброжелательный» у Дрю на 2.34 выше, чем у Кэролин. Таким образом, разница между Дрю и Кэролин достаточно устойчива по всем трем пунктам. Другими словами, индивидуальные различия респондентов, похоже, генерализуемы по пунктам, и доктор Джонсон заключает, что небольшое взаимодействие эффектов «респонденты х пункты» создает незначительное количество «шума».
Второй источник ошибки в рассматриваемом примере – взаимодействие «респонденты х наблюдатели», которое отражает степень рассогласованности в порядковом ранжировании респондентов по оценкам различных наблюдателей. Средние значения, иллюстрирующие этот эффект, приведены в Таблице 12.9. Заметьте, к примеру, что три наблюдателя не согласны друг с другом в своих суждениях по поводу различий между Бобом и Энн. Дорис воспринимает Энн как более агрессивную по сравнению с Бобом, Кен не усматривает между этими двумя респондентами никакой разницы, а Тиму кажется, что Боб агрессивнее. В частности, средняя оценка агрессивности, которую Дорис выставляет Энн, составляет 3.00 (усреднено по всем трем пунктам агрессивности), а средняя оценка, которую она выставляет Бобу – 1.33. В противоположность этому, средняя оценка Кена и для Энн, и для Боба составляет 2.00. Тим выставляет Энн 3.00 балла, а Бобу – 4.00. Поскольку целью доктора Джонсон является обнаружение индивидуальных различий между респондентами, такая рассогласованность между различными наблюдателями представляет собой проблему. Повторимся, что изначальной целью данного исследования было получение четкой и последовательной процедуры измерения различий респондентов по показателю агрессивности, т.е. получение генерализуемых оценок индивидуальных различий по агрессивности. Исходя из данного соображения очевидно, что взаимодействие эффектов «респонденты х наблюдатели» вносит вклад в ошибку измерения. Высокая выраженность данного эффекта означает, что ранжирование респондентов по агрессивности различно у разных наблюдателей, т.е. не является генерализуемым по наблюдателям. Как показано в Таблице 12.6, взаимодействие эффектов «респонденты х наблюдатели» объясняет приблизительно 8 % общей вариативности данных.
Третий источник ошибки отражен в эффекте остатка, который объединяет в себе два элемента, вносящих в измерение шум. Поскольку для каждого наблюдателя по каждому пункту (и в каждой ситуации) наблюдатели присуждали респонденту только одну оценку, отделить взаимодействие трех факторов «респонденты х наблюдатели х пункты» от чисто «ошибочной» дисперсии невозможно. Оба этих элемента будут считать случайной ошибкой измерения, т.к. они вносят вклад в неоднозначность/рассогласованность ранжирования респондентов у разных наблюдателей и по разным пунктам. Как показано в Таблице 12.6, к остаточной дисперсии относится 24 % общей вариативности данных.
Для более целостного понимания может оказаться полезным рассмотреть оставшиеся три эффекта. Данные эффекты не считаются ошибкой измерения, поскольку они не нарушают порядковое ранжирование респондентов. Основной эффект «наблюдатели» показывает, насколько средние оценки одних наблюдателей отличаются от средних оценок других наблюдателей, т.е. насколько наблюдатели отличаются друг от друга в своей тенденции воспринимать людей в целом как более или менее агрессивных. Как показано в Таблице 12.9, средние оценки наблюдателей (усредненные по респондентам и пунктам) варьируются от 3.5 до 5.1. Так, Дорис по сравнению с Тимом в целом воспринимает людей как менее агрессивных. Тот факт, что наблюдатели отличаются друг от друга в своих средних оценках агрессивности, никак не связан с тем, согласованны ли они друг с другом в терминах расположения респондентов относительно друг друга в порядке возрастания/убывания агрессивности. Таким образом, в отношении способности доктора Джонсон обнаруживать индивидуальные различия респондентов основной эффект «наблюдатели» не рассматривается как шум или ошибка. Заметьте, что рассмотренное выше взаимодействие эффектов «респонденты х наблюдатели» как раз выражает степень рассогласованности индивидуальных различий между респондентами по оценкам разных наблюдателей (что вносит вклад в ошибку измерения), но данное взаимодействие и статистически, и концептуально отделено от тенденции одних наблюдателей в целом, в среднем оценивать респондентов выше, чем другие наблюдатели.
Таблица 12.9. Средние арифметические значения оценок поведения респондентов
Основные эффекты | ||||||||||||||||
Респондент | Среднее | Наблюдатель | Среднее | Пункт | Среднее | |||||||||||
Энн | 2.67 | Кен | 4.20 | Враждебный | 3.60 | |||||||||||
Боб | 2.44 | Дорис | 3.50 | Злой | 4.87 | |||||||||||
Кэролин | 3.67 | Тим | 5.10 | Недоброжелательный | 4.27 | |||||||||||
Дрю | 5.78 | |||||||||||||||
Элеанор | 6.67 | |||||||||||||||
Взаимодействия | ||||||||||||||||
Респонденты х Наблюдатели | Респонденты х Пункты | Наблюдатели х Пункты | ||||||||||||||
Кен | Дорис | Тим | Враждебный | Злой | Недоброжелательный | Враждебный | Злой | Недоброжелательный | ||||||||
Энн | 2.00 | 3.00 | 3.00 | Энн | 3.00 | 3.33 | 2.00 | Кен | 3.60 | 4.60 | 4.40 | |||||
Боб | 2.00 | 1.33 | 4.00 | Боб | 2.00 | 3.00 | 2.33 | Дорис | 2.60 | 3.80 | 4.00 | |||||
Кэролин | 2.67 | 3.33 | 5.00 | Кэролин | 3.00 | 4.33 | 3.33 | Тим | 4.60 | 6.20 | 4.40 | |||||
Дрю | 6.33 | 4.33 | 6.67 | Дрю | 5.00 | 6.67 | 5.67 | |||||||||
Элеанор | 8.00 | 5.33 | 6.67 | Элеанор | 5.00 | 7.00 | 8.00 | |||||||||
Как было описано в предыдущем примере, основной эффект «пункты» отражает степень различий в средних оценках по разным пунктам. Как показано в Таблице 12.9, средние оценки по пунктам (усредненные по всем респондентам и наблюдателям) варьируются от 3.6 до 4.9. И снова тот факт, что по одним пунктам респонденты оцениваются выше, чем по другим, никак не связан с тем, насколько согласованно работают пункты в отношении порядкового ранжирования респондентов. Таким образом, в отношении способности доктора Джонсон обнаруживать индивидуальные различия между респондентами, данный эффект в ошибку измерения вклада не вносит.
Наконец, взаимодействие эффектов «пункты х наблюдатели» означает то, насколько наблюдатели отличались друг от друга по ранжированию средних оценок по пунктам (усредненных по всем респондентам). Заметьте, что средняя оценка Дорис по пункту «злой» (3.80) ниже, чем ее средняя оценка по пункту «недоброжелательный» (4.00), в то время как у Кена средняя оценка по пункту «злой» (4.60) выше средней оценки по пункту «недоброжелательный» (4.40; см. Таблицу 12.9). Хотя Дорис и Кен, похоже, в целом использовали данные пункты по-разному, эта разница не должна оказать влияния на выявление индивидуальных различий респондентов. Таким образом, в терминах способности доктора Джонсон получать четкие и согласованные порядковые ранги респондентов взаимодействие эффектов «пункты х наблюдатели» не является ошибкой измерения.
Дифференциация компонентов ошибки измерения, проводимая в рамках G-теории, позволяет доктору Джонсон исследовать то, в какой степени итоговые баллы агрессивности респондентов (т.е. оценка индивидуальных различий респондентов по агрессивности) подвержены влиянию различных компонентов процедуры измерения – наблюдателей и пунктов. Затем она может использовать значения компонентов дисперсии (см. Таблицу 12.6) для принятия решений по поводу количества наблюдателей и количества пунктов, которые наиболее оптимально использовать в будущих исследованиях.
Стадия 2: D-анализ
Как говорилось в предыдущем примере (для однокомпонентного исследовательского дизайна), относительный коэффициент генерализуемости аналогичен надежности в классической теории тестов. Оно может быть рассмотрен как соотношение сигнала и шума:
Коэффициент генерализуемости =
Единственная разница между однокомпонентным и двухкомпонентным дизайном – состав шума. Формула относительного коэффициента генерализуемости для определенной стратегии измерения такова:
. (12.2)
В данном уравнении – относительный коэффициент генерализуемости индивидуальных различий респондентов, – собственное число компонента дисперсии для основного эффекта индивидуальных различий респондентов, – собственное число компонента дисперсии для взаимодействия эффектов «респонденты х пункты», – собственное число компонента дисперсии для взаимодействия эффектов «респонденты х наблюдатели», – собственное число компонента дисперсии для эффекта остатка, – рассматриваемое количество пунктов, – рассматриваемое количество наблюдателей. Например, доктор Джонсон может использовать компоненты дисперсии для оценки генерализуемости исследовательской стратегии с двумя наблюдателями и одним пунктом:
,
,
.
Это означает, что она, вероятно, получит умеренный уровень генерализуемости, однако не мешало бы рассмотреть возможность увеличения количества пунктов и/или наблюдателей. Например, коэффициент генерализуемости для исследовательской стратегии с двумя наблюдателями и двумя пунктами составит приблизительно 0.84:
,
,
.
Уравнение 12.2 выражает ключевое преимущество теории генерализуемости перед классической теорией тестов. С позиций классической теории, где ошибка измерения не дифференцируется на компоненты, не существует возможности отдельной оценки эффектов наблюдателей и пунктов на качество измерения, следовательно, не существует и возможности оценить различные комбинации количества пунктов и количества наблюдателей. С другой стороны, G-теория (т.е. Уравнение 12.2 и оценка компонентов дисперсии) позволяет доктору Джонсон оценить психометрическое качество различных комбинаций пунктов и наблюдателей. Систематически тестируя разные комбинации количества пунктов и количества наблюдателей, она может оценить генерализуемость различных измерительных дизайнов. Данная информация, наряду с информацией о практической пользе и потенциальной стоимости дополнительных пунктов и/или наблюдателей, поможет ей оптимизировать качество и эффективность диагностического исследования.
Таблица 12.10. Коэффициенты генерализуемости, вычисленные с использованием компонентов дисперсии
Пункты ( ): | ||||||||||||
Наблюдатели ( ): | ||||||||||||
Коэффициент | ||||||||||||
Относительный ( ) | 0.62 | 0.83 | 0.88 | 0.77 | 0.91 | 0.94 | 0.80 | 0.92 | 0.95 | 0.82 | 0.93 | 0.96 |
Абсолютный ( ) | 0.54 | 0.74 | 0.80 | 0.68 | 0.85 | 0.89 | 0.71 | 0.87 | 0.91 | 0.73 | 0.88 | 0.92 |
Рисунок 12.2. Двухкомпонентный дизайн: относительные коэффициенты генерализуемости как функция количества пунктов и количества наблюдателей
В Таблице 12.10 и на Рисунке 12.2 представлены коэффициенты генерализуемости для различных комбинаций наблюдателей и пунктов. Эти коэффициенты были получены с использованием Формулы 12.2 и значений компонентов дисперсии из Таблицы 12.6. Представленные данные иллюстрируют два важных момента. Во-первых, доктор Джонсон может найти такие комбинации наблюдателей и пунктов, которые будут характеризоваться некоторым конкретным значением надежности. Например, оценка надежности в 0.80 может быть достигнута при нескольких таких комбинациях. Три наблюдателя и один пункт, один наблюдатель и пять пунктов, два наблюдателя и два пункта – все эти комбинации приведут к получению коэффициента надежности как минимум 0.80. Таким образом, если доктор Джонсон рассчитывает на надежность в 0.80 или выше, она может взвесить все преимущества и недостатки использования каждой из данных трех комбинаций. Во-вторых, доктор Джонсон может определить те точки, в которых увеличение количества наблюдателей и/или пунктов больше не приводит к существенному возрастанию надежности. Например, рассмотрим возрастание надежности измерения при переходе от трех наблюдателей к пяти. График, представленный на Рисунке 12.2, показывает, что это возрастание относительно невелико, особенно если принять во внимание потенциальную стоимость увеличения количества наблюдателей (которых нужно нанимать, обучать, контролировать и т.д.). Такого рода информация может оказаться весьма полезной при планировании эффективных стратегий сбора эмпирических данных о поведении респондентов.