Проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн

Первый из рассматриваемых примеров будет иллюстрировать общую логику, вычисления и интерпретацию анализа генерализуемости на основе относительно простой исследовательской стратегии. В качестве примера будет взят исходный исследовательский дизайн доктора Джонсон, в котором поведение респондентов оценивается одним наблюдателем по трем позициям (пунктам). Как было показано выше, это однокомпонентный исследовательский дизайн, поскольку в нем используется несколько пунктов, но лишь один наблюдатель, лишь одна ситуация, лишь один момент времени и т.д. Несмотря на то, что данный пример будет использован для иллюстрации положений G-теории, к такого рода исследованиям применима и классическая теория тестов. Таким образом, данный пример будет использован для того, чтобы показать читателю, как теория генерализуемости пересекается с классической теорией тестов в случае простого, однокомпонентного исследовательского дизайна.

Представьте, что доктор Джонсон набрала данные, приведенные в Таблице 12.1. В этом примере пять испытуемых, поведение которых наблюдается Дорис и оценивается с использованием трех пунктов, связанных с агрессивностью. Для получения общего балла агрессивности для каждого из респондентов доктор Джонсон планирует вычислять среднее арифметическое по трем пунктам. Она надеется, что результаты исследования могут быть генерализованы на баллы, которые были бы получены в случае тестирования респондентов всеми возможными пунктами из "универсума" пунктов, связанных с агрессивностью. Главной целью анализа и является оценка степени такой генерализуемости. На первом этапе необходимо исследовать факторы, влияющие на оценку поведения респондентов и, как следствие, на психометрическое качество получаемых ими баллов агрессивности.

Стадия 1: G-анализ

На первой стадии анализа генерализуемости применяется дисперсионный анализ (ANOVA). С его помощью производится оценка компонентов дисперсии по каждому из факторов, оказывающих влияние на итоговые баллы респондентов. Как вы знаете, дисперсионный анализ ANOVA – это статистическая процедура, которая обычно применяется в экспериментальных исследованиях. Цель ANOVA - исследовать дисперсию в распределении баллов (например, оценок поведения респондентов) и разделить, или "разложить", эту дисперсию на компоненты, связанные с различными факторами (например, самими респондентами, пунктами и т.д.). Доктор Джонсон проводит дисперсионный анализ для исследования вариативности в наборе из 15 баллов - оценки пяти респондентов по трем пунктам. Результаты приведены в Таблице 12.2. ANOVA позволяет доктору Джонсон разделить исходные данные на набор эффектов и оценить компоненты дисперсии, связанные с каждым из них.

Таблица 12.1. Гипотетические данные для однокомпонентного дизайна в рамках теории генерализуемости: оценки пяти респондентов по трем пунктам

Участник Пункт Среднее по пунктам
Враждебный Злой Недоброжелательный
Энн
Боб 1.3
Кэролин 3.3
Дрю 4.3
Элеанор 5.3
Среднее по участникам 2.60 3.80 4.00  

В случае однокомпонентного дизайна на вариативность в распределении тестовых баллов могут влиять три фактора. Первый – это, конечно, индивидуальные различия респондентов по уровню агрессивности. Заметьте (см. Таблицу 12.1), что усредненный по трем пунктам балл агрессивности у Энн (3.0.) ниже, чем аналогичный балл у Дрю (4.3). Это означает, что в целом Энн вела себя менее агрессивно, чем Дрю. Вариативность усредненных баллов у респондентов отражает то, насколько они отличаются друг от друга в терминах агрессивности. При прочих равных условиях качество измерения будет наилучшим тогда, когда респонденты отличаются друг от друга. Как уже обсуждалось ранее в главах, посвященных корреляции и надежности, вариативность между респондентами является ключевым компонентом процесса измерения. В сущности, это как раз тот фактор, который доктор Джонсон и надеется измерить в своем исследовании.

Второй фактор – это степень различия между пунктами по усредненному для всех респондентов баллу агрессивности. Заметьте (см. Таблицу 12.1), что пункт "враждебный" в среднем оценивается ниже (2.60), чем «недоброжелательный» (4.00). Вариативность между данными показателями отражает то, насколько различные оценки поведения респондентов провоцируются использованием различных пунктов. Таким образом, тот факт, что 15 анализируемых баллов отличаются друг от друга, частично обусловлен тем, что разные пункты приводили к различным оценкам поведения.

Третий фактор – это ошибка измерения. Вспомните, что целью доктора Джонсон является обнаружение четких и согласованных различий между респондентами, однако полученные результаты показывают, что эти различия от пункту к пункту несколько непостоянны. Так (Таблица 12.1), Энн и Дрю одинаково оцениваются по параметру "враждебный", однако по параметру "злой" Энн оценивается ниже, чем Дрю. Чему же верить? Являются ли Энн и Дрю одинаково агрессивными, или же Энн менее агрессивна, чем Дрю? Данная несогласованность между двумя пунктами частично искажает различия между Энн и Дрю, в связи с чем она и называется ошибкой измерения.

В однокомпонентном исследовательском дизайне ANOVA выделяет два основных эффекта и остаток (случайную ошибку измерения). В большинстве экспериментальных применений анализа ANOVA для всех выделенных эффектов проводятся тесты статистической значимости. Тем не менее, для анализа генерализуемости такие тесты не требуются. Фактически, результаты анализа ANOVA, особенно среднеквадратичные отклонения, представляют для G-теории интерес лишь постольку, поскольку они позволяют оценивать компоненты дисперсии.

Таблица 12.2. Гипотетические данные по наблюдению за поведением испытуемых: результаты дисперсионного анализа ANOVA и анализа генерализуемости

Эффект df Сумма квадратов Среднеквадратичное отклонение Компонент дисперсии % дисперсии
Индивидуальные различия респондентов (target) 27.067 6.767 1.967 0.608
Пункты 5.733 2.867 0.400 0.124
Остаток 6.933 0.867 0.867 0.268
Всего 39.733   3.233 1.000

Таблица 12.3. Уравнения оценки компонентов дисперсии в исследовательском дизайне «респонденты х пункты»

Эффект Уравнение
Индивидуальные различия респондентов (target) проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru
Пункты проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru
Остаток проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru

В Таблице 12.2 приведены результаты дисперсионного анализа ANOVA, а в Таблице 12.3 - формулы оценки компонентов дисперсии для данного исследовательского дизайна. В дополнение к этому в Таблице 12.2 приведены оценки компонентов дисперсии (коэффициенты s2) и процент объяснимой дисперсии для каждого из эффектов (вычисляется путем деления данного компонента дисперсии на сумму всех компонентов). Например, компонент дисперсии, связанный с индивидуальными различиями респондентов, вычисляется следующим образом:

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru ,

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru ,

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru ,

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru

Результаты показывают ту степень, в которой различные аспекты (компоненты) измерения влияют на общую оценку агрессивности респондентов. Абсолютная величина компонента дисперсии сложно поддается интерпретации, поскольку она зависит от величины эффекта и шкалы измерения. В связи с этим более осмысленные результаты получаются при сравнении компонента дисперсии, связанного с определенным эффектом, с компонентами дисперсии других эффектов или же при рассмотрении компонента дисперсии в процентном отношении к общей вариативности.

Основной эффект, представляющий наибольший интерес, – эффект индивидуальных различий между респондентами (target effect). Этот эффект отражает то, насколько различны у респондентов баллы агрессивности, усредненные по всем пунктам. Как показано в Таблице 12.2, абсолютное значение компонента дисперсии для данного эффекта получилось наивысшим из всех (1.967). Фактически, различия между усредненными баллами агрессивности у респондентов объясняют более 60 % общего разброса данных:

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru .

Для доктора Джонсон относительно большая величина данного компонента дисперсии (по сравнению с другими эффектами) - хорошая новость, поскольку целью исследования является выявление различий между респондентами. В сущности, основной эффект, связанный с индивидуальными различиями респондентов, является тем "сигналом", который пыталась обнаружить доктор Джонсон, и относительно высокий показатель по данному компоненту дисперсии означает, что сигнал достаточно силен.

Если эффект индивидуальных различий респондентов – сигнал, который пытается обнаружить доктор Джонсон, необходимо рассмотреть также и шум, который может искажать этот сигнал. На основе теории генерализуемости возможно принятие одного из двух решений, которые по-разному обходятся с шумом, или ошибкой измерения. Чтобы не усложнять логику изложения, рассмотрим лишь «относительные» решения, которые теснее всего связаны с тем, как ошибка измерения и надежность понимаются в классической теории тестов. Относительные решения (известные также как ориентированные на норму) предполагают использование порядка респондентов относительно друг друга. Например, если некоторое почетное общество принимает в свои ряды лучшие 15 % студентов, это общество будет заинтересовано в информации о порядковых рангах студентов, а решение о принятии будет основано на сравнении баллов одного студента с баллами других студентов. Ближе к концу главы будет приведено краткое описание другого типа решений, которые называются "абсолютными", или ориентированными на критерий.

В рассматриваемом нами однокомпонентном исследовательском дизайне тем самым шумом, который может исказить сигнал эффекта, связанного с индивидуальными различиями респондентов, является эффект остатка. Если между респондентами существуют ярко выраженные различия, если все пункты являются хорошими индикаторами исследуемого психологического конструкта и если оценки не подвержены влиянию случайных состояний респондентов и наблюдателя либо случайных изменений в контексте тестирования, то различия между респондентами должны быть постоянными для любых рассматриваемых пунктов. Другими словами, если стратегия измерения хороша, респонденты с высокими баллами по одному пункту должны также иметь высокие баллы по другим пунктам. Непоследовательность в баллах, полученных по разным пунктам, наводит на мысль о том, что не существует ярко выраженных различий между респондентами, пункты неодинаково адекватно отражают исследуемый конструкт, и/или оценки подвержены влиянию случайных посторонних факторов в ситуации тестирования. Последние два варианта (отношение пунктов к исследуемому конструкту и случайные эффекты) находят свое количественное выражение в компоненте дисперсии, связанном с эффектом остатка. В результатах, полученных доктором Джонсон, эффект остатка ( проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru ) невелик по сравнению с эффектом индивидуальных различий и объясняет лишь 27 % общего разброса данных.

Несколько углубляясь, рассмотрим также основной эффект пунктов и поясним, почему этот эффект источником ошибки при обнаружении индивидуальных различий между респондентами не является. Компонент дисперсии, связанный с основным эффектом пунктов, отражает степень того, насколько некоторые пункты в среднем оцениваются выше или ниже других. Как показано в Таблице 12.1, усредненные по всем респондентам значения для трех пунктов варьируются от 2.6 до 4.0. Тот факт, что пункты различаются в своих усредненных оценках, никак не связан с проблемой их согласованного действия для ранжирования испытуемых относительно друг друга. Таким образом, поскольку основной эффект пунктов не нарушает способности доктора Джонсон обнаруживать индивидуальные различия между респондентами, данный эффект к ошибке измерения не относится.

Стадия 2: D-анализ

Вторая стадия исследования генерализуемости – D-анализ, который служит для эмпирического сопровождения будущих решений по поводу изменения исследовательского дизайна. Как уже говорилось, разработчикам тестов следует стремиться к максимизации качества и эффективности своего инструментария, однако эти две цели несколько противоречат друг другу. С одной стороны, для обеспечения высокого уровня генерализуемости в основном исследовании доктору Джонсон необходимо включить в экспертный опросник достаточно большое количество пунктов. С другой стороны, она предпочла бы включить в исследование небольшое количество пунктов, что упростит работу наблюдателя, минимизирует необходимое для измерения агрессивности время, даже сэкономит ей деньги. Проводя D-анализ, доктор Джонсон оценивает психометрическое качество различных возможных исследовательских стратегий, что позволяет ей подобрать наиболее подходящую для себя.

Чтобы провести D-анализ, для различных исследовательских стратегий вычисляются т.н. «коэффициенты генерализуемости». Если доктор Джонсон заинтересована в измерении индивидуальных различий между респондентами, ее прежде всего будут интересовать «относительные» коэффициенты генерализуемости. Как уже говорилось, коэффициент генерализуемости аналогичен надежности в терминах классической теории тестов, поскольку он отражает то, насколько наблюдаемые различия между респондентами согласованы с различиями, которые были бы получены при использовании практически неограниченного числа наблюдений. Как и коэффициент «альфа», коэффициент генерализуемости может принимать значения от 0 до 1.0. Как будет показано ниже, один из видов генерализуемости в некоторых исследовательских дизайнах равен коэффициенту «альфа».

С концептуальной точки зрения коэффициент генерализуемости выражает соотношение сигнала и шума. Измеряя психологические или поведенческие различия между респондентами, пользователь теста, в сущности, пытается обнаружить сигнал (т.е. индивидуальные различия), который, тем не менее, может искажаться шумом (т.е. случайной ошибкой и другими аспектами измерительного процесса). Существует два фактора, влияющие на способность обнаружения сигнала – сила сигнала и количество шума (помех). Коэффициент генерализуемости может быть представлен как

Коэффициент генерализуемости = проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru

Для вычисления коэффициентов генерализуемости используются компоненты дисперсии, полученные на стадии G-анализа. Как уже говорилось, компонент дисперсии, связанный с основным эффектом индивидуальных различий (target effect), представляет собой тот самый сигнал, который пытается обнаружить доктор Джонсон. Компонент дисперсии, связанный с эффектом остатков, - это шум, который может вносить искажения в сигнал. Чтобы получить коэффициент генерализуемости (ρ2) для какого-то конкретного исследовательского дизайна, необходимо вычислить отношение соответствующих компонентов дисперсии, взвешенное количеством пунктов в данном исследовательском дизайне.

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru . (12.1)

В данном уравнении проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru – относительный коэффициент генерализуемости индивидуальных различий респондентов, проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru – оценка компонента дисперсии, связанного с эффектом индивидуальных различий, проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru – оценка компонента дисперсии, связанного с остатком, проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru – количество пунктов теста. Так, доктор Джонсон может использовать компоненты дисперсии, вычисленные на стадии G-анализа (см. Таблицу 12.2), для оценки относительного коэффициента генерализуемости своего трехпунктового теста на агрессивность:

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru ,

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru ,

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru .

Относительно большая величина этого коэффициента (более 0.80) означает, что трехпунктовый дизайн измерения агрессивности, вероятно, обладает достаточно высокой генерализуемостью результатов. Фактически, коэффициент генерализуемости индивидуальных различий респондентов в однокомпонентном дизайне точно равен соответствующему коэффициенту «альфа» (в чем можно убедиться, вычислив коэффициент «альфа» для данных, приведенных в Таблице 12.1).

Таблица 12.4. Коэффициенты генерализуемости, вычисленные с использованием компонентов дисперсии

Пункты ( проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru )
Коэффициент
Относительный ( проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru ) 0.69 0.82 0.87 0.90 0.92 0.93 0.94
Абсолютный ( проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru ) 0.61 0.76 0.82 0.86 0.89 0.90 0.92

Хотя исследовательский дизайн с тремя пунктами обладает весьма высокой генерализуемостью, доктор Джонсон могла бы захотеть оценить потенциальную генерализуемость других дизайнов, включающих большее или меньшее количество пунктов. В Таблице 12.4 представлены относительные коэффициенты генерализуемости, вычисленные для разного количества пунктов. К примеру, относительный коэффициент генерализуемости для исследования с двумя пунктами равен

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru ,

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru ,

проведение и интерпретация анализа генерализуемости: однокомпонентный исследовательский дизайн - student2.ru .

Результаты D-анализа для примера доктора Джонсон приведены в Таблице 12.4 и на Рисунке 12.1. Как видим, с добавлением новых пунктов генерализуемость возрастает, однако после третьего или четвертого пункта этот рост замедляется. На основе таких результатов доктор Джонсон могла бы заключить, что дизайн с тремя пунктами обеспечивает ее исследованию адекватное психометрическое качество. Кроме того, она могла бы решить, что потенциальные психометрические выгоды от добавления четвертого или пятого пунктов не стоят тех дополнительных усилий и временных затрат наблюдателя, которыми это будет сопровождаться.

Рисунок 12.1. Однокомпонентный дизайн: относительные коэффициенты генерализуемости как функция количества пунктов

В целом данный пример показывает, как можно применять G-теорию к однокомпонентным исследовательским дизайнам. Надеемся, этот пример передал общий смысл, логику и значение теории генерализуемости, а также показал, какого рода данные могут быть получены в результате ее использования. Пример с однокомпонентным исследовательским дизайном рассматривался с целью иллюстрации некоторых наиболее фундаментальных аспектов G-теории в относительно простом контексте. Кроме того, было показано, что в однокомпонентных исследовательских дизайнах G-теория эквивалентна классической теории тестов. Тем не менее, данный пример не передает истинных возможностей теории генерализуемости. Как обсуждалось ранее, ключевое различие между G-теорией и классической теорией тестов заключается в том, что G-теория может оценивать множественные компоненты ошибки измерения. Рассмотрим это соображение на следующем примере.

Наши рекомендации