Генерализуемость и компоненты дисперсии

Как подразумевает само название G-теории, в ее основе лежит понятие генерализуемости. Коротко говоря, качество измерения в теории генерализуемости оценивается с позиций переносимости выводов с а) баллов, основанных на ограниченном количестве наблюдений, на б) баллы, основанные на практически исчерпывающем количестве наблюдений.

Как правило, при измерении психологической или поведенческой переменной используется лишь ограниченное количество наблюдений. Так, первоначальный вариант исследования доктора Джонсон включал в себя лишь три пункта – враждебный, недоброжелательный и злой. Традиционный для G-теории предмет исследования – то, насколько баллы, полученные на ограниченном наборе пунктов, включенных в экспертный опросник, соответствуют баллам, которые были бы получены при использовании всего большого «универсума» пунктов. В некотором смысле использованные доктором Джонсон три пункта на агрессивность представляют собой выборку из генеральной совокупности («универсума») возможных пунктов, отражающих агрессивное поведение. В ее исследование могло бы быть включено множество других пунктов (например, протестный, антагонистичный, вспыльчивый и т.д.), и существует вероятность, что разные пункты в исследовании давали бы несколько разные результаты. Таким образом, исследователю необходимо оценивать степень репрезентативности использованных в тесте пунктов относительно множества других возможных пунктов на агрессивность. Хотя доктор Джонсон использовала в экспертном опроснике лишь три пункта, ей хотелось бы считать, что данные три пункта приводят к получению баллов, репрезентативных (генерализуемых, соотносимых) по отношению к тем баллам, которые были бы получены при условии использования всех возможных пунктов на агрессивность.

В этом плане G-теорию можно назвать расширением теории выборки из домена, описанной в Главе 5. В данной главе описывалось понятие домена пунктов, и из этого понятия выводилось понятие надежности. Сходным образом, G-теория основана на понятии «универсума» пунктов (или других методов или аспектов измерения), и надежность понимается в терминах способности обобщать результаты с небольшого набора пунктов на весь «универсум».

В качестве еще одного примера рассмотрим баллы, получаемые спортсменами на олимпийском соревновании по фигурному катанию. В системе оценки, используемой сегодня на олимпийских соревнованиях по фигурному катанию, успешность выступления спортсменов оценивается девятью судьями (Новая система оценивания Международного союза конькобежцев ISU, без даты). Девять судей выбираются по критериям их квалификации, однако их можно рассмотреть и как небольшую выборку из большой совокупности квалифицированных судей со всего мира. Далее, с позиций теории генерализуемости, баллы, которые присуждают выступающим данные девять судей, должны соответствовать баллам, которые были бы присуждены выступающим, если бы их оценивали все квалифицированные судьи мира. Другими словами, хотелось бы верить, что используемые на соревновании баллы генерализуются за пределы несколько предвзятого восприятия девяти людей, которым случилось быть избранными в качестве судей.

Ранее в данной книге при обсуждении проблемы надежности большое внимание уделялось понятию согласованности. Согласованность является важным понятием и для теории генерализуемости. В предыдущих главах надежность была представлена как согласованность между тестовыми баллами и истинными баллами; было показано, что оценка надежности выводится из измерения степени согласованности между пунктами теста. С позиций теории генерализуемости, доктор Джонсон заинтересована в степени согласованности между результатами ее трехпунктового теста и результатами гипотетического теста, составленного из всех возможных пунктов на агрессивность. Говоря конкретнее, доктора Джонсон интересует степень согласованности между дисперсией тестовых баллов и дисперсией баллов по «универсуму» всех возможных пунктов.

В G-анализе оценки генерализуемости основаны на компонентах дисперсии, отражающих степень согласованности с «универсумом» для каждого из элементов исследовательского дизайна (Shavelson & Webb, 1991). Например, один из компонентов дисперсии отражает вариативность в большой совокупности людей (т.е. популяции), из которой была выбрана исследуемая выборка. Для еще более глубокого понимания компонентов дисперсии представьте себе, что респондент получает балл по каждому из пунктов всего «универсума» пунктов на агрессивность. Эти баллы усредняются и приводят к получению "универсального балла" – в том смысле, что этот балл основан на целом универсуме пунктов. Представьте теперь, что каждый человек из популяции был протестирован с использованием всех возможных пунктов на агрессивность и получил такой «универсальный балл». Тогда еще одним компонентом дисперсии является вариативность «универсальных баллов» в популяции респондентов. Не следует сильно беспокоиться по поводу точного значения данного весьма абстрактного понятия. Вероятно, достаточно понять, что компоненты дисперсии отражают вариативность в большой совокупности наблюдений.

G-АНАЛИЗ И D-АНАЛИЗ

G-теория может использоваться различными способами, однако основной процесс психометрического анализа в ее рамках предполагает две стадии. На первой стадии оцениваются компоненты дисперсии. Идентифицируются факторы, оказывающие эффект на наблюдаемую дисперсию тестовых баллов (и через нее – на генерализуемость результатов); проводится количественная оценка этих эффектов. Например, доктор Джонсон может оценить, насколько полученные респондентами баллы по агрессивности обусловлены истинными различиями самих респондентов, различиями пунктов, различиями наблюдателей, а также тем, как эти три аспекта измерения взаимодействуют друг с другом (например, разные наблюдатели могут использовать разные пункты каким-то особым образом). Данная стадия часто называется G-анализом, поскольку используется она для определения степени влияния различных аспектов (компонентов) измерения на генерализуемость тестовых баллов (Marcoulides, 1996).

На второй стадии психометрического анализа в рамках G-теории результаты первого этапа используются для оценки генерализуемости различных комбинаций компонентов (аспектов) измерения. Так, доктор Джонсон может оценить количество пунктов и наблюдателей, которые потребуются ей для достижения коэффициента генерализуемости 0.80. В условиях реального исследования увеличение количества наблюдателей может быть сложным или затратным в финансовом плане, поэтому доктор Джонсон может быть также заинтересована в вычислении того количества пунктов, которое потребуется добавить для достижения определенного уровня генерализуемости в исследовательском дизайне с тем же количеством наблюдателей. Вторая стадия психометрического анализа в рамках теории генерализуемости зачастую называется D-анализом, поскольку используется она для принятия решений о модификации исследовательского дизайна (Marcoulides, 1996).

Наши рекомендации