Многомерные и факторные эксперименты: общий обзор
В описанных выше экспериментах с контрольной группой каждый раз используются лишь два типа условий—«есть воздействие» либо «нет воздействия». Эти два типа условий по сути можно рассматривать как два уровня независимой переменной, которым можно присвоить условные числовые значения— например, «I» и «О». Иными словами, с точки зрения уровня измерения независимая переменная является номинальной, качественной. В контрольной группе ее значение равно нулю, в экспериментальной—единице. Однако исследователь часто располагает значительно большей информацией о независимой переменной и способен измерить и проконтролировать ее по крайней мере на трех-четырех уровнях значений. Соответственно экспериментальная гипотеза мо-
21 Используемая нами формула основана на некоторых важных предположениях: о том, что группы отбирались независимо и случайно; что дисперсии соответствующих генеральных совокупностей неравны; что параметры совокупностей распределены нормально. Существуют и иные, несколько отличные формулы для расчета?, которые применяются в тех случаях, когда сравниваемые подвыборки-группы невелики и получаемые для них данные каким-то образом «связаны», скоррелированы (например, если мы сравниваем групповые средние братьев и сестер или средние оценки одних и тех же школьников в первом классе и на выпускных экзаменах). Соответствующие формулы и пояснения можно найти в любом статистическом руководстве, а также в книгах, включенных в список дополнительной литературы по теме.
жет быть сформулирована в терминах более или менее интенсивного воздействия либо наличия-отсутствия «отклика» зависимой переменной при конкретных уровнях независимой переменной.
В психологии хорошо известен закон «оптимума мотивации», так называемый закон Йеркса-Додсона.
В начале нашего века Р. Йеркс изучал, как влияет негативное подкрепление в форме удара электрическим током на выработку элементарных навыков у животных. В частности, в опытах с «танцующими мышами» (разновидность домашней мыши, имеющая генетический дефект, который заставляет ее двигаться по кругу или по восьмерке) он использовал три уровня силы тока—«сильный» (500 усл. ед.), «средний» (300 усл.ед.) и «слабый» (125 усл. ед.). Мышь должна была научиться выбирать один из двух туннелей. В конце туннеля ее в любом случае ожидало «вознаграждение» — мышь противоположного пола. При ошибочном выборе (белый туннель) мышь испытывала удар током, при правильном выборе (черный туннель) негативное подкрепление отсутствовало. Местоположение туннелей (слева-справа) менялось случайным образом от пробы к пробе. Выяснилось, что быстрее всего обучение происходит при «средней» величине стимуляции. Обнаруженный в этом эксперименте нелинейный характер связи между величиной стимула к решению определенной задачи и успешностью решения был затем неоднократно подтвержден и во многих других экспериментах, в том числе с испытуемыми-людьми и с позитивной стимуляцией. Чрезмерная мотивация и чрезмерная величина подкрепления, как и слабая мотивация, всякий раз оказывали меньшее воздействие на успешность выполнения различных задач.
Эксперименты, в которых используется несколько (более двух) уровней независимой переменной, называются многоуровневыми. Схема вышеописанного эксперимента с рандомизацией и тремя уровнями независимой переменной (X1, Х2 Х3) такова:
R Х1 О1
R Х2 О2
R Хз Оз
Экспериментальная гипотеза в этом случае формулируется как гипотеза об отношениях значений О1, О2 и О3 (в рассмотренном примере О1<О2 и О2>О3). Независимая переменная в многомерном эксперименте может иметь и более трех уровней. Иначе говоря, она может быть «нормальной» количественной переменной, измеренной на интервальном или абсолютном уровне. Соответственно гипотеза многомерного эксперимента может формулироваться в более точных терминах — как гипотеза об «относительно-абсолютных» или даже «абсолютно-абсолютных» отношениях переменных. Например, в эксперименте может изучаться влияние привлекательности лектора на частоту посещения занятий студентами, воздействие количества доступных источников информации о продукте на формирование потребительских предпочтений либо характер взаимосвязи между размером денежного вознаграждения испытуемых и успешностью решения ими однотипных задач. Таким образом, многомерные эксперименты позволяют проверять более тонкие и точные содержательные гипотезы о механизмах индивидуального и группового поведения.
Статистические гипотезы, проверяемые в многомерных экспериментах,—это гипотезы о различиях между значениями зависимой переменной для разных уровней независимой переменной. Нулевая гипотеза формулируется как гипо-
теза о том, что разброс индивидуальных значений внутри одного уровня независимой переменной (внутри соответствующей экспериментальной группы) идентичен разбросу индивидуальных значений между различными уровнями (группами), т. е. отношение дисперсии межгрупповых оценок к дисперсии внут-ригрупповых оценок равно 1. Последнее отношение обозначается как F-крите-рий. Для того чтобы определить, не превышает ли полученная в конкретном эксперименте величина F пороговое значение статистического F-распределе-ния для заданного уровня значимости, используют статистическую технику однофакторного дисперсионного анализа. Термин «однофакторный» в данном случае означает, что в эксперименте использовалась лишь одна независимая переменная (фактор воздействия). Рассмотрение техники дисперсионного анализа и статистического оценивания получаемой в результате величины F выходит за пределы данного обзора (детальные описания и рекомендации при необходимости можно найти в книгах из списка дополнительной литературы к главе).
В тех областях социологии и социальной психологии, которые имеют сравнительно развитую традицию экспериментальных исследований (межличностное и межгрупповое восприятие, исследования динамики установок, социальные процессы в малых группах, оценивание эффективности образовательных про-' грамм и т. д.) часто используют более сложные схемы экспериментирования, объединяемые термином «факторные эксперименты».
Факторный экспериментальный план включает в себя две и более, независимые переменные (именуемые также «факторами»), каждая из которых имеет несколько уровней воздействия. Так как при увеличении числа независимых переменных очень быстро возрастает число групп, в каждой из которых применяется одна из возможных комбинаций этих переменных и их уровней12 (в полном факторном плане число групп равно произведению числа уровней, задаваемых для каждой независимой переменной), в целях экономии ресурсов и рационального распределения исследовательских усилий были разработаны многочисленные планы, где каждый из «уровней» переменных реализуется один раз, а обобщение и статистический анализ взаимодействия различных факторов и их изолированного и совместного влияния на зависимую переменную проводится на групповом уровне23.
Всякий факторный эксперимент—это, в сущности, несколько экспериментов, объединенных в одном плане. Обобщенные данные факторного эксперимента позволяют ответить на два типа вопросов: 1) имеется ли эффект воздействия для каждой отдельно взятой независимой переменной; 2) зависит ли величина этого эффекта воздействия от величины значений других независимых переменных? Изолированный эффект воздействия одной независимой переменной
22 Такие комбинации называют еще «обработками». Источник последнего термина— сельскохозяйственные опыты, для которых Р. Фишер разработал первые факторные планы, сочетавшие различные способы ухода за растениями, условия освещенности, типы почвы и режимы полива.
23 Многочисленные примеры таких планов и описания соответствующих методов анализа результатов см. в: Дружинин Н. К. Выборочное наблюдение и эксперимент. М.:
Статистика, 1977; Готтсданкер Р. Основы психологического эксперимента. М.: Изд-во МГУ, 1982; Вознесенский В. А. Статистические методы планирования эксперимента в технико-экономических исследованиях. 2-е изд., испр. и доп. М.: Финансы и статистика, 1981. Гл. 2, 3.
называют главным эффектом, а изменение величины этого эффекта под влиянием другой независимой переменной называют взаимодействием.
В таблице 4.2 представлен план простейшего факторного эксперимента «два на два» («2 х 2»), в котором изучалось влияние новизны и типа изображения на интерес, проявляемый к этому изображению 4-месячными младенцами. В качестве индикатора интереса использовалась длительность разглядывания. Каждая из независимых переменных была представлена только двумя уровнями:
для новизны —новое или старое, предъявлявшееся в предыдущих сериях изображение; для типа изображения—геометрический контур либо схематическое изображение человеческого лица (схематические рисунки использовались для уравнивания изображений по визуальной сложности, так как время фиксации взора обычно зависит от сложности и количества деталей). Как видно из приведенных в таблице 4.2 данных, налицо оба главных эффекта. Влияние новизны на интерес становится очевидным при сравнении средних по строкам — средняя длительность разглядывания изображений (и геометрических, и «физиономий») заметно выше в случае предъявления новых рисунков (55 сек против 20). Сравнение по столбцам показывает, что при усреднении данных по двум группам (новые и старые рисунки) изображения человеческого лица вызывают значительно больший интерес, проявляющийся в более длительном разглядывании (45 сек). Налицо также взаимодействие между типом изображения и новизной. Результаты предъявления разных типов изображений различны для «старой» и «новой» группы. Различаются и значения разностей по столбцам для каждой строки (60-50=10 сравнительно с 30-10=20), и соответствующие показатели по строкам (60-30=30 сравнительно с 50-10=40). Иными словами, большая привлекательность человеческих лиц сильнее проявляется при предъявлении старых рисунков (различие в 10 сек при предъявлении новых картинок увеличивается до 20 для старых изображений), а различие между предъявлением старых и новых рисунков при использовании геометрических контуров возрастало до 40 сек.
Таблица 4.2 Факторный эксперимент 2х2 | |||
Новизна изображения | Тип изображения | Средняя длительность разглядывания, сек. | |
лицо | геометрическое | ||
Новое Старое | 60 30 | 50 10 | 55 20 |
Средняя длительность, сек. | 45. |
При обработке результатов многофакторных экспериментов основной статистической моделью является многофакторный дисперсионный анализ.
Многофакторные эксперименты в социологии—это очень часто полевые эксперименты, моделирующие сложные взаимосвязи реального мира. Преимущество полевых многофакторных экспериментов—в их «жизнеподобии», т. е. внешней, лицевой валидности. Но здесь же кроется и главный недостаток таких экспериментов — более низкие надежность и внутренняя валидность. Критики полевых многофакторных экспериментов часто отмечают, что приближение эксперимента к реальному миру здесь нередко достигается за счет замены экспериментального контроля чисто статистическим. В последнем случае воз-
растают угрозы валидности, связанные с неправильной спецификацией модели измерения, с «закоррелированностью» отдельных уровней независимых переменных с неконтролируемыми внешними переменными (см. гл. 5, 6). Кроме того, в многофакторных экспериментах острее, чем в индивидуальных и межгрупповых, стоит проблема агрегирования данных — практически всегда существует вероятность того, что отношения, выявленные при анализе сводных групповых данных, в точности не соблюдаются ни для одного отдельно взятого испытуемого (так же, как среднее некоторой выборки может не относиться ни к одному конкретному выборочному наблюдению). К неоспоримым достоинствам факторных экспериментов следует отнести значительно большие возможности статистического анализа, в том числе анализа различных эффектов взаимодействия переменных-«факторов».
В социальных науках часто употребляют также понятие квазиэксперимента, или квазиэкспериментального исследовательского плана. Речь идет о панельных, трендовых и т. п. планах выборочных обследований (гл. 5). Выборочные обследования, особенно продолжающиеся или проводимые как сравнительные «срезовые» исследования для подвыборок, испытавших либо не испытавших определенное, локализованное во времени воздействие (например, социальную революцию, реформу образования или крах фондового рынка), действительно позволяют делать выводы о взаимоотношениях между интересующими исследователя независимыми и зависимыми переменными, а значит—проверять гипотезы о предполагаемых причинно-следственных связях, однако экспериментальную рандомизацию и контроль в выборочных исследованиях, как показано в соответствующих главах, здесь заменяет использование случайных выборок и специальных методов статистического анализа данных.
Дополнительная литература
Вознесенский В. А. Статистические методы планирования эксперимента в технико-экономических исследованиях. 2-е изд., перераб. и доп. М.: Финансы и статистика, 1981. Гл. 2, 3.
Гласе Дж., СтэнлиДж. Статистические методы в педагогике и психологии: Пер. с англ. / Общ.ред. Ю. П. Адлера. М.: Прогресс, 1976. Гл. 15—19.
Готтсданкер Р. Основы психологического эксперимента: Пер. с англ. М.: Изд-во МГУ, 1982.
Дружинин Н. К. Выборочное наблюдение и эксперимент. М.: Статистика, 1977.
Кэмпбелл Д. Модели экспериментов в социальной психологии и прикладных исследованиях: Пер. с англ. / Сост. и общ. ред. М. И. Боб-невой.М.: Прогресс, 1980.
Ядов В. А. Социологическое исследование: методология, программа, методы. М.: Наука, 1987.Гл. 5.