Корреляция и каузальная связь
План 3 является весьма слабой разновидностью корреляционного плана, так как он предполагает сравнение лишь двух естественных единиц, различающихся не только наличием и отсутствием X, но и огромным числом иных признаков. Каждый из этих признаков может оказывать влияние на результаты тестирования и, следовательно, давать основания для гипотезы, конкурирующей с гипотезой о том, что эффект вызван X. И нам не остается ничего другого, как еще раз признать невозможность интерпретации различий между двумя естественными объектами. Распространим теперь это сравнение на большее число независимых естественных случаев наличия и отсутствия X и связанных с ними различий в О. Поскольку каждая естественная реализация X отличается от других по своим признакам, эти признаки уже в меньшей степени оправдывают соответствующие конкурентные гипотезы. Таким образом, могут быть установлены довольно внушительные корреляции — как, например, между курением и
раком легких. Могут ли такие данные, подобно данным эксперимента, свидетельствовать о наличии каузальной связи?
Прежде всего, отметим один положительный момент. Такие данные имеют отношение к гипотезам о каузальной связи постольку, поскольку они могут их опровергнуть. Нулевая корреляция снижает правдоподобие гипотезы. При высокой корреляции оно возрастает, ибо гипотеза избежала опровержения. Иначе говоря, корреляция не обязательно указывает на наличие причинной связи, но каузальный закон, поскольку он связан с различием между средними значениями, предполагает наличие корреляции. В любом эксперименте, где X привело к увеличению О, будет обнаружена положительная бисериальная корреляция между наличием / отсутствием X и данными итогового тестирования или приращением показателей (от предварительного обследования к последующему). Отсутствие такой корреляции может опровергнуть много простых, общих каузальных гипотез, гипотез о главных эффектах X. В этом смысле относительно недорогой корреляционный подход может служить для предварительного испытания гипотез, и те, которые его выдержат, могут быть затем подвергнуты более дорогой экспериментальной проверке. Кац, Маккоби и Морз [57], обосновав этот подход, провели исследование, в котором влияние лидерства на производительность труда было вначале изучено корреляционным методом, а затем основная гипотеза была подвергнута экспериментальной проверке (Morse, Reimer [82]).
Внимательное ознакомление с исследованиями в педагогике показывает, что корреляционные данные скорее истолковываются в пользу существования каузальной связи, что правдоподобные конкурентные гипотезы нередко выпадают из поля зрения исследователя и что для установления временной последовательности каузальных связей важно если не управляемое воздействие X, то хотя бы развернутые во времени наблюдения. Если, например, поведение учителя и ученика скоррелировано, то в соответствии с нашими культурными стереотипами мы почти никогда не принимаем в расчет возможность влияния поведения ученика на поведение учителя. Даже когда в естественных условиях как будто выявляется внутренне присущая событиям времен-
ная последовательность, избирательность нашей памяти может отобразить эту причинно-следственную связь в обратном направлении. Допустим, например, было установлено, что администраторы лучших школ имеют лучшее образование и что в школах, где администраторы часто меняются, низок моральный дух персонала. Почти неизбежно мы заключим из этого, что более высокий уровень образования администраторов и стабильное руководство ведут к более высокому уровню школ. Но каузальная цепочка может быть прямо противоположной: лучшие школы (неважно, по каким причинам лучшие) могут вызывать у хорошо образованных людей желание остаться, тогда как, оказавшись в более слабой школе, они пытаются искать работу в другом месте. Точно так же лучшие школы могут создавать подходящие условия для более продолжительного пребывания администратора на своей должности. Еще чаще, чем пресловутая обратная корреляция, нас может вводить в заблуждение корреляция с третьей переменной: лица, обладающие правом решать, кто будет подвергнут X, пользуются им так, что высокие результаты достигаются и без всякого X. К этим случаям мы еще вернемся в последнем разделе, посвященном плану ex post facto.
Истинный эксперимент тем и отличается от условий корреляционного исследования, что процесс рандомизации разрушает любую закономерную связь между характеристиками учеников (предшествующее событие) и предъявлением им X. При наличии предварительного тестирования и возможности четко определить, кто будет подвергнут X, а кто нет, эксперименты, проведенные по планам 10 и 14, могут оказаться убедительными даже без рандомизации. Но для естественного осуществления эксперимента, в котором не проводится предварительное тестирование (имитируемого планом 6), требуются совершенно особые условия, которые почти никогда не реализуются. Но и здесь в соответствии с нашей общей установкой следует внимательно присматриваться к ситуациям, в которых можно получать поддающиеся интерпретации данные. Это ситуации, в которых X реализуется произвольно, вне всякой закономерности или связи с предшествующими событиями. В идеале решения о произвольном воздействии должны
быть многочисленными и взаимно независимыми. Более того, они должны подкрепляться какими-либо дополнительными данными, пусть самыми слабыми, вроде тех, которые, скажем, удается получить посредством ретроспективной методики предварительного тестирования. Саймон [101, с. 10—61] и Уолд [137] привели доводы в пользу того, что каузальная интерпретация простой или частичной корреляции зависит от наличия правдоподобной каузальной гипотезы и отсутствия правдоподобных конкурентных гипотез, объясняющих корреляцию на другой основе.
В одном таком корреляционном исследовании настолько удачно использованы обстоятельства, что о нем следует упомянуть. Барч, Трамбо и Нэнгл [4] пользовались в качестве X наличием или отсутствием сигнала поворота от впереди идущего автомобиля, а роль зависимой переменной играл факт включения или невключения такого сигнала следующей машиной. Был продемонстрирован значимый эффект имитации, моделирования, или конформизма, что находилось в согласии с результатами многих лабораторных исследований. В отсутствие какого-либо предварительного тестирования интерпретация результатов зависит от допущения, что влияние поведения первой машины на водителя второй — единственная возможная тенденция. Опубликованные данные выглядят довольно убедительно. Отметим, однако, что любая третья переменная, влияющая на частоту сигналов, подаваемых обоими водителями, может стать правдоподобной конкурентной гипотезой. Так, если погода, условия видимости, цели поездки, обусловленные временем дня, наличие полицейских машин и т. д. воздействуют на обоих водителей и если данные собираются в условиях, различных по таким третьим переменным, корреляцию можно объяснить и независимо от влияния сигналов, исходящих от впереди идущего автомобиля. Еще лучше поддается интерпретации как «естественный эксперимент по плану 6» исследование Брима [6] о влиянии пола одного ребенка на личность другого ребенка в семье с двумя детьми. Пол определяется почти что случайно. Насколько известно, он не коррелирует ни с семейными ни с социальными, ни с генетическими детерминантами личности. Одновременная детерминация пола одного
ребенка и личности другого ребенка третьей переменной, как и обратная каузальная связь личности ребенка с полом его брата или сестры, не представляют собой правдоподобных объяснений, конкурирующих с основной каузальной интерпретацией этих интересных данных.
Ретроспективное предварительное тестирование
Во многих воинских формированиях в военное время лица одного и того же звания и специальности получают различные назначения случайно, без учета их особых привилегий, предпочтений или способностей. Поэтому сравнение социальных установок белых, попавших в подразделения со смешанным расовым составом, с установками тех, кто оказался в частях с однородным составом, может представлять интерес для установления соответствующих каузальных отношений. Мы, разумеется, должны не пренебрегать этими данными, а искать дополнительные, чтобы отклонить правдоподобные конкурентные гипотезы, отдавая себе отчет в остающихся источниках невалидности. В этом примере итоговые интервью содержали не только вопросы об отношении к неграм в данное время (в смешанных подразделениях оно оказалось более благоприятным), но предполагали припоминание установок, имевших место до получения данного назначения. Это «ретроспективное предварительное тестирование» обнаружило отсутствие различия между двумя группами, что увеличило вероятность отсутствия различий и до назначения.
Подобный анализ сыграл важную роль в исследовании Дойча и Коллинз [30], сравнивавших жителей интегрированных и сегрегированных кварталов, в которых квартиры распределялись в такой период, когда из-за недостатка жилья люди принимали соответствующие предложения более или менее независимо от их расовых установок. При наличии данных только итогового тестирования обнаруженные ими различия между двумя группами могли быть отнесены на счет первоначальных социальных установок. Утверждение, что опыт расовой интеграции приводит к более благожелательному отношению, стало более убедительным, когда ретроспективное исследование показало отсутствие
различий между двумя группами в их воспоминаниях о своих первоначальных установках. В силу аутистических факторов, искажающих, как известно, воспоминания и данные интервью, такие результаты не носят решающего характера.
По-настоящему следовало бы, конечно, провести предварительные интервью и в случайном порядке распределить испытуемых по обеим группам. Такие исследования, несомненно, будут выполнены. Но пока мы не располагаем лучшими данными, результаты Дойча иКоллинз, включая ретроспективное предварительное тестирование, являются ценным добавлением к экспериментальному знанию в этой трудной области.
Читателю следует обратить внимание на то, что вероятная систематическая ошибка памяти состоит в искажении прежних установок и согласовании их с сегодняшними установками или с установками, которые испытуемый считает социально желательными. Таким образом, здесь ошибка памяти скорее затушует значимый эффект X.
В исследованиях влияния обучения в колледже на студентов путем сравнения установок новичков и старшекурсников желательно использовать методику ретроспективного тестирования, которое будет служить частичным заслоном против конкурентных гипотез об эффектах фоновых воздействий, селективного выбывания и изменений в начальном составе группы. (Это не значит, что мы одобряем дальнейшее повторение таких поэтапных исследований, так как сейчас больше нужны лонгитюдинальные исследования, аналогичные исследованиям Ньюкомба [84], которые предполагали повторные измерения в течение четырех лет в сочетании с повторными обследованиями по методу поперечных срезов, то есть по плану 15. Если же нужно срочно сделать диссертацию, то для этого лучше выбрать другую тематику.)
Панельные исследования
В определенных однородных исследованиях респондентам нередко предлагается самим определить, были ли они подвержены X. В таких случаях корреляция между воздействием и результатом итогового тестиро-
вания оказывается смещенной не только в силу наличия общего источника погрешности (X получают те, кто и без X дал бы высокий результат О), но и из-за искажений памяти по отношению к X, еще больше усиливающих ложный эффект (Stouffer [120, с. 356]). Хотя эти исследования и обнаруживают каузальную связь, оправдывающую затраты на рекламу (то есть демонстрируют корреляцию между ответами на вопросы типа «Смотрели ли Вы эту программу?» и «Купили ли Вы это изделие?»), они являются тривиальным свидетельством о наличии эффекта. Они привносят новый фактор, угрожающий внутренней валидности результатов, то есть систематическую ошибку в определении того, кто получил X, который мы не намерены вносить в наши таблицы.
Большим достижением методологии исследования общественного мнения явилось применение панельного метода — повторных интервью с теми же лицами. В лучшем случае, когда X (например, показ кинофильма или проведение консультации) вклинивается между двумя волнами интервью или анкетирования, панельное исследование представляет собой слабый вариант плана 10 с единственным X. Следует, однако, иметь в виду, что в социологии это важное методическое нововведение сопровождается ошибочным традиционным анализом. Так, интерпретация «таблицы текучести» (Glock [41]), как отмечают Кэмпбелл и Клэйтон [14], затруднена из-за смешивания каузальных гипотез с регрессионными эффектами. Даже при анализе приращений зависимых переменных в группах, подвергшихся и не подвергшихся X, в понятиях предварительного и итогового тестирования остается менее явный источник систематической ошибки. В таких панельных исследованиях факт предъявления респонденту X (например, показ кинофильма, направленного против предрассудков) устанавливается во второй волне интервью двухэтапного панельного исследования. Схема такого плана выглядит следующим образом:
Панельное исследование с двумя волнами интервью (неприемлемо).
Здесь большими скобками отмечено наличие О или X на одном и том же этапе с одним интервью, а вопросительный знак указывает на неоднозначность отнесения респондентов к группам с X и без X. В отличие от плана 10 этот план не позволяет однозначно определить, кто принадлежит к экспериментальной, а кто к контрольной группе. Как в худших реализациях плана 10, X коррелирует с данными предварительного тестирования (лица с минимальными предрассудками более склонны посмотреть фильм). Более того, даже если X в действительности не влияет на результаты О, корреляция между X и данными последующих тестирований будет более высокой, чем между X и данными предварительных тестирований, просто потому, что они (X и О) осуществляются в одном и том же интервью. Как показывает общий опыт исследований, связанных с тестированием и измерениями, в отношении любых двух пунктов одного и того же вопросника наблюдается сильная тенденция к более высокой корреляции ответов между собой, чем в отношении ответов на те же вопросы, но включенные в разные вопросники. Стокфорд и Бисселл [119] обнаружили, что даже в рамках одной анкеты ответы на смежные (соседние по положению) вопросы имеют более высокую корреляцию, чем ответы на вопросы, отдаленные друг от друга. Корреляция между измерениями, выполненными в один день, как правило, выше, чем между измерениями, сделанными в разные дни. В упомянутом панельном исследовании (Glock [41]) два интервью были проведены с интервалом в восемь месяцев. Увеличению корреляции внутри одного интервью и уменьшению корреляции тех же пунктов между обоими интервью способствовали изменения в составе интервьюеров. Неизбежные ошибки последних и неточности высказываний опрашиваемых при повторной идентификации данных первоначальных респондентов приводят к тому, что некоторые пары интервью на самом деле оказываются принадлежащими разным людям. Получаемая в итоге более высокая корреляция между X и данными последующего интервью означает, что регрессия от X к результатам этого интервью меньше, чем к результатам предварительного опроса, и поэтому различия между группами в последующем интервью окажутся большими, чем при предва-
рительном обследовании. Это приведет (даже в отсутствие эффекта в популяции) к ложному эффекту прироста показателей для тех, кто отнес себя к числу получивших воздействие, и снижению для тех, кто считал; что не получал воздействие. Подобный результат обычно ошибочно принимается за подтверждение гипотезы об эффекте X (более подробно см. Campbell, Clayton [14]).
Чтобы обойти этот ложный источник повышенной корреляции, принадлежность респондентов к группе, которой предъявляется X, можно устанавливать независимо от интервью или посредством отдельной промежуточной волны опросов. В последнем случае, даже если и имеется ошибка памяти относительно прохождения X, это не должно искусственно увеличивать корреляцию X с данными последующей проверки по сравнению с корреляцией между X и данными предварительного обследования. Вот как выглядит такой план:
Анализ ex post facto
Выражением «эксперимент ex post facto» обозначаются попытки имитировать экспериментальное исследование по плану 3 путем попарного уравнивания исходного состава групп на основании сведений об испытуемых до введения X. Сам метод и его название впервые ввел Чэпин (Chapin, Qeen [20]). Он же [19], а также Гринвуд [46] в дальнейшем широко его использовали. Хотя эти работы относятся скорее к области социологии, чем к педагогике, и хотя мы считаем, что этот анализ подчас приводит к ошибкам, здесь уместно рассмотреть его. Этот метод представляет собой одну из наиболее серьезных попыток приблизиться к квазиэкспериментальному исследованию.
В одном типичном исследовании ex post facto (Chapin [19, с. 99—124]) в роли X выступало школьное обучение (в частности, окончание средней школы), а в роли О — индивидуальные интервью, дававшие информацию об успехе в жизни и социальной адаптированности обследуемых 10 лет спустя. Уравнивание
групп производилось на основании школьных архивов (в аналогичных, но еще более слабых исследованиях факты о состоянии до воздействия брались из итоговых опросов). Из первоначальных данных следовало, что окончившие школу не только лучше преуспевали, но также имели более высокие отметки в 5—8 классах, лучшее окружение, были моложе, их родители занимали более высокие должности и т. д. Очевидно, эти предпосылки могли способствовать не только окончанию средней школы, но и дальнейшим успехам.
Добавило ли что-либо обучение в школе к лучшей стартовой позиции детей по сравнению с этими факторами? «Решение», предложенное Чэпином, состояло в изучении групп учеников, уравненных по всем этим факторам, но отличавшихся по признаку окончания школы. Введение очередного признака уравнивания сокращало итоговое различие между группами, которые подвергались и не подвергались воздействию, но, когда попарное уравнивание было завершено, различие все еще оставалось значимым. Из этого Чэпин заключил, хотя и осторожно, что среднее образование дало свой эффект. Изначальное число 2127 человек сократилось до 1194 (с ними удалось провести интервью, и о них сохранились нужные архивные записи). Уравнивание сократило число пригодных для использования случаев до 46, по 23 на группу окончивших и не окончивших школу —менее 4% опрошенных. Чэпин правильно отмечает, что 46 сопоставимых случаев лучше, чем 1194 несопоставимых, и подкрепляет это аргументами, аналогичными тем, которые мы приводили в пользу большей важности внутренней валидности по сравнению с внешней. Трагедия в том, что его 46 случаев все еще оставались несопоставимыми и, кроме того, даже если встать на его точку зрения, в сокращении данных не было необходимости.
Его уравнивание было недостаточным по двум причинам. Во-первых, попарное уравнивание приводит в действие механизм дифференциальной регрессии, который создает различия в результатах, имеющие то же направление, что и наблюдавшиеся Чэпином (см. замечания Р. Л. Торндайка [125], а также обсуждение проблемы уравнивания в плане 10). Направление псевдоэффекта, обусловленного регрессией показателей к
групповым средним после попарного уравнивания, в этом случае вполне однозначно, поскольку различия по факторам уравнивания для преуспевших и непреуспевших направлены в ту же сторону, что и различия между окончившими и не окончившими школу. Каждый признак, детерминирующий подверженность X, даже в отсутствие X детерминирует и О. Все переменные уравнивания коррелируют с X и О в одном и том же направлении. Хотя это и не обязательно должно иметь место по каждой переменной во всех исследованияхex post facto, тем не менее такая картина наблюдается в большинстве, если не во всех опубликованных примерах использования этого метода. Ошибки регрессии и сокращения числа случаев можно избежать, применяя современные статистические методы, которые позволяют избавиться от ошибки уравнивания в плане 10. Переменные уравнивания могли бы быть использованы как сопутствующие переменные в многомерном ковариационном анализе. Насколько мы можем судить, такой анализ показал бы отсутствие эффектов, оказавшихся якобы значимыми в исследовании, представленном Чэпином. Однако применение ковариационного анализа к подобным задачам подвергается критике.
Но имеется и второй, в сущности неустранимый, источник неэквивалентности групп в исследовании Чэпина. Гринвуд [46] называет его самоотбором испытуемых в группы, подвергающиеся и не подвергающиеся воздействию. Наличие X является закономерным результатом многочисленных предпосылок. Для выбывания из школы до ее окончания, как мы знаем, имеются бесчисленные причины, помимо тех шести факторов, по которым производилось уравнивание. Мы можем с большой уверенностью предположить, что большинство из них повлияло на последующий успех независимо от их действия через X. Это приведет к еще большей неэквивалентности групп, помимо той, которая вызвала ошибку регрессии. Даже проводя ковариационный анализ исходных данных и результатов О, мы можем интерпретировать наличие значимого эффекта X только после учета всех совместно действующих переменных уравнивания.
ЗАКЛЮЧИТЕЛЬНЫЕ ЗАМЕЧАНИЯ
Всякое справочное руководство представляет собой концентрированный текст, и дальнейшая его концентрация может ввести в заблуждение. Поэтому мы хотим предостеречь от соблазна использовать табл. 1, 2 и 3 в качестве сжатого эквивалента этого очерка. Их цель — упорядочить изложение и избавить его от излишних повторений.
Конкретные плюсы, минусы и вопросительные знаки постоянно ставились с оговорками и являлись лишь неточными обобщениями итогов соответствующего обсуждения. Для любой конкретной реализации каждого плана картина плюсов и минусов, скорее всего, будет отличаться от соответствующей строчки в таблице. Таблицы лучше всего использовать как канву для добросовестного анализа конкретных деталей эксперимента при его планировании. И конечно же, мы не собираемся подменять догмы одного-двух приемлемых планов эксперимента догмой тринадцати. Напротив, нам хотелось бы способствовать укреплению открытой, поисковой ориентации на разработку новых способов получения данных и выявление слабых сторон традиционных методик.
Подведем теперь основные итоги сказанному. В этой работе мы обсудили возможности, существующие в области построения или планирования эксперимента, и уделили особое внимание проблемам контроля посторонних переменных и угрозам валидности эксперимента. Мы проводили различие между внутренней и внешней валидностью, или возможностью обобщения результатов. Оценка качества 16 экспериментальных планов и их вариантов велась по восьми классам факторов внутренней и четырем — внешней валидности. Три плана были определены как доэкспериментальные и были использованы в первую очередь для иллюстрации факторов валидности, которые нужно контролировать. Три плана названы «истинными», десять планов — квазиэкспериментальными, то есть такими, в которых отсутствует оптимальный контроль, но которые стоит использовать в тех случаях, когда применение лучшего плана невозможно. При интерпретации результатов квазиэксперимента особенно важна проверка перечисленных
12 факторов валидности. На протяжении всей работы обращалось внимание на возможность творческого использования особенностей конкретной ситуации исследования при планировании конкретных испытаний каузальных гипотез.
ЛИТЕРАТУРА
1. A l l p o r t F. H. The influence of the group upon association and thought. J. exp. Psychol., 1920, 3, 159—182.
2. A n a s t a s i A n n e. Differential psychology. N. Y., Macmillan, 1958.
3. A n d e r s o n N. H. Test of a model for opinion change. J. abnorm. soc. Psychol., 1959, 59, 371—381.
4. B a r c h A. M., T r u m b o D., N a n g l e J. Social setting and conformity to a legal requirement. J. abnorm. soc. Psychol., 1957, 55, 396—398.
5. B o r i n g E. G. The nature and the history of experimental control. Amer. J. Psychol, 1954, 67, 573—589.
6. B r i m O. G. Family structure and sex role learning by children: A further analysis of Helen Koch's data. Sociometry, 1958, 21, 1—16.
7. B r o l y e r C. R., T h o r n d i k e E. L., W o o d y a r d Ella. A second study of mental discipline in high school studies. J. educ. Psychol., 1927, 18, 377—404.
8. B r o w n 1 e e K. A. Statistical theory and methodology in science and engineering. N. Y., Wiley, 1960.
9. B r u n s w i k E. Perception and the representative design of psychological experiments. Berkeley, Univ. of California Press, 1956.
10. C a m p b e l l D. T. Factors relevant to the validity of experiments in social settings. Psychol. Bull., 1957, 54, 297—312.
11. C a m p b e l l D. T. Methodological suggestions from a comparative psychology of knowledge processes. Inquiry, 1959, 2, 152—182.
12. C a m p b e l l D. T. Recommendations for APA test standards regarding construct, trait, or discriminant validity. Amer. Psychologist, 1960, 15, 546—553.
13. C a m p b e l l D. T., B o r u c h R. F. Making the Case for Randomised Assignment to treatments by Considering the Alternatives: Six Ways in which Quasi-Experimental evaluations in compensatory Education tend to underestimate effects. — In: Evaluation and experiment. Eds. by C. A. Bennett and A. A. Lumsdaine, Acad. press, 1975.
14. C a m p b e l l D. T., C l a y t o n K. N. Avoiding regression effects in panel studies of communication impact. Stud. pub. Commun., 1961, 3, 99—118.
15. C a m p b e l l D. T., F i s k e D. W. Convergent and discriminant validation by the multitrait-multimethod matrix. Psychol. Bull., 1959, 56, 81—105.
16. C a m p b e l l D. T., M c C o r m a c k T h e l m a H. Military experience and attitudes toward authority, Amer. J. Sociol., 1957, 62, 482—490.
17. C a n e V. R., H e i m A. W. The effects of repeated testing: III. Further experiments and general conclusions. Quart. J. exp. Psychol., 1950, 2, 182—195.
18. C a n t o r G. N. A note on a methodological error commonly committed in medical and psychological research. Amer. J. ment. Defic., 1956, 61, 17—18.
19. C h a p i n F. S. Experimental designs in sociological research. N. Y., Harper, 1947 (Rev. ed., 1955).
20. C h a p i n F. S., Q u e e n S. A. Research memorandum on social work in the depression. N. Y. Social Science Research Council. Bull. 39, 1937.
21. C h e r n o f f H., M o s e s L. E. Elementary decision theory. N. Y., Wiley, 1959.
22. C o c h r a n W. G., C o x Gertrude M. Experimental designs. N. Y, Wiley, 1957.
23. C o l l i e r R. M. The effect of propaganda upon attitude following a critical examination of the propaganda itself. J. soc. Psychol., 1944, 20, 3—17.
24. C o l l i e r R. O., Jr. Three types of randomization in a two-factor experiment. Minneapolis, Author, 1960.
25. C o r n f i e 1 d J., T u k e y J. W. Average values of mean squares in factorials. Ann. math. Statist., 1956, 27, 907—949.
26. C o x D. R. Some systematic experimental designs. Biometrika, 1951, 38, 312—323.
27. C o x D. R. The use of a concomitant variable in selecting an experimental design. Biometrika, 1957, 44, 150—158.
28. C o x D. R. Planning of experiments. N. Y., Wiley, 1958.
29. C r o o k M. N. The constancy of neuroticism scores and self-judgments of constancy. J. Psychol., 1937, 4, 27—34.
30. D e u t s c h M., Collins Mary E. Interracial housing: A psychological evaluation of a social experiment. Minneapolis, Univ of Minnesota Press, 1951.
31. D u n c a n C. P., O ' B r i e n R. B., M u r r a y D. C., D a v i s L., G i l l i l a n d A. R. Some information about a test of psychological misconceptions. J. gen. Psychol., 1957, 56, 257— 260.
32. E b b i n g h a u s H. Memory. N. Y., Teachers Coll., Columbia Univer., 1913 (Original: «Über das Gedächtnis», Leipzig, 1885).
33. E d w a r d s A. L. Experimental design in psychological research. N. Y, Rinehart, 1960.
34. F a r m e r E., B r o o k s R. C., C h a m b e r s E. G. A comparison of different shift systems in the glass trade. Rep. 24, Medical Research Council, Industrial Fatigue Research Board. London, His Majesty's Stationery Office, 1923.
35. F e l d t L. S. A comparison of the precision of three experimental designs employing a concomitant variable. Psychometrika, 1958, 23, 335—353.
36. F e r g u s o n G. A. Statistical analysis in psychology and education. N. Y., McGraw-Hill, 1959.
37. Ф и ш е р P. A. Статистические методы для исследователей. M., 1958.
38. F i s h e r R. A. The design of experiments. London, Oliver & Boyd, 1935.
39. F i s h e r R. A. The arrangement of field experiments. J. Min. Agriculture, 1926, 33, 503—513; also in: R. A. F i s h e r. Contributions to mathematical statistics. N. Y., Wiley, 1950.
40. G 1 i c k m a n S. E. Perseverative neural processes and consolidation of the memory trace. Psychol. Bull., 1961, 58, 218— 233.
41. G l o c k C. Y. Some applications of the panel method to the study of social change. — In: L a -
z a r s f e 1 d P. F., R o s e n b e r g M. (eds.). the language of social research. Glencoe, I11., Free Press, 1955, p. 242—249.
42. G 1 o c k C. Y. The effects of re-interviewing in panel research. Duplicated research report. Author, 1958.
43. G o o d C. V., S c a t e s D. E. Methods of research. N. Y., Appleton-Century-Crofts, 1954.
44. G r a n t D. A. Analysis-of-variance tests in the analysis and comparison of curves. Psychol. Bull, 1956, 53, 141—154.
45. G r e e n B. F., T u k e y J. W. Complex analyses of variance: General problems. Psychometrika, 1960, 25, 127—152.
46. G r e e n w o o d E. Experimental sociology: A study in method. N. Y., King's Crown Press, 1945.
47. G u e t z k o w H., K e l l y E. L., M c K e a c h i e W. J. An experimental comparison of recitation, discussion, and tutorial methods in college teaching. J. educ. Psychol., 1954, 45, 193—207.
48. H a m m o n d K. R. Representative vs. systematic design in clinical psychology. Psychol. Bull., 1954, 51, 150—159.
49. H a n s o n N. R. Patterns of discovery. Cambridge. Eng., Univ. Press, 1958.
50. H o v l a n d C. I., J a n i s I. L., K e l l e y H. H. Communication and persuasion. New Haven, Conn., Yale Univ. Press, 1953.
51. H o v l a r i d C. I., L u m s d a i n e A. A., S h e f f i e l d F. D. Experiments on mass communication. Princeton, Princeton Univ. Press, 1949.
52. Information and Education Division, U. S. War Department. Opinions about Negro infantry platoons in white companies of seven divisions. — In: N e w c o m b T. M., H a r t l e y E. L. (eds.). Readings in social psychology. N. Y., Holt, 1947, p. 542—546.
53. J o h n s o n P. O. Statistical methods in research. N. Y., Prentice-Hall, 1949.
54. J o h n s o n P. O., J a c k s o n R. W. Modern statistical methods: Descriptive and inductive. Chicago, Rand McNally, 1959.
55. J o s t A. Die Assoziationsfestigkeit in ihrer Abhängigkeit von der Verteilung der Widerholungen. Z. Psychol. Physiol. Sinnesorgane, 1897, 14, 436—472.
56. K a i s e r H. F. Directional statistical decisions. Psychol. Rev., 1960, 67, 160—167.
57. K a t z D., M a c c o b y N., M o r s e N a n c y C. Productivity, supervision, and morale in an office situation. Ann Arbor, Survey Research Center, Univ. of Michigan, 1951.
58. K e m p t h o r n e O. The design and analysis of experiments. N. Y., Wiley, 1952.
59. K e m p t h o r n e O. The randomization theory of statistical inference. J. Amer. Statist. Ass., 1955, 50, 946—967; 1956, 51, 651.
60. K e m p t h o r n e O. The design and analysis of experiments, with some reference to educational research, — In: C o l l i e r R. O.,
E 1 a m S. M. (eds.). Research design and analysis: The second annual Phi Delta Kappa symposium on educational research. Bloomington, Ind., Phi Delta Kappa, 1961, p. 97—133.
61. K e n d a l l M. G., B u c k l a n d W. R. A dictionary of statistical terms. London. Oliver & Boyd, 1957.
62. K e n n e d y J. L., U p h o f f H. F. Experiments on the nature of extra-sensory perception. III. The recording error criticisms of extra chance scores. J. ParapsychoL, 1939, 3, 226—245.
63. K e r r W. A. Experiments on the effect of music on factory production. Appl. Psychol. Monogr., 1945, 5.
64. L a n a R. E. Pretest-treatment interaction effects in attitudinal studies. Psychol. Bull., 1959, 56, 293—300 (a).
65. L a n a R. E. A further investigation of the pretest-treatment interaction effect. J. appl. Psychol, 1959, 43, 421—422. (b).
66. L a n a R. E., K i n g D. J. Learning factors as determiners of pretest sensitization. J. appl. Psychol., 1960, 44, 189—191.
67. L i n d q u i s t E. F. Statistical analysis in educational research. Boston, Houghton Mifflin, 1940.
68. L i n d q u i s t E. F. Design and analysis of experiments in psychology and education. Boston, Houghton Mifflin, 1953.
69. L i p s e t S. M., L a z a r s f e l d P. F., B a r t o n A. H., L i n z J. Tne psychology of voting: An analysis of political behavior— In: L i n d z e y G. (ed.). Handbook of social psychology. Cambridge, Mass., Addison-Wesley, 1954, p. 1124—1175.
70. L o r d F. M. The measurement of growth. Educ. psychol. Measmt, 1956, 16, 421—437.
71. L o r d F. M. Further problems in the measurement of growth. Educ. psychol. Measmt, 1958, 18, 437—451.
72. L u b i n A. The interpretation of significant interaction. Educ. psychol. Measmt, 1961, 21, 807—817.
73. M a x w e l l A. E. Experimental design in psychology and the medical sciences. London, Methuen, 1958.
74. M c C a l l W. A. How to experiment in education. N. Y., Macmillan, 1923.
75. M c N e m a r Q. A critical examination of the University of Iowa studies of environmental influences upon the I. Q. Psychol. Bull., 1940, 37, 63—92.
76. M c N e m a r Q. Psychological statistics. N. Y., Wiley, 1962.
77. M c N e m a r Q. On growth measurement. Educ. psychol. Measmt. 1958, 18, 47—55;
78. M e e h l P. E. Clinical versus statistical prediction. Minneapolis, Univ. of Minnesota Press, 1954.
79. M o n r o e W. S. General methods: Classroom experimentation. — In: G. M. W h i p p l e (ed.). Yearb. nat. Soc. Stud. Educ., 1938, 37, Part II, 319—327.
80. M o o d A. F. Introduction to the theory of statistics. N. Y., McGraw-Hill, 1950.
81. M o o r e H. T. The comparative influence of majority and expert opinion. Amer. J. Psychol., 1921, 32, 16—20.
82. M o r s e Nancy C., R e i m e r E. The experimental change of a major organizational variable. J. abnorm. soc. Psychol., 1956, 52, 120—129.
83. M y e r s J. L. On the interaction of two scaled variables. Psychol, Bull., 1959, 56, 384—391.
84. N e w c o m b T. M. Personality and social change. N. Y., Dryden, 1943.
85. N e y m a n J. Indeterminism in science and new demands on statisticians. J. Amer. Statist. Ass., 1960, 55, 625—639.
86. N u n n a l l y J. The place of statistics in psychology. Educ. psychol Measmt, 1960, 20, 641—650.
87. P a g e E. B. Teacher comments and student performance: A seventy-four classroom experiment in school motivation. J. educ. Psychol., 1958, 49, 173—181.
88. P e a r s o n H. C. Experimental studies in the teaching of spelling. Teachers Coll. Rec., 1912, 13, 37—66.
89. P i e r s Ellen V. Effects of instruction on teacher attitudes: Extended control-group design. Unpublished doctoral dissertation, George Peabody Coll., 1954. Abstract in: Bull. Maritime Psychol. Ass., 1955, 53—56.
90. P o p p e r K. R. The logic of scientific discovery. N. Y., Basic Books, 1959.
91. R a n k i n R. E., C a m p b e l l D. T. Galvanic skin response to Negro and white experimenters. J. abnorm. soc. Psychol, 1955, 51, 30—33.
92. R e e d J. C. Some effects of short term training in reading under conditions of controlled motivation. J. educ. Psychol., 1956, 47, 257—264.
93. R o g e r s C. R., D y m o n d Rosalind F. Psychotherapy and personality change. Chicago, Univ. of Chicago Press, 1954.
94. R o s e n t h a l R. Research on experimenter bias. Paper read at Amer. Psychol. Ass., Cincinnati, Sept., 1959.
95. R o y S. N., G n a n a d e s i k a n R. Some contributions to ANOVA in one or more dimensions: I and II. Ann. Math. Statist., 1959, 30, 304—317, 318—340.
96. R o z e b o o m W. W. The fallacy of the null-hypothesis significance test. Psychol. Bull., 1960, 57, 416—428.
97. S a n f o r d F. H., H e m p h i l l J. K. An evaluation of a brief course in psychology at the U. S. Naval Academy. Educ. psychol. Measmt, 1952, 12, 194—216.
98. S c h e f f é H. Alternative models for the analysis of variance. Ann. math. Statist., 1956, 27, 251—271.
99. S e l l t i z Claire, J a h o d a Marie, D e u t s c h M., C o o k S. W. Research methods in social relations, N. Y., Holt-Dryden, 1959.
100. S i e g e l Alberta E., S i e g e l S. Reference groups, membership groups, and attitude change. J. abnorm. soc. Psychol., 1957, 55, 360—364.
101. S i m o n H. A. Models of man. N. Y., Wiley, 1957.
102. S m i t h H. L., H y m a n H. The biasing effect of interviewer expectations on survey results. Publ. opin. Quart., 1950, 14, 491—506.
103. S o b o l M. G. Panel mortality and panel bias. J. Amer. Statist. Ass., 1959, 54, 52—68.
104. S o l o m o n R. L. An extension of control group design. Psychol. Bull., 1949, 46, 137—150.
105. S o r o k i n P. A. An experimental study of efficiency of work under various specified conditions. Amer, J. Sociol., 1930. 35, 765—782.
106. S t a n l e y J. C. Statistical analysis of scores from counterbalanced tests. J. exp. Educ., 1955, 23, 187—207.
107. S t a n l e y J. C. Fixed, random, and mixed models in the analysis of variance as special cases of finite model III. Psychol. Rep., 1956, 2, 369.
108. S t a n l e y J. C. Controlled experimentation in the classroom. J. exp. Educ., 1957, 25, 195—201. (a)
109. S t a n l e y J. C. Research methods: Experimental design. Rev. educ. Res., 1957, 27, 449—459. (b)
110. S t a n l e y J. C. Interactions of organisms with experimental variables as a key to the integration of organismic and variable-manipulating research. — In: H u d d l e s t o n Edith M. (ed.). Yearb. Nat. Counc. Measmt used in Educ., 1960, 7—13.
111. S t a n l e y J. C. Analysis of a doubly nested design. Educ. psychol. Measmt, 1961, 21, 831—837. (a)
112. S t a n l e y J. C. Studying status vs. manipulating variables — In: C o l l i e r R. O., E l a m S. M. (eds.). Research design and analysis: The second Phi Delta Kappa symposium on educational research. Bloomington, Ind.: Phi Delta Kappa, 1961, p. 173—208. (b)
113. S t a n l e y J. C. Analysis of unreplicated three-way classifications, with applications to rater bias and trait independence. Psychometrika, 1961, 26, 205—220. (c)
114. S t a n l e y J. C. Analysis-of-variance principles applied to the grading of essay tests. J. exp. Educ., 1962, 30, 279—283.
115. S t a n l e y J. C., B e e m a n Ellen Y. Interaction of major field of study with kind of test. Psychol Rep., 1956, 2, 333—336.
116. S t a n l e y J. C., W i l e y D. E. Development and analysis of experimental designs for ratings. Madison, Wisconsin, Authors, 1962.
117. S t a n t o n F., B a k e r K. H. Interviewer-bias and the recall of incompletely learned materials. Sociometry, 1942, 5, 123—134.
118. S t a r Shirley A., H u g h e s Helen M. Report on an educational campaign: The Cincinnati plan for the United Nations. Amer. J. Social., 1950, 55, 389—400.
119. S t o c k f o r d L., B i s s e l l H. W. Factors involved in establishing a merit-rating scale. Personnel, 1949, 26, 94—116.
120. S t o u f f e r S. A. (Ed.) The American soldier. Princeton, Princeton Univ. Press, 1949, Vols. I, II.
121. S t o u f f e r S. A. Some observations on study design. Amer. J. Social, 1950, 55, 355—361.
122. T h i s t l e t h w a i t e D. L, C a m p b e l l D. T. Regression-discontinuity analysis: An alternative to the ex post facto experiment. J. educ. Psychol, 1960, 51, 309—317.
123. T h o r n d i k e E. L., W o o d w o r t h R. S. The influence of improvement in one mental function upon the efficiency of other functions. Psychol Rev., 1901, 8, 247—261, 384—395, 553—564.
124. T h o r n d i k e E. L, M c C a l l W. A., C h a p m a n J. C. Ventilation in relation to mental work. Teach. Coll Contr. Educ., 1916, 78.
125. T h o r n d i k e R. L. Regression fallacies in the matched groups experiment. Psychometrika, 1942, 7, 85—102.
126. U n d e r w o o d B. J. Experimental psychology. N. Y., Appleton-Century-Crofts, 1949.
127. U n d e r w o o d B. J. An analysis of the methodology used to investigate thinking behavior. Paper read at New York Univ. Conf. on Human Problem Solving. April, 1954. (cm. также H o v l a n d C. I., K e n d l e r H. H. The New York University Conference on Human Problem Solving. Amer. Psychologist, 1955, 10, 64—68.)
128. U n d e r w o o d B. J. Interference and forgetting. Psychol Rev., 1957, 64, 49—60. (a)
129. U n d e r w o o d B. J. Psychological research. N. Y., Apple-ton-Century-Crofts, 1957. (b)
130. U n d e r w o o d B. J., R i c h a r d s o n J. Studies of distributed practice. XVIII. The influence of meaningfulness and intralist similarity of serial nonsense lists. J. exp. Psychol., 1958, 56, 213—219.
131. W a t s o n R. I. Psychology of the child. N. Y., Wiley, 1959.
132. W i l k M. B., K e m p t h o r n e O. Fixed, mixed, and random models. J. Amer. Statist. Ass., 1955, 50, 1144—1167; Corrigenda, J. Amer. Statist. Ass., 1956, 51, 652.
133. W i l k M. B., K e m p t h o r n e O. Some aspects of the analysis of factorial experiments in a completely randomized design. Ann. Math. Statist.,