Типы качественного оценивания
Племена, правительства и добровольные объединения на протяжении веков учреждали новые программы, которые затем приостанавливались, поддерживались или распространялись. С точки зрения социальной эволюции (Campbell [15]) такие судьбы программ являются оцениваниями и процессы принятия решений, определяющие судьбу программы, составляют механизмы оценивания. Некоторые из этих механизмов связаны с выживанием организации — своего рода социально-эволюционным естественным отбором. Но гораздо чаще эти решения — и, конечно, заимствование решений — включают в себя людские суждения, которые представляют ценности, необходимые для потенциального выживания. Эти процессы замещающих суждений, вероятно, имеют ценность, приближающуюся к адаптивной, так как они сами являются продуктами биологического и социального естественного отбора.
Сырьем для таких оценок служит накопленный опыт участников, преобразованный в институциональное решение посредством некоторого формального или неформального политического процесса. Опыт, накопленный участником, следует трактовать как наиболее примитивное и распространенное качественное знание, имеющее отношение к оцениванию программ. Поскольку память о прошлом непрерывно модицифируется под влиянием наличного контекста и более позднего опыта, особое
значение приобретает зарегистрированный опыт участников — например, посредством записей и учета голосов. В случае исследования действия имеется ряд других релевантных групп непрофессиональных наблюдателей, лиц, находящихся в удобной для наблюдения позиции, что не характерно для иных социальных ролей. Сюда входит руководящий персонал программы и те группы граждан, которые находятся в постоянном контакте с лицами, испытывающими на себе действие программы.
Качественная оценка, производимая экспертами по оцениванию (специалистами в области социальных наук), может принимать многочисленные формы. Она может содержать в себе собственный качественный опыт социального исследователя, полученный, например, на какой-то единовременной выборке при обследовании на месте, или весь опыт целостного социального действия, включая предпрограммный период, как при включенном наблюдении, так и при наблюдении со стороны. Но еще более общим для качественного подхода в социальной науке является участие эксперта в регистрации и сопоставлении опыта участников путем интервью с информантом, обследования мнений или интервью по поводу опыта, проводившихся Комитетом по изучению общественных взаимоотношений.
В политических процессах, в ходе которых группы трансформируют сохранившийся в памяти участников опыт в оценочные решения, может применяться голосование — один из способов квантификации качественного опыта в целях объединения субъективных суждений. Точно так же роль социального исследователя в сопоставлении опыта участников может включать и квантификацию, как это имеет место при кодировании свободных интервью, при подсчете числа участников, в целом оценивающих программу негативно, или в случае предъявления оценочных шкал и структурированных вопросов, по которым участники могут квантифицировать свой собственный субъективный опыт. На самом деле многое из того, что мы считаем экспериментальными и количественными показателями, зафиксированными при предварительном и итоговом тестировании, как в экспериментальной, так и в контрольной группе, является фактически квантификацией субъективных
суждений. Социальный исследователь, сторонник качественного подхода, может, кроме того, прибегнуть к количественной обработке при регистрации или суммировании своего собственного непосредственного опыта. Ниже я попытаюсь провести различие между качественным и количественным сравнением качественного опыта, однако и то и другое будет рассматриваться в рамках общей категории качественного.
Оценивание процесса предлагалось в качестве дополнения (Freeman, Sherwood [40]) или альтернативы к количественному оцениванию экспериментальных программ (см., например, Weiss, Rein [94], Guttentag [48, 49]). Этот подход в резкой форме представлен в одном фундаментальном положении: «Причина, по которой мы требуем использования «контрольных групп» в экспериментальной науке, состоит в том, что изучаемые процессы протекают, согласно предположению, в знаменитом «черном ящике». Так что мы не можем наблюдать крайне важное внутреннее промежуточное состояние. Мы можем лишь контролировать вход и измерять выход. Но там, где возможно наблюдать промежуточные звенья — сам процесс, — можно обойтись без грубой экспериментальной модели» (Bennis [6, с. 231]).
На практике оценивание процесса предполагает качественное рассмотрение конкретных событий, имеющих место при осуществлении программы, включая типичный опыт участников. Оценивание процесса может производиться самим персоналом, занятым в осуществлении программы, или специалистами по оцениванию процесса, занятыми только этой работой, или, возможно, путем привлечения участников для дневниковой регистрации событий. Типичный продукт такой работы может иметь форму литературно-исторических описаний опыта, связанного с программой. (Каплан [54] говорил о них как об экстенсивных данных, составляющих основу его суммарной оценки моделей города. См. также Gilbert, Specht [43].) Хотя до сих пор нет классических примеров и критических реакций, мы можем быть уверены, что предсказанное Беннисом непосредственное восприятие каузальных связей отсутствует. Однако хорошо спланированное и добросовестно выполненное описание процесса представляется желательным компонентом в оценивании любой программы как ее пере-
крестная валидизация и своего рода критика процесса измерения и экспериментальных планов. (Задание, получаемое обычно оценщиком процесса, должно быть явно сформулировано шире, чтобы оно охватывало эти последние виды деятельности.)
Если бы нам предстояло стать свидетелями широко распространенной практики оценивания процессов и если бы оценщики процессов должны были критиковать друг друга и спорить по поводу измерений эффектов программы, их обоюдный критицизм почти непременно заставил бы их заново изобретать некоторые черты экспериментального плана. Иными словами, ощущалась бы потребность в регистрации сходных процессов, предшествовавших инновации, и в регистрации процессов, которые протекали в сопоставимых социальных образованиях, переживавших те же исторические события, что и изучаемые, за исключением предусмотренных программой. Экспериментальный план может быть отделен от квантификации. Неопределенность вывода, на снижение которой рассчитан экспериментальный план, существует для качественной оценки в той же мере, что и для количественной.
От суммативного оценивания, представляющего собой количественное измерение воздействия, оказываемого программой, которое является целью типичного количественного оценивания экспериментальной программы, отличается формативное оценивание. Формативное оценивание связано с постоянным контролем за новой программой, спланированным с целью обеспечивать безотлагательные пересмотры тех аспектов программы, которые оказываются «неработающими» или явно неэффективными. Хотя и не исключено, что какая-то часть этих оценок могла бы быть осуществлена с помощью количественных экспериментов, связанные с ними усложненность, необходимость немедленного реагирования и тот факт, что многие ошибки планирования можно заметить невооруженным глазом, обусловливают то, что формативное оценивание становится по преимуществу делом обыденного знания. Это, несомненно, желательное введение к количественному экспериментированию или к полному оцениванию процесса, поскольку эти дорогостоящие процедуры не следует выполнять в отношении программ, которые те, кто осуществляют эти програм-
мы, не желали бы видеть вновь воспроизведенными и распространенными в том же виде. Там, где это возможно, такая формативная «доводка» программы должна предшествовать ее оцениванию. Необходимость формативного оценивания требует внимания и учета. В противном случае возможна реализация программы, спроектированной только на бумаге, и при этом можно не увидеть вполне доступные качественные данные, свидетельствующие о неудаче реализации.
Системный анализ представляет собой широко рекомендуемую альтернативу и дополнение к количественному экспериментальному подходу (Baker [1, 2]; Schulberg, Baker [80]; Schulberg, Sheldon, Baker [81]; Weiss, Rein [94]). В то время как в биологии и инженерном деле (см., например, Jones [53]) он является в высшей мере квалифицированным использованием экспериментальных результатов, в оценивании социальных программ он представляет собой пример качественного подхода, для которого характерны внимание к организационному функционированию, связь с другими системами и пристальное внимание к процессам, включенным в программу. Тем самым ему удается избежать узости и близорукости многих количественных оценок. В ожидании дня, когда в нашем распоряжении окажется какой-то исчерпывающий системный анализ новых программ и их воздействий, я не стану пытаться отграничить этот подход от оценивания процессов или методов полевой работы, которые будут описаны ниже, и повторю, что он представляется ценным приложением к количественным оценкам.
Использование антропологов в роли оценщиков программ было предпринято в программе национальных институтов образования «Экспериментальные школы». Хотя это и не приводит к полному отказу от количественного измерения, антропологическая полевая работа представляет собой одну из главных исследовательских затрат в довольно дорого обходящихся оцениваниях программ. Антропологи, которых воспринимали как постоянных жителей, работали также по оценке эффективности некоторых «моделей городов».
До Малиновского большинство антропологических исследований представляло собой собирание фактов, отражающих опыт информантов, и часто ставило своей
целью реконструировать картину местной культуры до контакта с европейцами. Со времен Малиновского обычной целью стало описание сегодняшней живой культуры какого-то определенного поселения, безотносительно к ее историческим истокам или культурной типичности1. В связи с этим антрополога стали рассматривать как непосредственного наблюдателя, участвующего в коллективной жизни данного сообщества настолько полно, насколько это возможно, основательно изучающего местный язык и живущего жизнью сообщества 24 часа в сутки в течение ряда лет. Именно эта последняя антропологическая модель преобладала до сих пор в оценивании программ. В частности, большое влияние имело обследование управления школой с использованием метода внешнего наблюдения (Wolcott [97]), хотя это исследование и не было само по себе сосредоточено на оценивании какой-либо программы. В качестве моделей использовались также методы полевой работы, применяемые социологами, придерживающимися качественного подхода (Nelson, Giannotta [68]).
В настоящее время целый ряд примеров этого подхода содержится в программе «Экспериментальные школы» (Nelson, Reynolds, French, Giannotta [69]). Существует также методологическая работа, связанная с практикой подобного рода (Everhart [38]). Через несколько лет мы освоим этот опыт и будем в состоянии более точно оценить этот подход. Уже сейчас я взялся бы утверждать, что эти материалы создают основу, которая поможет интерпретировать количественные оценки, стоит только этим последним появиться на свет. В них мы найдем богатое деталями повествование о том, как протекали события и что «было не так» и потому могло иногда привести к игнорированию количественного оценивания как не заслуживающего внимания, поскольку, в конечном счете, не наступило никаких ре-
_____________________________________________________________________________________
1 Ряд специальных методологических проблем антропологического полевого исследования и взаимной связи антропологии и психологии рассматриваетсяв: C a m p b e l l D. T. The Mutual Methodologycal Relevance of Anthropology and Psychology. — In: Psychological Anthropology. Ed. by F. K. L. H s u. Homewood, I11., The Dorsey press 1961; L e V i n e R. A., C a m p b e l l D. T Ethnocentrism. Theories of Conflict, Ethnic Attitudes and Group Behavior. N. Y., Wiley, 1972. — Прим. ред.
альных изменений, или из-за того, что одновременно вмешивалось такое множество более могущественных сил, что воздействие экспериментальной программы не имело никаких шансов проявиться. Но мне, тем не менее, кажется, что эти этнографические описания не могут быть приняты сами по себе в качестве свидетельств в пользу эффективности программы и заменить собой адекватную количественную экспериментальную оценку.
Антропологи, о которых идет речь, не имели никакого опыта изучения каких бы то ни было школьных систем. Они были привлечены уже после того (или в тот самый момент), как программа была запущена, и им неизбежно приходится изучать смесь старого и нового в условиях, где легко по ошибке приписать программе результаты, которые имели бы место в любом случае. Делу можно было бы помочь, если бы наши антропологи уделяли половину своего времени изучению какой-нибудь другой школы, во всем похожей на исследуемую, с тем лишь исключением, что в ней отсутствует новая экспериментальная программа. Это, очевидно, не было предусмотрено. Польза была бы и в том случае, если бы антрополог стал изучать данную школу за год или два до начала программы. (Тут трудно что-либо планировать, но мы могли бы рассматривать ныне ведущиеся энтографические описания школ как исследования, предшествующие будущим инновациям.)
Всякое знание является сравнительным, каким бы абсолютным оно ни казалось феноменально, и антрополог занимает обычно очень слабые позиции для осуществления валидных сравнений, поскольку его собственный исследовательский опыт и знания о школах, полученные им из вторых рук, предполагают столь различные подходы и точки зрения, что остаются лишь незначительные возможности для сравнений. Позиция непрофессиональных участников программы фактически более выгодна, чем позиция антропологов, как мы покажем ниже. В исследованиях в Миннеаполисе (Nelson et al. [68], [69]) несколько антропологов, работавшие с разными школами, имели преимущества ввиду возможности сравнивать свои записи.
Методы антропологического и социологического полевого наблюдения в начале их применения не были
сосредоточены на каузальном воздействии какого-то единичного фактора или нового института. Напротив, их цель заключалась в том, чтобы описывать вещи, как они есть, без обращения к причинам. В самом деле, методологическая ориентация часто предполагает отрицание релевантности или возможности установления каузальных связей. Принимая заказ на оценивание влияний и эффективности программы, антрополог или социолог утрачивает в значительной мере свою свободу и возвращается в более традиционную научную сферу каузального вывода. Уже приступив к работе, он осознает неопределенность этой задачи и в конце концов часто может действительно оправдывать свои усилия той ценностью, какую могут иметь для антропологии и педагогики подробные этнографические описания школ, оставив без внимания центральный вопрос о воздействии программы. Каким бы испытанным средством в достижении обычных для них целей ни являлись методы полевого наблюдения, они пока не прошли проверки в оценивании программ.
Исследования надежности или валидности полевого наблюдения, насколько я знаю, отсутствуют. Я склонен думать, что если бы двух этнографов послали исследовать одну и ту же культуру или двух социологов отправили бы в качестве включенных наблюдателей на одну и ту же фабрику, то их результаты в значительной мере совпадали бы. Но когда вы предлагаете такие исследования, то оказывается, что «качественного» социального исследователя больше интересуют различия, чем совпадения, и он не стал бы непременно ожидать сходных результатов, потому что за каждым наблюдателем признается уникальный угол зрения или потому, что считается, что не существует никакой социальной реальности, кроме той, которая сконструирована наблюдателем. С таким взглядом на многообразие результатов вряд ли сможет примириться какое-нибудь правительственное учреждение или добровольное объединение, пытающееся принять решение о расширении или завершении навой программы. Степень, в которой два независимо друг от друга работающих антрополога приходят к согласию относительно описания той или иной институциональной программы, в скором времени будет, по всей вероятности, подвергаться проверке. Что
касается меня, то я полагаю, что существует вполне достоверная социальная реальность, которая и должна быть описана, и поэтому будет обнаружено довольно значительное совпадение результатов. Но, разумеется, дадут о себе знать и индивидуальные особенности антропологов (Campbell [14]), и я не уверен, что согласие будет простираться до малоконтрастных деталей, связанных с эффективностью программы.
Однако такая возможность повторения нуждается в демонстрации не только в случае качественных оценок. Количественные экспериментальные исследования предполагают такое множество решений в отношении способа осуществления программы, выбора мер и их формулировок, объединения данных в процессе анализа и т. п., что они тоже должны дублировать друг друга. Наши обширные программы оценивания должны осуществляться не менее чем в два приема и независимо друг от друга. Когда результаты совпадают, ясно, какое решение следует принять. Когда же они не совпадают, мы тем самым получаем предупреждение об ограниченной общности полученных данных. Если качественная и количественная оценки были бы осуществлены в отношении одних и тех же программ, я склонен ожидать, что они совпадут. Если же этого не произошло, нам, как мне кажется, следует признать возможным, что имела место ошибка в количественных расчетах. (Я думаю, что именно так обстояло дело при первом основном оценивании программ компенсаторного начального обучения, хотя, насколько мне известно, качественные оценки в этом случае никогда систематически не собирались и не суммировались (см. Campbell, Erlebacher [24].)
К качественной оценке программ следовало бы привлекать и историков. Специалисты в области политических наук уже привлечены к этой работе (см., например, Greenstone, Peterson [47]; впрочем, они избегают оценивать воздействие). Если качественной оценке программ суждено стать обычном делом, методологические основы гуманитарных исследований должны быть перестроены и пересмотрены. Самым распространенным методологическим комплексом приемов является «изучение отдельных случаев», объединяющее все доступные данные, поступающие от информантов, из периодики, документов, архивов и непосредственных на-
блюдений. Существуют такие стандарты регистрации данных, до которых доросли пока что не все исследования по оцениванию процессов и этнографические описания программ. В условиях полевой антропологической и социологической работы существует требование ежедневного ведения полевых записей, которые затем используются для проверки попыток обобщения. На факультете антропологии в Беркли Лови и Крёбер требовали обычно, чтобы все мифы и истории были записаны отдельно по меньшей мере от двух информантов. В отчете, где Гринстоун и Петерсон бойко перечисляют имена и события, восстанавливая незаписанную историю программы, они считают возможным утверждать следующее: «Во всех случаях отчеты о поведении участника основываются... на свидетельствах, полученных от нескольких действующих лиц, которые высказываются о нем с разных точек зрения» [47, с. 7]. Подобное требование способствует, конечно, повышению воспроизводимости исследования.
В прежних своих работах [12, 13, 19] я непочтительно отзывался о единичном случае, единичной совокупности условий, одномоментном исследовании случаев не из-за их качественной природы, а вследствие того, что такая ограниченность точек наблюдения сочеталась в них с избытком возможных каузальных концепций, что обманчивое совершенство их вида было почти очевидным. В недавней донкихотской и двойственной статье «,,Степени свободы“ и изучение отдельных случаев»1я покаялся в своих заблуждениях, напомнив себе, что подобные исследования регулярно вступают в противоречие с первоначальными ожиданиями их авторов и для таких скептиков, как я, являются убедительными и информативными до такой степени, которую мой прямолинейный негативизм не допускает. Мое предположительное решение состоит в том, что в пространстве многосмысловых атрибутов должно существовать множество «степеней свободы», что придает подобному исследованию силу тестируемого и проверяемого, чего я раньше не допускал. Возможно, что результаты конкретных исследований случаев при оценке программ смогут, в конце концов, убедить меня в том, что такие исследо-
_____________________________________________________________________________
1 См. перевод этой статьи в данной книге (с. 278).
вания в состоянии оценивать программы. В частности, они, возможно, могут валидно обнаруживать неожиданные последствия, упущенные при более структурированных подходах. Я жду, однако, конкретных примеров. (Другие соображения по поводу антропологического метода, затрагивающие иногда квантификацию, но, как правило, с уважением относящиеся к качественному подходу, изложены в работах: Campbell [10, 12, 14, 21]; Campbell, LeVine [25]; Werner, Campbell [95].)
Все увеличивающееся со временем знакомство с событиями и людьми дает даже стороннику количественного подхода качественное знание, которое помогает ему обнаруживать в своих данных неверные истолкования, ошибки и подтасовки. В случае, когда один и тот же человек запускает программу воздействий, собирает данные и анализирует результаты, качественные наблюдения могут в значительной мере подкреплять количественные результаты. В современном крупномасштабном количественном оценивании программ эта опора на знакомство с материалом может быть утрачена — в значительной мере или полностью. В худшем случае сбор данных перед началом воздействия, руководство программой, сбор итоговых данных и анализ результатов производят четыре разные группы по четырем разным контрактам. Разделение труда в рамках проекта вызывает подобное разъединение даже в том случае, если исследования ведутся по одному контракту. Убеждение в том, что внешние оценщики более объективны, служит еще одним препятствием для заинтересованности в качественном опыте. Несомненно, что цифры, выдаваемые вычислительной машиной, часто создают псевдонаучный фасад, для которого использованы принятые на веру количественные данные, не имеющие на деле валидного качественного основания. Этот пробел могли бы заполнить занятые в работе над проектом антрополог, социолог или историк, если бы перед ними была поставлена задача обыденного ознакомления с общим контекстом, включающим социальные взаимодействия, которые приводят к таким количественным результатам.