Этапы развития оценочных исследований
Оценка программы означает осмысление системы в целом с её подсистемами и контекстами. Оценивающее лицо сначала должно рассмотреть саму возможность оценки — иными словами, проанализировать систему принятия решений, чтобы проверить, достаточно ли понятна программа, достаточно четко ли сформулированы ее цели, и в достаточной ли степени заинтересованы и настроены на сотрудничество руководство, персонал и клиентура, для того чтобы оценка стала возможной и потенциально полезной. Если перспективы проведения оценки представляются благоприятными, то оценивающее лицо должно четко определить задачи оценки. Помимо очевидных задач оценки необходимо выявлять скрытые намерения руководства и персонала — например, желание воспользоваться исследованием, чтобы «прикрыть» неуспех программы, либо аннулировать или отсрочить нежелательную программу. Затем оценивающий должен сформулировать программу, т. е. идентифицировать ее компоненты. К примеру, программа клинике по оказанию юридической помощи (legal aid clinic) должна включать в себя информирование потенциальных клиентов, предоставление юридических рекомендаций, направление клиентов в соответствующие агентства, просвещение потребителей и представление интересов клиентов в суде. Каждый из этих компонентов должен быть протестирован в процессе оценки. Важным этапом является спецификация целей и ожидаемых эффектов.
Оценивающий должен учитывать не только цели, сформулированные руководством и персоналом, но и другие возможные последствия. Проблема нередко заключается в том, чтобы гарантировать конкретизацию целей: насколько должны увеличиться заработки, на сколько процентов должна повыситься успеваемость в школе или количество оправдательных судебных приговоров. В противном случае результаты трудно измерить точно. Кроме того, помимо результатов необходимо уточнить переменные-прецеденты (входные данные) — те факторы, которые обеспечивают контекст программы и налагают на нее ограничения. Лица, проводящие оценку, выявляют определяющие особенности организации или сообщества по мере того, как те вовлекаются в программу, социальный класс клиентуры, общую атмосферу в организации и характер проблем, с которыми клиенты обращаются за услугами. Кроме того, оценивающий должен уточнить промежуточные переменные — подготовку персонала, реализующего программу, и предполагаемые взаимосвязи между различными компонентами или мероприятиями, входящими в состав программы. На всех этих этапах важную роль играет анализ программных документов и интервью с персоналом и представителями сообщества. Все эти мероприятия помогают определить предмет измерения.
Далее необходимо определить методы измерения и учесть проблемы, сопряженные с проведением измерений, которые будут использованы в оценке. Сначала нужно отобрать валидные методы измерения переменных, выделенных в ходе анализа. Так, например, социальный класс клиентов может быть одной из переменных-прецедентов, однако существует несколько способов оценки-принадлежности к социальному классу, и приходится делать обоснованный выбор между этими методами. Аналогичным образом необходимо тщательно отобрать измеряемые показатели желаемого результата, например, увеличение дохода, более активное участие в жизни сообщества, большая уверенность в себе или уменьшение числа случаев госпитализации. Как мы уже отмечали в главе, посвященной обследованию, определение критериев эффективности является решающим; многие исследования споткнулись на критериальной проблеме. Выбор критериев — нелегкое дело. Возьмем, к примеру, разницу между либеральным и консервативным политическим климатом. Архиконсервативный администратор может желать лишь доказательств того, что прохождение программы позволяет снизить расходы на выплаты людям пособий, тогда как архилиберал может быть заинтересован в счастье и социальной активности клиентов. Специалист, занимающийся оценкой, также должен учитывать надежность и валидность всех показателей. Клинические и социальные психологи разработали множество тестов, шкал установок и других методов измерения, могущих быть использованными при оценке.
По завершении всех этих этапов необходимо разработать схему исследования. Цель этого этапа заключается в том, чтобы получить надежные выводы,
позволяющие говорить о взаимосвязи программы с наблюдаемыми результатами. Как упоминалось выше, экспериментальная схема суммирующей оценки требует предварительного и итогового тестирования групп, сформированных путем#произвольного распределения. Произвольность важна для того, чтобы эксперимент удовлетворял статистическим допущениям независимости, т. е. гарантировал, что как измеряемые, так и неучтенные переменные равномерно распределены по обеим группам. Произвольному распределению во многих ситуациях препятствуют многочисленные административные и этические проблемы, а потому для таких случаев Кук и Кэмпбелл (Cook & Campbell, 1979) предусматривают квазиэкспериментальные схемы.
Как уже упоминалось выше в отношении исследований в целом, в ходе оценочных исследований приходится учитывать две основные проблемы. Кэмпбелл сформулировал их в своей классической статье, посвященной оценке и озаглавленной «Реформы как эксперименты» {Reforms as Experiments, Campbell, 1969). Внутренняя валидность связана с ответом на следующий вопрос: можем ли мы заключить, что программа действительно произвела желаемые эффекты? Единственный способ ответить на этот вопрос — максимально тщательно проанализировать иные возможные, не связанные с программой, причины полученных результатов. Например, если программа проводится в школе, то одинаков ли соци-оэкономический статус детей, участвующих в экспериментальной программе, и детей из группы сравнения? Повлияло ли на них повышенное внимание, оказанное в экспериментальной программе? Оказал ли влияние на результаты выход отдельных детей из программы? Имели ли место такие статистические феномены, как регрессия к среднему (тенденция крайних показателей приближаться к средним)? Особо важной проблемой является рассмотренный ранее эффект плацебо. Кэмпбелл приводит длинный перечень возможностей, подлежащих учету при выявлении альтернативных объяснений получаемых результатов; и оценивающий должен заблаговременно принять во внимание эти возможности и исключить как можно большее их число.
Кроме того, как упоминалось выше в связи с исследованиями в психотерапии, под внешней валидностью понимается возможность обобщения полученных дранных на различные условия, категории людей и временные периоды. Во избежание проблем состав испытуемых должен быть максимально репрезентативным по отношению к популяции, являющейся объектом генерализации.
Сам по себе эксперимент должен проводиться естественным образом в типичной обстановке, с тем чтобы можно было использовать ту же программу повсеместно. Если эксперимент удается воспроизвести в нескольких различных группах и средах, то результаты становятся еще более убедительными. Одно из критических замечаний в адрес лабораторных исследований заключается в том, что они не распространяются на полевые условия. Однако Андерсон, Линдсей и Бушман (Anderson, Lindsay & Bushman,
1999) утверждают (подкрепляя слова свидетельствами, полученными в ходе многочисленных исследований), что социально-психологические эксперименты обладают хорошей внешней валидностыо и не являются исключительно тривиальными. Безусловно, разработка схемы должна также сопровождаться тщательным планированием и консультированием, касающимся обработки и анализа данных. Так как в исследованиях результатов часто приходится оперировать многими переменными, нередко возникает необходимость в многомерном анализе (Spector, 1981); это означает, что должны быть применены статистические процедуры для определения влияния всех наиболее характерных особенностей программы на различные показатели результата.
На заключительном этапе оценки после проведения исследования и получения благоприятных результатов необходимо обеспечить утилизацию и распространение данных. К сожалению, специалисты, занимающиеся оценкой, часто бывают разочарованы весьма скромным влиянием своих напряженных усилий. Важной причиной столь низкой утилизации является неспособность привлечь к разработке исследования руководство учреждений и группы планирования. Во избежание этой проблемы оценщикам следует с самого начала задумываться над тем, как результаты их работы будут приняты организацией, и как будет осуществляться их распространение. Важно также прибегать к помощи лиц, принимающих ключевые решения, вовлекая их в процессы по планированию и интерпретации исследования. • Если программа связана со сферой законодательства и различными факторами политического давления, то проблема формулирования процессов и результатов оценки еще более усложняется. При смене политической администрации, правил или источников финансирования проект может подвергнуться изменениям в самый разгар своего осуществления. Другие проблемы связаны с сопротивлением, которое оказывают организации, не желающие перемен. Особо деликатным является обращение с данными, могущими повлечь за собой сокращение рабочих мест, найм дешевой рабочей силы взамен профессионалов или изменения, касающиеся профессиональных обязанностей сотрудников или «территориальных влияний». Мы должны отметить, что «территориальные войны» (споры о границах систем) между организациями могут быть вызваны несколькими скрытыми причинами, среди которых а) сохранение или приобретение ресурсов или контроля; б) уклонение от роста задолженностей; в) следование внешним приказам с целью создать впечатление об организации, как о более эффективной, при одновременном сдерживании или сокращении затрат.
Мероприятия, связанные с оценкой, варьируют в широких пределах по своему объему и качеству. Любое отдельно взятое оценочное исследование может не включать в себя полный набор перечисленных здесь этапов. При этом каждый из последних сам по себе может являться предметом исследования — например, можно изучать надежность и валидность того или иного критерия результата или
проследить распространение данных. С точки зрения формальных схем исследований, процедуры, которые в реальном мире именуются оценкой, также подвержены значительной вариативности. Отдельные ее разновидности вряд ли можно назвать типичным исследованием. Так, первые руководители программы с участием добровольцев из «Корпуса мира», оказывающих гуманитарную помощь в других странах, уверенно полагались на отчеты журналистов, отправлявшихся за рубеж и изучавших мнения добровольцев, а также на мнения американского и местного персонала об успехах и неудачах проектов. Руководители многих краткосрочных программ — к примеру, семинаров — просят участников лишь заполнить анкету и выразить свое отношение к происходящему. Обычные методы оценки преподавания в колледжах редко выходят за рамки изучения мнений учащихся и педагогов, хотя измерение уровня успеваемости учащихся до и после прохождения курса имело бы большее отношение к оценочным задачам. Оценка — регулярно проводимая процедура, но она редко выполняется систематически, в соответствии с последовательностью этапов, описанной в предыдущем разделе. Безусловно, многие задачи не требуют осуществления столь формализованной и дорогостоящей операции; достаточно бывает ознакомиться с мнениями участников.
На стадиях разработки и реализации проекта по оценке программы необходимо тщательно обдумать этические аспекты этого мероприятия. Как говорилось в главе 3, при оценочном исследовании программ надлежит уважать участников программы, защищать их от нанесения какого-либо ущерба и гарантировать, что исследование действительно «поможет им, не причинив вреда». Помимо защиты испытуемых, участвующих в оценке программы, исследователи должны подтвердить, что обладают уровнем образования, подготовки и опыта, необходимым для адекватной реализации оценки программы и интерпретации полученных результатов. Для дополнительной информации мы призываем читателя вернуться к главе 3 и этическим рекомендациям АПА.
Несмотря на важность оценки широкомасштабных программ, расходующих миллионы долларов на образование, здравоохранение, контроль над преступностью и на другие области деятельности и проблемы, в их отношении трудно подыскать образцовые примеры качественно проведенных исследований результатов наподобие тех, что были описаны выше. Как государственные, так и частные организации неоднозначно относятся к оценке собственной деятельности и редко выделяют достаточные средства для найма и подготовки персонала, необходимого для эффективного исследования своих программ и формулировки выводов, могущих касаться изменений в их социальной политике. Как уже упоминалось выше, в 1965 г., признавая тот факт, что первые пять лет жизни ребенка оказывают особо сильное влияние на его готовность к школьному обучению и успеваемость, правительство США учредило всестороннюю программу дошкольного образования для бедных детей и их семей, названную «Ран нее развитие» («Head Start»). Федеральная поддержка в виде грантов побудила все 50 штатов учредить местные программы. Результаты исследований по оценке этой важной формы дополнительного обучения детей в возрасте 3-4 лет несколько противоречивы (Bronfenbrenner, 1975; Rivlin, 1978). В исследованиях, касавшихся детей младшего возраста и младенцев, были получены более впечатляющие результаты. Риппл, Гиллиэм, Чанана и Циглер (Ripple, Gilliam. Chanana & Zigler, 1999) предприняли обзор исследований программы «Head Start» и других дошкольных программ, проводившихся в отдельных штатах, и выявили высокую степень вариативности мероприятий, предлагавшихся различными штатами. Они заключили, что качество и доступность финансируемого государством дошкольного образования для детей из бедных семей зависят от места проживания семьи: «Если дети живут в Джорджии, то им повезло, но если они родились за чертой, отделяющей этот штат от Алабамы, им повезло уже значительно меньше» (р. 341). Тей и Реми (They & Ramey, 1999) констатируют, что качественно составленные программы хорошо зарекомендовали себя, и предлагают сочетать федеральную политику с местной, а также усовершенствовать методы сбора данных и постоянного мониторинга программ.
Любопытный пример весьма характерных результатов оценки приводит Кислер (Kiesler, 1980) — это резюме работы, проведенной Каммингсом и его коллегами (Kiesler, Cummings & VandenBos, 1979) в больницах компании Kaiser-Permanente, штат Калифорния. Эти больницы работают в структуре крупной организации здравоохранения, практикующей предварительную оплату медицинских услуг, в отличие от системы оплаты по факту — различие, которое, судя по всему, сказывается на возможности генерализации результатов. Проведенные исследования говорят о пользе учета такого показателя, как маргинальная полезность (marginal utility) психологической службы — т. е. эффекта от психологического консультирования и психотерапии,возникающего в дополнение к уже оказанным системой здравоохранения услугам. Предполагается, что добрая половина проблем, с которыми люди обращаются к лечащим врачам, имеют в основном психологическую природу, и во многих таких случаях пациентам безосновательно назначается хирургическое, медикаментозное и другие виды лечения, нацеленного на избавление от соматической патологии. Каммингс и его группа собрали базовые данные о пациентах, обращающихся за помощью в учреждения фирмы Kaiser-Peimanente. Они обнаружили, что люди, переживавшие эмоциональный стресс, очень часто прибегали к услугам врачей, и в контексте исследования часть таких людей стала направляться на краткосрочную психотерапию. Исследователи выяснили, что лишь один психотерапевтический сеанс способен сократить востребованность врачебных услуг на 50% в ближайшие пять лет. Если же сеансов было проведено от 2 до 8, то обращение за дорогостоящими врачебными услугами сокращалось на 75%. Кислер сообщает и о других исследованиях,
в ходе которых были получены аналогичные результаты. В частности, такого рода данные и подобные исследования широко использовались с целью создания прецедента и включения психологических услуг в перечень тех, что охватываются системой медицинского страхования. Поддержка таких исследований важна не только потому, что служит на благо профессиональным интересам психологов, но и поскольку их выводы способны оказывать влияние на государственную политику в сфере здравоохранения.