Проблема качества измерения в социологии: от конструкта к индикатору и обратно
1. Надежность, валидность и ошибка измерения: кризис классической теории тестов
Ключевые понятия оценки качества измерения - надежность и валидность - пришли в социологию из классической теории тестов и психометрики одновременно с появлением первых шкал установок. В нашу задачу не входит исчерпывающий анализ концепций надежности и валидности в теории тестов1, поэтому мы лишь кратко рассмотрим некоторые базисные предпосылки, допущения и результаты "классического подхода". Это позволит нам понять причины, определившие недостаточность этого подхода для оценки социологического измерения и вызвавшие возникновение новых представлений и методов оценки качества измерения в социальных науках.
Общее теоретическое определение надежности в психометрике связано с понятием устойчивости процедуры относительно объектов измерения [36. С.74-75 ]. В общем виде надежность относится к тому, "в какой мере измерения повторяемы - для одних и тех же индивидов при использовании различных мер одного и того же свойства или для различных лиц при использовании одной меры свойства" [191. Р. 172 ]. Если используемая мера, скажем, удовлетворенности браком, надежна, то при использовании разных конкретных индикантов (графических шкал, вербальных самоотчетов и т.д.) на одной и той же группе исследователь будет получать идентичные результаты. И, с другой стороны, повторные замеры будут давать тот же уровень удовлетворенности браком. Надежность-устойчивость (ретестовая, диахроническая надежность) характеризует точность измерения при проведении повторных тестирований. Надежность-согласованность (одномоментная надежность) связана с внутренней согласованностью инструмента, т.е. теста или батареи тестов [36. С.68-69]. Соответственно ненадежная мера (инструмент измерения) при измерении какого-то свойства у данной группы лиц будет давать неповторяющиеся или несогласованные результаты. Надежность измерительной процедуры, таким образом, находится в обратной связи с количеством случайных ошибок в процессе измерения. Случайные ошибки при повторном выполнении тестовых заданий могут быть и результатом неконтролируемых изменений условий тестирования, и следствием "моментальных" изменений в состоянии самого испытуемого. Итак, ретестовая надежность говорит о репрезентативности результатов теста для различных случаев его применения [2. С. 104 ]. Применимость ретестовой надежности как оценки качества измерения ограничена содержательными соображениями, теоретически-
ми представлениями об исследуемом свойстве (отсутствие эффектов "памяти", "научения", ограничение временными интервалами предполагаемой стабильности исследуемого свойства). Поэтому даже в психологическом тестировании повторное тестирование применяется прежде всего для оценки надежности элементарных психомоторных и сенсорных тестов [2. С.106]. Надежность-согласованность имеет другую содержательную природу и оценивается обычно через коррелирование либо взаимозаменяемых форм теста, либо частей одного теста.
Валидностъ измерения в самом общем смысле характеризует соответствие измерения его цели [131. Р.226; 191. Р.75]. Иначе говоря, валидность процедуры (инструмента) измерения состоит в однозначности и правильности получаемых результатов относительно измеряемого свойства объектов, т.е. относительно предмета измерения [36. С.74 ]. Надежность является необходимым, но не достаточным условием валидности, что и зафиксировано в основном психометрическом соотношении: валидность теста не может превышать надежность. Уже на интуитивном уровне очевидно, что надежный инструмент может измерять нечто другое вместо подразумеваемого конструкта (например, не температуру, а давление, или не интеллект, а особенности "познавательного стиля"). Классическая теория тестов признает принципиальное различие надежности и валидности, однако не дает средств для независимой оценки валидности и, фактически, сводит ее лишь к критериальной оценке (отсюда "надежность теста - это, собственно, его валидность по отношению к параллельному тесту" [172. Р.63]).
Нужно отметить, что самостоятельное осмысление проблем качества измерения в социологии долго тормозилось сравнительно меньшим к ним интересом. Собственно специально-методические исследования проблем валидности показателей вплоть до середины 60-х -70-х годов не были распространены в американской эмпирической социологии. Единственным исключением, достаточно серьезным по масштабам и результатам, было так называемое Денверское исследование валидности. Это исследование, проведенное денверским филиалом Национального центра исследований общественного мнения (NORC), было одним из трех основных проектов Комитета по измерению мнений, установок и потребительских нужд, созданного С.Стауффером в 1947 г. [104 ]. В исследовании, проведенном в 1949г., сопоставлялись данные ответов респондентов на фактографические вопросы с данными официальной местной статистики (регистрация и голосование, взносы в местную казну, наличие водительских прав и читательского билета библиотеки и т.п.). Сопоставляя данные официальной статистики, принимаемые за истинное значение, с ответами респондентов, исследователи обнаружили, что данные самоотчетов часто существенно от них отклонялись. Величина расхождений составляла от нескольких процентов до почти 50%, в зависимости от содержания вопроса. Изучалось также влияние интервьюера. Данные этого исследования критериальной валидности пред-
ставляют значительный интерес и сейчас (см., в частности: [199]). И все же, оценивая роль критериально-ориентированного подхода в валидизации данных, полученных в массовых опросах, следует помнить об ограничениях, присущих этому подходу: объективный критерий, используемый как "эталон", нередко нуждается в столь же строгой оценке своих измерительных качеств. Здесь нам представляется вполне справедливой точка зрения Дж.Конверс: "(Действительно) Проводящие опросы исследователи редко выходят за пределы самоотчетов. Исследования валидности не только дорогостоящи, но и чрезвычайно сложны. Существует возможность сравнивать "субъективные" самоотчеты с "объективными" данными официальных документов, но большая часть документов, к которым обращаются для валидизации обследований, также построена на самоотчетах и, следовательно, обычно уязвима для тех же самых ошибок измерения и смещений, что и сами обследования. В некоторых ситуациях информация, полученная в социологических опросах, может оказаться лучше официальных данных: выборки часто точнее, чем переписи, и современная машинная обработка данных может успешнее устранять ошибки, чем системы "бумага-и-карандаш", до сих пор доминирующие в официальных записях" [109. Р.415].
Интерес к качеству измерения стал ведущей ориентацией в том "возрождении" проблематики измерения в социологии, которое произошло в середине шестидесятых годов, после приблизительно пятнадцатилетнего периода снижения популярности работ в данной области [177. Р.1].
Недостаточность классической теории тестов была осознана в социологии в конце 60-х - начале 70-х годов. Не отрицая полезности традиционного подхода к оценке надежности и валидности эмпирических измерений, содержащих случайную ошибку, специалисты по социологическому измерению (Дж.Борнстед, Х.Блейлок, Г.Костнер, Р.Зеллер, Р.Алтаузер и др.) показали принципиальную недостаточность и ограниченность психометрического подхода к оценке качества социологического измерения.
Для того чтобы убедиться в обоснованности этой оценки, рассмотрим некоторые основные положения психометрического подхода. Так как измеряемое (наблюденное) значение (X) из-за погрешности измерения (e) не равно истинному (Т) , то можно записать:
X = Т + е. (2.1)
Далее обычно делаются некоторые предположения об ошибке измерения [172. Р.36]:
1) отрицательные и положительные величины ошибок взаимопо-гашаются, т.е.
E(e) =0
2) истинные баллы и ошибки не скоррелированы:
ρ (t,e)= 0;
3) корреляция между значением ошибок по одному измерению и
истинным значением по другому равна нулю:
р (e1, t2) = 0;
4) корреляция ошибок различных измерений равна нулю
Р (e1, е2) = 0.
Из этих предположений следует: Е(Х) = Е(Т).
Отсюда:
Так как ковариация истинных баллов и ошибок (по определению) равна нулю, т.е.
то из формулы
следует:
Отсюда следует определение надежности как доли дисперсии истинного компонента измерения от общей дисперсии теста:
т.е. корреляция параллельных тестов (пунктов) равна дисперсии истинного компонента, деленной на дисперсию измеренных значений. Формула (2.5) позволяет выразить дисперсию истинного балла через наблюдаемые величины:
(2.6)
т.е. через произведение дисперсии измеренных значений и корреляции параллельных форм. Подстановка этого выражения в формулу (2.4) дает:
(2.7)
Надежность =
Если вся дисперсия измеренных баллов связана с ошибкой измерения (по определению случайной), то надежность равна 0. Если бы никакие ошибки не влияли на измерение, то надежность теста была бы равна 1.
Так как из формулы (2.4) на практике нельзя произвести оценку надежности (дисперсия истинных баллов неизвестна), то для оценки надежности вводится представление о параллельных (собственно параллельных или тау-эквивалентных) формах теста. Для нас достаточно рассмотреть случай параллельных тестовых измерений, для которых вводится предположение о равенстве истинных компонентов и дисперсий ошибочных компонентов, что можно выразить следующим образом:
X = T и X = T +e
где
= и T=T
дисперсий измеренных баллов; 3) равенство корреляций параллельных форм с другими переменными; 4) равенство попарных интеркорреляций нескольких параллельных форм. Из всей совокупности Предполагается, что параллельные формы имеют ряд важных свойств: 1) равенство средних измеряемых значений; 2) равенство
Т.е. оценка надежности - это корреляция параллельных форм.
В классической теории тестов валидность определяется как корреляция измерения X и измерения Y [172. Р.61 Г]2;
(2.8) |
Валидность =
Если X и Y - параллельны в вышеуказанном смысле, то:
= о |
. |
Х-Т |
Y=T
(2.9) |
В результате для валидности получают cледующую формулу:
Отсюда очевидно концептуальное тождество критериальной валидности и надежности 3. Однако, отмечают, Р.3еллер и Э.Карминес, "... по определению
классическая теория тестов применима тогда и только тогда, когда ошибка измерения является полностью случайной. Попросту говоря, в классической теории тестов предполагается, что вся ошибка измерения случайна" [242. Р. 11]. Конечно, в социологическом опросе или даже в исследовании, использующем агрегированные данные переписи, существует много источников случайной, несистематической ошибки измерения. Например, ошибки кодирования или простого подсчета могут носить случайный характер. Если респондент с равной вероятностью (при повторном опросе) выбирает одну из соседних категорий ответа, ошибка измерения также может носить несистематический характер. Однако как только эта ошибка теряет случайный характер, "это уже не проблема надежности, а скорее проблема валидности" [225. Р.13]. Как только ошибка измерения становится неслучайной, часть вариации в индикаторах оказывается связанной с каким-то иным конструктом, отличным от того, который исследователь стремится измерить. Т.е. систематический компонент дисперсии надежного индикатора может относиться только к теоретически специфицированному конструкту, что обеспечит валидность индикатора. Невалидная же, но надежная мера, может полностью или частично относиться к другой переменной, а не к той, для измерения которой она была сконструирована. Следует отметить, что введенное в психометрике в 50-х годах понятие конструктной валидности (см., например: [18]) также было сфокусировано на отношениях эмпирических показателей к теоретическим конструктам, однако процедуры оценки конструктной валидности не могли быть разработаны в рамках традиционного подхода. Для оценки конструктной валидности предлагалось использовать экспертные оценки, содержательные соображения, внешние критерии4.0днако систематическая разработка представлений о конструктной (или концептуальной) валидности и процедур ее оценки стала возможна лишь в результате возникновения в американской социологии моделирующего подхода к измерению и широкой трактовки измерения как "теоретически-нагруженного" процесса, связывающего концепты теории с эмпирическими индикаторами (вторая половина 60-х -70-е годы). Анализу этих новых подходов к измерению, причинных моделей и "вспомогательных теорий измерения" посвящена третья глава этой книги. Здесь же нам важно зафиксировать, что инновации в концептуализации надежности и валидности, как и появление новых методов оценивания качества социологического измерения, были вызваны, прежде всего, той трактовкой измерения, которая первоначально была предложена в работах Х.Блейлока5 .
Конкретные причины, вызвавшие неудовлетворенность социологов, занимавшихся проблемами измерения, механическим переносом традиционной психометрической "парадигмы" оценки качества измерения, очень отчетливо сформулированы в книге Р.Зеллера и Э.Карминеса [242. Р. 11-12]. Во-первых, предположение о случайной природе всей ошибки измерения, приемлемое в психологическом эксперименте, чаще всего необоснованно, когда речь идет о выборочном обследовании, опросе и т.п. Измерение, основанное на таком типе данных, обычно включает и случайный, и неслучайный ошибочный компонент. Характерными примерами являются эффекты "памяти", социальной желательности, установки на позитивный или негативный ответы. В более широком смысле здесь можно говорить о неэквивалентности экспериментального и статистического контроля (применительно к обоснованности научного вывода в неэкспериментальных исследованиях эта проблема была впервые сформулирована в [212], см. также: [168]). Еще более существенным является то обстоятельство, что систематическая ошибка измерения имеет место и тогда, когда "совокупность индикантов измеряет не только подразумеваемый теоретический концепт или даже репрезентирует совершенно иной концепт" [242. Р.11]. По определению такого рода ошибки не обладают, по крайней мере, некоторыми из статистических свойств, приписываемых собственно случайной ошибке измерения. Т.е. имеет место как минимум одно из следующих обстоятельств:
Р.Зеллер и Э.Карминес приводят пример утвердительной и отрицательной тактик ответа со стороны респондента. В этом случае сформулированные в одном "направлении" пункты, даже если они никак не связаны сами по себе, оказываются скоррелированными. И уже нельзя говорить о равенстве нулю корреляции между ошибками измерения по отдельным пунктам-индикантам.
Вторым недостатком классической теории тестов является, с точки зрения этих авторов, отсутствие адекватной концептуализации валидности и отношений между валидностью и надежностью, т.е. то, о чем уже говорилось выше. Вслед за Дж.Борнстедом, Р.Зеллер и Э.Карминес утверждают, что простое знание того, что валидность измерения (как корреляция с другой переменной) не может быть выше квадратного корня его надежности, не решает никаких проблем. Это соотношение, как отметил Дж.Борнстед [95. Р.97 ], не дает никакого прямого знания о валидности как о степени соответствия индикаторов предполагаемой цели измерения. Более того, сама оценка валидности оказывается "побочным продуктом" оценки надежности [242. Р. 12].
Осознание двух названных принципиальных ограничений, присущих психометрическому подходу к оценке качества измерения в социологии (игнорирования систематической ошибки и неудовлетворительной теоретической дифференциации надежности и валидности), привело к возникновению новых идей и ориентации. В после-
дующих двух разделах мы проанализируем два близких подхода к валидности и надежности измерения, очень характерных, на наш взгляд, для происходивших в 60-е - 70-е годы изменений.