Проблема качества измерения в социологии: от конструкта к индикатору и обратно

1. Надежность, валидность и ошибка измерения: кризис классической теории тестов

Ключевые понятия оценки качества измерения - надежность и валидность - пришли в социологию из классической теории тестов и психометрики одновременно с появлением первых шкал установок. В нашу задачу не входит исчерпывающий анализ концепций надеж­ности и валидности в теории тестов1, поэтому мы лишь кратко рассмотрим некоторые базисные предпосылки, допущения и резуль­таты "классического подхода". Это позволит нам понять причины, определившие недостаточность этого подхода для оценки социологи­ческого измерения и вызвавшие возникновение новых представлений и методов оценки качества измерения в социальных науках.

Общее теоретическое определение надежности в психометрике связано с понятием устойчивости процедуры относительно объектов измерения [36. С.74-75 ]. В общем виде надежность относится к тому, "в какой мере измерения повторяемы - для одних и тех же индивидов при использовании различных мер одного и того же свойства или для различных лиц при использовании одной меры свойства" [191. Р. 172 ]. Если используемая мера, скажем, удовлетворенности браком, надежна, то при использовании разных конкретных индикантов (графических шкал, вербальных самоотчетов и т.д.) на одной и той же группе исследователь будет получать идентичные результаты. И, с другой стороны, повторные замеры будут давать тот же уровень удовлетворенности браком. Надежность-устойчивость (ретестовая, диахроническая надежность) характеризует точность измерения при проведении повторных тестирований. Надежность-согласованность (одномоментная надежность) связана с внутренней согласованно­стью инструмента, т.е. теста или батареи тестов [36. С.68-69]. Соответственно ненадежная мера (инструмент измерения) при из­мерении какого-то свойства у данной группы лиц будет давать неповторяющиеся или несогласованные результаты. Надежность из­мерительной процедуры, таким образом, находится в обратной связи с количеством случайных ошибок в процессе измерения. Случайные ошибки при повторном выполнении тестовых заданий могут быть и результатом неконтролируемых изменений условий тестирования, и следствием "моментальных" изменений в состоянии самого испыту­емого. Итак, ретестовая надежность говорит о репрезентативности результатов теста для различных случаев его применения [2. С. 104 ]. Применимость ретестовой надежности как оценки качества измере­ния ограничена содержательными соображениями, теоретически-




ми представлениями об исследуемом свойстве (отсутствие эффектов "памяти", "научения", ограничение временными интервалами пред­полагаемой стабильности исследуемого свойства). Поэтому даже в психологическом тестировании повторное тестирование применяется прежде всего для оценки надежности элементарных психомоторных и сенсорных тестов [2. С.106]. Надежность-согласованность имеет другую содержательную природу и оценивается обычно через кор­релирование либо взаимозаменяемых форм теста, либо частей одного теста.

Валидностъ измерения в самом общем смысле характеризует соответствие измерения его цели [131. Р.226; 191. Р.75]. Иначе говоря, валидность процедуры (инструмента) измерения состоит в однозначности и правильности получаемых результатов относитель­но измеряемого свойства объектов, т.е. относительно предмета изме­рения [36. С.74 ]. Надежность является необходимым, но не доста­точным условием валидности, что и зафиксировано в основном психометрическом соотношении: валидность теста не может превы­шать надежность. Уже на интуитивном уровне очевидно, что надеж­ный инструмент может измерять нечто другое вместо подразумева­емого конструкта (например, не температуру, а давление, или не интеллект, а особенности "познавательного стиля"). Классическая теория тестов признает принципиальное различие надежности и валидности, однако не дает средств для независимой оценки валид­ности и, фактически, сводит ее лишь к критериальной оценке (отсюда "надежность теста - это, собственно, его валидность по отношению к параллельному тесту" [172. Р.63]).

Нужно отметить, что самостоятельное осмысление проблем каче­ства измерения в социологии долго тормозилось сравнительно мень­шим к ним интересом. Собственно специально-методические иссле­дования проблем валидности показателей вплоть до середины 60-х -70-х годов не были распространены в американской эмпирической социологии. Единственным исключением, достаточно серьезным по масштабам и результатам, было так называемое Денверское иссле­дование валидности. Это исследование, проведенное денверским филиалом Национального центра исследований общественного мне­ния (NORC), было одним из трех основных проектов Комитета по измерению мнений, установок и потребительских нужд, созданного С.Стауффером в 1947 г. [104 ]. В исследовании, проведенном в 1949г., сопоставлялись данные ответов респондентов на фактографические вопросы с данными официальной местной статистики (регистрация и голосование, взносы в местную казну, наличие водительских прав и читательского билета библиотеки и т.п.). Сопоставляя данные официальной статистики, принимаемые за истинное значение, с ответами респондентов, исследователи обнаружили, что данные са­моотчетов часто существенно от них отклонялись. Величина расхож­дений составляла от нескольких процентов до почти 50%, в зависи­мости от содержания вопроса. Изучалось также влияние интервью­ера. Данные этого исследования критериальной валидности пред-




ставляют значительный интерес и сейчас (см., в частности: [199]). И все же, оценивая роль критериально-ориентированного подхода в валидизации данных, полученных в массовых опросах, следует помнить об ограничениях, присущих этому подходу: объективный критерий, используемый как "эталон", нередко нуждается в столь же строгой оценке своих измерительных качеств. Здесь нам пред­ставляется вполне справедливой точка зрения Дж.Конверс: "(Дейст­вительно) Проводящие опросы исследователи редко выходят за пределы самоотчетов. Исследования валидности не только дорогосто­ящи, но и чрезвычайно сложны. Существует возможность сравнивать "субъективные" самоотчеты с "объективными" данными официаль­ных документов, но большая часть документов, к которым обраща­ются для валидизации обследований, также построена на самоотче­тах и, следовательно, обычно уязвима для тех же самых ошибок измерения и смещений, что и сами обследования. В некоторых ситуациях информация, полученная в социологических опросах, может оказаться лучше официальных данных: выборки часто точнее, чем переписи, и современная машинная обработка данных может успешнее устранять ошибки, чем системы "бумага-и-карандаш", до сих пор доминирующие в официальных записях" [109. Р.415].

Интерес к качеству измерения стал ведущей ориентацией в том "возрождении" проблематики измерения в социологии, которое про­изошло в середине шестидесятых годов, после приблизительно пят­надцатилетнего периода снижения популярности работ в данной области [177. Р.1].

Недостаточность классической теории тестов была осознана в социологии в конце 60-х - начале 70-х годов. Не отрицая полезности традиционного подхода к оценке надежности и валидности эмпири­ческих измерений, содержащих случайную ошибку, специалисты по социологическому измерению (Дж.Борнстед, Х.Блейлок, Г.Костнер, Р.Зеллер, Р.Алтаузер и др.) показали принципиальную недостаточ­ность и ограниченность психометрического подхода к оценке каче­ства социологического измерения.

Для того чтобы убедиться в обоснованности этой оценки, рассмот­рим некоторые основные положения психометрического подхода. Так как измеряемое (наблюденное) значение (X) из-за погрешности измерения (e) не равно истинному (Т) , то можно записать:

X = Т + е. (2.1)

Далее обычно делаются некоторые предположения об ошибке измерения [172. Р.36]:

1) отрицательные и положительные величины ошибок взаимопо-гашаются, т.е.

E(e) =0

2) истинные баллы и ошибки не скоррелированы:

ρ (t,e)= 0;





3) корреляция между значением ошибок по одному измерению и
истинным значением по другому равна нулю:

р (e1, t2) = 0;

4) корреляция ошибок различных измерений равна нулю
Р (e1, е2) = 0.

Из этих предположений следует: Е(Х) = Е(Т).

Отсюда:

проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru

Так как ковариация истинных баллов и ошибок (по определению) равна нулю, т.е.

проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru

то из формулы

проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru следует:

проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru

Отсюда следует определение надежности как доли дисперсии истинного компонента измерения от общей дисперсии теста:

т.е. корреляция параллельных тестов (пунктов) равна дисперсии истинного компонента, деленной на дисперсию измеренных значе­ний. Формула (2.5) позволяет выразить дисперсию истинного балла через наблюдаемые величины:

проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru (2.6)

т.е. через произведение дисперсии измеренных значений и корреля­ции параллельных форм. Подстановка этого выражения в формулу (2.4) дает:

проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru (2.7)

Надежность = проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru

Если вся дисперсия измеренных баллов связана с ошибкой изме­рения (по определению случайной), то надежность равна 0. Если бы никакие ошибки не влияли на измерение, то надежность теста была бы равна 1.

Так как из формулы (2.4) на практике нельзя произвести оценку надежности (дисперсия истинных баллов неизвестна), то для оценки надежности вводится представление о параллельных (собственно параллельных или тау-эквивалентных) формах теста. Для нас до­статочно рассмотреть случай параллельных тестовых измерений, для которых вводится предположение о равенстве истинных компонентов и дисперсий ошибочных компонентов, что можно выразить следую­щим образом:

X = T и X = T +e

где

проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru = проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru и T=T

дисперсий измеренных баллов; 3) равенство корреляций параллель­ных форм с другими переменными; 4) равенство попарных интер­корреляций нескольких параллельных форм. Из всей совокупности Предполагается, что параллельные формы имеют ряд важных свойств: 1) равенство средних измеряемых значений; 2) равенство

Т.е. оценка надежности - это корреляция параллельных форм.

В классической теории тестов валидность определяется как кор­реляция измерения X и измерения Y [172. Р.61 Г]2;

(2.8)

Валидность = проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru

Если X и Y - параллельны в вышеуказанном смысле, то:

= о
.
Х-Т

Y=T

(2.9)

В результате для валидности получают cледующую формулу:
проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru

Отсюда очевидно концептуальное тождество критериальной ва­лидности и надежности 3. Однако, отмечают, Р.3еллер и Э.Карминес, "... по определению

 
  проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru

классическая теория тестов применима тогда и только тогда, когда ошибка измерения является полностью случайной. Попросту говоря, в классической теории тестов предполагается, что вся ошибка изме­рения случайна" [242. Р. 11]. Конечно, в социологическом опросе или даже в исследовании, использующем агрегированные данные переписи, существует много источников случайной, несистематиче­ской ошибки измерения. Например, ошибки кодирования или про­стого подсчета могут носить случайный характер. Если респондент с равной вероятностью (при повторном опросе) выбирает одну из соседних категорий ответа, ошибка измерения также может носить несистематический характер. Однако как только эта ошибка теряет случайный характер, "это уже не проблема надежности, а скорее проблема валидности" [225. Р.13]. Как только ошибка измерения становится неслучайной, часть вариации в индикаторах оказывается связанной с каким-то иным конструктом, отличным от того, который исследователь стремится измерить. Т.е. систематический компонент дисперсии надежного индикатора может относиться только к теоре­тически специфицированному конструкту, что обеспечит валидность индикатора. Невалидная же, но надежная мера, может полностью или частично относиться к другой переменной, а не к той, для измерения которой она была сконструирована. Следует отметить, что введенное в психометрике в 50-х годах понятие конструктной валидности (см., например: [18]) также было сфокусировано на отношениях эмпирических показателей к теоретическим конструк­там, однако процедуры оценки конструктной валидности не могли быть разработаны в рамках традиционного подхода. Для оценки конструктной валидности предлагалось использовать экспертные оценки, содержательные соображения, внешние критерии4.0днако систематическая разработка представлений о конструктной (или концептуальной) валидности и процедур ее оценки стала возможна лишь в результате возникновения в американской социологии моде­лирующего подхода к измерению и широкой трактовки измерения как "теоретически-нагруженного" процесса, связывающего концеп­ты теории с эмпирическими индикаторами (вторая половина 60-х -70-е годы). Анализу этих новых подходов к измерению, причинных моделей и "вспомогательных теорий измерения" посвящена третья глава этой книги. Здесь же нам важно зафиксировать, что инновации в концептуализации надежности и валидности, как и появление новых методов оценивания качества социологического измерения, были вызваны, прежде всего, той трактовкой измерения, которая первоначально была предложена в работах Х.Блейлока5 .

Конкретные причины, вызвавшие неудовлетворенность социоло­гов, занимавшихся проблемами измерения, механическим переносом традиционной психометрической "парадигмы" оценки качества из­мерения, очень отчетливо сформулированы в книге Р.Зеллера и Э.Карминеса [242. Р. 11-12]. Во-первых, предположение о случайной природе всей ошибки измерения, приемлемое в психологическом эксперименте, чаще всего необоснованно, когда речь идет о выбороч­ном обследовании, опросе и т.п. Измерение, основанное на таком типе данных, обычно включает и случайный, и неслучайный ошибочный компонент. Характерными примерами являются эффек­ты "памяти", социальной желательности, установки на позитивный или негативный ответы. В более широком смысле здесь можно говорить о неэквивалентности экспериментального и статистического контроля (применительно к обоснованности научного вывода в не­экспериментальных исследованиях эта проблема была впервые сфор­мулирована в [212], см. также: [168]). Еще более существенным является то обстоятельство, что систематическая ошибка измерения имеет место и тогда, когда "совокупность индикантов измеряет не только подразумеваемый теоретический концепт или даже репре­зентирует совершенно иной концепт" [242. Р.11]. По определе­нию такого рода ошибки не обладают, по крайней мере, некоторыми из статистических свойств, приписываемых собственно случайной ошибке измерения. Т.е. имеет место как минимум одно из следую­щих обстоятельств:

Р.Зеллер и Э.Карминес приводят пример утвердительной и отри­цательной тактик ответа со стороны респондента. В этом случае сформулированные в одном "направлении" пункты, даже если они никак не связаны сами по себе, оказываются скоррелированными. И уже нельзя говорить о равенстве нулю корреляции между ошибками измерения по отдельным пунктам-индикантам.

Вторым недостатком классической теории тестов является, с точки зрения этих авторов, отсутствие адекватной концептуализа­ции валидности и отношений между валидностью и надежностью, т.е. то, о чем уже говорилось выше. Вслед за Дж.Борнстедом, Р.Зеллер и Э.Карминес утверждают, что простое знание того, что валидность измерения (как корреляция с другой переменной) не может быть выше квадратного корня его надежности, не решает никаких проблем. Это соотношение, как отметил Дж.Борнстед [95. Р.97 ], не дает никакого прямого знания о валидности как о степени соответствия индикаторов предполагаемой цели измерения. Более того, сама оценка валидности оказывается "побочным продуктом" оценки надежности [242. Р. 12].

Осознание двух названных принципиальных ограничений, при­сущих психометрическому подходу к оценке качества измерения в социологии (игнорирования систематической ошибки и неудовлетво­рительной теоретической дифференциации надежности и валидно­сти), привело к возникновению новых идей и ориентации. В после-

 
  проблема качества измерения в социологии: от конструкта к индикатору и обратно - student2.ru

дующих двух разделах мы проанализируем два близких подхода к валидности и надежности измерения, очень характерных, на наш взгляд, для происходивших в 60-е - 70-е годы изменений.

Наши рекомендации