Надежность и валидность измерения

Качество отдельных индикаторов, суммарных показателей (индексов) и шкал определяется их надежностью и валидностью.

Надежность измерения связана с его устойчивостью и воспроизводимостью. Показатель может считаться надежным в той мере, в которой полученные оцен­ки могут быть воспроизведены на данной совокупности объектов измерения. Основной вид надежности—это надежность-повторяемость (или диахрон-

ная, ретестовая надежность). Оценка ретестовой надежности отражает ре­зультаты повторного применения одного и того же показателя (вопроса, теста) для одной и той же выборки случаев (респондентов) в разные моменты време­ни. Если люди отвечают на вопрос одинаково и в первом, и во втором, и во всяком последующем случае, то этот вопрос надежен. Если тест умственных способностей дает те же результаты при повторной проверке на одной и той же группе старшеклассников, то это надежный тест.

Важно отметить, что надежность инструмента измерения не отражает его точ­ность или правильность. Скажем, если на вопрос о доходе респонденты дваж­ды дадут совершенно идентичные ответы, завышенные на какие-нибудь 100%, мы имеем дело с абсолютно надежным, но неточным показателем. Если, в дру­гом случае, термометр с безукоризненной надежностью показывает электри­ческое сопротивление кожи, у нас нет оснований говорить о правильности, адек­ватности измерения. Оценка надежности-повторяемости—это корреляция между результатами повторных измерений. В случае единичного вопроса-индикатора достаточно просто сопоставить ответы одной и той же группы лю­дей, полученные в первом опросе, с ответами, данными двумя неделями или месяцем позднее, и вычислить коэффициент корреляции (см. гл. 8). На практи­ке хорошей можно считать корреляцию 0,8 и выше.

К недостаткам оценок надежности-повторяемости следует отнести, во-первых, сложность проведения повторных замеров на больших выборках, типичных для социологии. Во-вторых, истинное значение переменной также может изменяться с течением времени, например, политические симпатии могут измениться за неделю в результате каких-то скандальных разоблачений, а зарплата—суще­ственно возрасти за месяц из-за введения обязательного индексирования в ус­ловиях инфляции. В последнем случае перед исследователем встанет трудно­разрешимая задача отделить колебания, вызванные изменением истинного зна­чения переменной, от колебаний, связанных с надежностью показателя. Поэтому так важен еще один вид надежности — надежность-согласованность. Оценить надежность-согласованность можно лишь в том случае, если для измерения одной и той же переменной используют множество индикаторов. Зато для та­кой оценки достаточно однократного измерения. В психологическом тестиро­вании, например, используют батареи тестов, нацеленных на измерение одной способности или одного личностного качества. Социологи—если они распо­лагают достаточными средствами и техническими возможностями — исполь­зуют индексы и шкалы, состоящие из множества отдельных вопросов-инди­каторов.

Самый простой способ оценки надежности-согласованности — это «расщеп­ление пополам». Если, например, у нас есть 12 вопросов, предположительно измеряющих политическую активность, где каждому вопросу присвоен 1 балл, а максимальной политической активности соответствует суммарный индекс 12 баллов, то применяется следующая процедура:

1. Вопросы в случайном порядке разбиваются на два равных списка (по 6 вопросов в каждом) и предъявляются один раз группе испытуемых.

2. Далее подсчитывается коэффициент корреляции между результата­ми одних и тех же испытуемых по разным «половинам» теста: чем выше его значение, тем согласованнее оценки истинного значения политичес­кой активности, получаемые с помощью данного набора индикаторов.

Не исключено, однако, что полученная таким способом оценка надежности' окажется весьма чувствительной к способу «расщепления пополам»: коэффи­циент корреляции будет заметно меняться в зависимости от способа составле­ния двух списков.

Еще одна элементарная процедура, позволяющая оценить надежность отдель­ного вопроса (высказывания, пункта шкалы),—это проверка его корреляции с суммарным баллом, т. е. с суммарным значением индекса. Если для данной груп­пы опрошенных коэффициент корреляции между отдельным вопросом о часто­те зарубежных поездок и суммарным «индексом ксенофобии» оказался равен 0,3, то можно предположить, что названный вопрос не отражает истинного значе­ния переменной «уровень ксенофобии» и может быть исключен из опросника2. Ведь строго определенная надежность—это та доля измеренного разброса оце­нок, которая относится к истинному разбросу значений измеряемой перемен­ной (мы пользуемся здесь менее строгим и скорее содержательным определе­нием, поскольку пока не обсуждали необходимые статистические понятия). Очевидно, что коррелирование с суммарным баллом—это процедура, приме­нимая для имеющих довольно простую структуру суммарных индексов и шкал (примеры вы найдете дальше в этой главе).

В любом случае важно располагать явной моделью измерения теоретичес­кой переменной (см. с. 87), так как лишь она позволит предсказать, каковы ожидаемые отношения между отдельными индикатордми и насколько при­менимы описанные простые методы оценки надежности. Чтобы убедиться в этом, достаточно сравнить модель с множеством эффект-индикаторов ла­тентной переменной с моделью, включающей только причинные индикато­ры {см. рис. 3 и 4). .Очевидно, что эффект-индикаторы должны быть высоко согласованны и с латентной переменной-свойством, которую они призваны измерять, и друг с другом. Однако это не так уж очевидно для причинных индикаторов: скажем, и образование, и доход—важные компоненты поня­тия «социально-экономический статус». Однако даже если образование рас­тет, доход имеет право вести себя как угодно, т. е. он вовсе не должен пока­зывать непременно высокую корреляцию с образованием. Иными словами, если от надежных эффект-индикаторов следует ожидать высокой скоррели-рованности друг с другом (при использовании методов «расщепления попо­лам» или корреляции с суммарным баллом), то для причинных индикаторов столь простой подход к оценке надежности неприменим. Разработать под­ходящий метод оценки надежности здесь можно, лишь анализируя взаимо­связи разных индикаторов и разных теоретических переменных в модели измерения. Прогнозируя ожидаемую направленность и величину этих свя­зей, исследователь может оценить степень соответствия своих предсказа­ний наблюдаемым данным и сделать вывод о качестве индикатора. Самыми универсальными методами оценки надежности эмпирических индикаторов являются факторный анализ и путевой анализ. В идеале для оценки надеж-

' Мы говорим именно об оценке надежности, так как строго определенная надежность равна коэффициенту детерминации измеренных значений истинными значениями пе­ременной, т. е. квадрату коэффициента корреляции. 2 Намного более подробное и снабженное соответствующими статистическими деталя­ми описание методов оценки надежности можно найти в книге: Аванесов В. С. Тесты в социологическом исследовании. М.: Наука, 1982.

ности используют несколько индикаторов (два-три) и по крайней мере две волны панели (см. с. 82)3.

Очень важно помнить, что понятие надежности связано со случайными ошиб­ками измерения, т. е. с ошибками, которые никаким систематическим образом не связаны друг с другом или какими-то систематически действующими вне­шними переменными (скажем, полом или возрастом респондентов). Типичные источники ненадежности—это случайные несистематические факторы, свя­занные с колебаниями внимания респондентов, неоднозначностью формули­ровки вопроса, ведущей к различию в его восприятии в разных случаях; несис­тематическими различиями в проведении интервью; различиями в кодирова­нии открытых вопросов, или с ошибками при вводе данных. Например, если предложить даже очень опытным специалистам классифицировать сотню на­селенных пунктов по заранее разработанной схеме кодирования типов поселе­ний, то, вероятнее всего, можно будет найти по крайней мере несколько рас­хождений в получившихся классификациях. Некоторые расхождения будут свя­заны с наличием «предельных» случаев, не поддающихся однозначной классификации по предложенным правилам, некоторые—с механическими ошибками записи или невнимательностью. Предварительная оценка надежно­сти вопросов социологической анкеты требует прежде всего «отбраковки» не­ясно сформулированных вопросов, на которые люди часто отвечают случай­ным образом. Столь же низка надежность вопросов, на которые респонденты попросту не способны ответить, так как не имеют никакого мнения по затрону­той проблеме или ничего не знают о ней. Далеко не все опрошенные, столкнув­шись с иррелевантным вопросом, честно ответят «не знаю» или «не помню». Многие дадут наугад выбранный ответ из вежливости или нежелания демонст­рировать свою неосведомленность.

Методы увеличения надежности нами уже обсуждались (см. гл. 4, 5). Во-пер­вых, нужно стремиться к использованию множественных индикаторов. Когда же это невозможно, т. е. существуют теоретические или практические трудно­сти в измерении одной переменной разными способами, то следует использо­вать самые устоявшиеся и общепринятые показатели (например, если можно лишь один раз спросить респондента о его возрасте, то лучше всего использо­вать в точности такую же формулировку вопроса и те же категории ответа, ка­кие используются в общенациональных переписях, масштабных панельных исследованиях и т. п.).

К другим методам увеличения надежности можно отнести «отсев» ирреле-вантных вопросов, анализ словесной формулировки вопроса, обучение и кон­троль интервьюеров, совершенствование методов кодирования данных и про­цедур ввода.

Валидностъ измерения, в самом общем смысле, характеризует соответствие измерения его цели. Эмпирический показатель валиден (обоснован, правилен) в той мере, в какой он действительно отражает значение той теоретической пе­ременной, которую предполагалось измерить. Очевидно, что нет смысла гово­рить о валидности какого-то индикатора самого по себе. Валидностъ инстру­мента измерения состоит в однозначности и правильности получаемых ре-

3 Подробнее о многоиндикаторном подходе к оценке качества измерения см.: Девят-ко И. Ф. Диагностическая процедура в социологии: очерк истории и теории. М.: Наука, 1993.

рые» баллы в стандартные оценки, но ничего не скажут о знании корреляции и регрессии.

Основная процедура оценки валидности по содержанию—это суждение экс­перта. В некоторых случаях связь между теоретическими понятиями и измеря­ющими их индикаторами столь ясна, что никакие специальные обоснования попросту не требуются: понятно, что термометр измеряет температуру. Здесь можно говорить об очевидной (иногда—лицевой, от англ. face validity) валид­ности показателя. Очевидная валидность тем выше, чем тождественнее пони­мание цели вопроса, теста или иного показателя профессионалом-социологом и неискушенным респондентом. Вопрос о частоте покупки шампуня, по всей вероятности, не содержит в себе никаких подвохов и позволяет судить именно о том типе потребительского поведения, который описан в вопросе. Однако в более сложных случаях содержательная валидность отнюдь не сводится к оче­видной. Набор простых вопросов о излюбленном способе проведения досуга, предпочитаемой марке автомобиля, частоте чтения престижного журна­ла и т. п. может быть нацелен на измерение «стиля жизни» респондента (в дан­ном случае измерение позволяет отнести человека к одной из номинальных ка­тегорий стиля жизни—«выживающий», «достиженческий», «экзистенциаль­ный», «социальный» и т. п.5). Судить о полноте этого набора и относительной значимости вопросов для измерения понятия «стиль жизни» могут только спе­циалисты. Основой такого экспертного суждения является теоретическое опре­деление, концептуализация исследовательской переменной. Обычно эксперт­ное суждение о валидности по содержанию выносится более или менее сти­хийно, после публикации результатов исследования. Иногда все же удается использовать более организованные процедуры—метод параллельных пане­лей или метод нескольких судей6. В первом случае две или три последователь­ные панели специалистов проводят всю процедуру валидации по содержанию, т. е. сравнивают существующие дефиниции, составляют список возможных индикаторов и оценивают их репрезентативность по отношению к исследуе­мой концептуальной области. Если сравнение индикаторов, независимо ото­бранных в двух и более панелях, обнаруживает множество совпадений, можно говорить о высокой содержательной валидности.

Метод нескольких судей (экспертов) полезен в тех случаях, когда переменная-признак, которую предполагается измерить, имеет многомерную структуру. Если, например, социолог разрабатывает воображаемую шкалу социально-эко­номического благополучия регионов, то полезно обратиться к специалистам в таких областях, как демография, социальная политика, занятость, налоговая система и т. п. Опрос экспертов позволит выявить существенные факторы, вхо­дящие в шкалу, оценить их сравнительную значимость и найти релевантные эмпирические индикаторы.

Критериальная валидность (или валидность по критерию) показывает, насколь­ко хорошо результаты по данному тесту или индикатору согласуются с резуль­татами измерения другого показателя, называемого критерием. Чаще всего кри­терий — это та переменная, которая и представляет практический интерес для исследователя, но не может быть измерена в данный момент. Например, крите-

5 См., например: Mitchell A. The Nine American Life-Styles. N. Y.: Warner Books, 1983.

6 Ghiselli E. E., Campbell J. P., Zedeck Sh. Measurement Theory for the Behavioral Sciences. San Francisco: W. H. Freeman and Co, 1981. P. 277—279.

риальная валидность вступительных экзаменов определяется той академичес­кой успеваемостью, которую в дальнейшем продемонстрируют студенты (т. е. академическая успеваемость является в данном случае критерием). Мож­но также предположить, что тест моральной оценки девиантного поведения для подростков обладает критериальной валидностью по отношению к реаль­ному отклоняющемуся поведению. Индикатор, обладающий доказанной кри­териальной валидностью, может рассматриваться как переменная-предиктор, позволяющая предсказывать индивидуальные значения переменной-критерия. Конечно, нужда в предикторе, замещающем собственно критерий, возникает лишь в тех случаях, когда оценки по критерию получить трудно, т. е. речь идет о давно прошедших или еще не наступивших событиях, либо переменную-кри-терий трудно измерить из-за практических или этических соображений. Валид­ность предиктора обычно тем выше, чем ближе он к критерию. Скажем, иде­альным методом отбора курсантов авиационного училища мог бы стать проб­ный краткосрочный курс обучения с проверкой практических навыков управления самолетом в финале: прошедшие проверку претенденты имели бы все шансы стать настоящими профессионалами. Однако такой метод слишком дорогостоящ и на практике используют тесты интеллекта, испытания визуаль­но-моторной координации и другие показатели, установив предварительно их критериальную валидность. В другом случае проективный личностный тест (типа TAT — теста тематической апперцепции, подразумевающего составление рассказов по фотографиям с неопределенным сюжетом) позволит выявить при­знаки психоза либо травмирующего сексуального опыта в прошлом пациента. Полное психиатрическое обследование могло бы занять очень много времени, да и данные о плохом обращении в детстве получить довольно трудно.

К основным типам критериальной валидности относят прогностическую, кон­курентную и постдиктивную («предсказывающую-назад») валидности.

Прогностическая критериальная валидность описывает точность, с которой значения данной переменной — обычно характеризующей отдельного индиви­да или группу — могут быть предсказаны на основании текущих значений ка­кой-то другой переменной (предиктора). Очевидно, что наилучшим показате­лем такой прогностической точности будет корреляция между значениями пе-ременной-предиктора и значениями переменной-критерия для одной и той же выборки. Тогда—в пределах ошибки выборки—коэффициент корреляции бу­дет равен коэффициенту прогностической валидности.

Конкурентная валидность по критерию—это степень соответствия между те­кущими значениями переменной-критерия и переменной-предиктора. Попрос­ту говоря, исследователь использует результаты измерения по одному признаку для того, чтобы оценить значение другой переменной. Причина может заклю­чаться в том, что измерение непосредственно переменной-критерия трудноосу­ществимо, занимает слишком много времени и т. п. Проблема конкурентной валидности весьма значима для эмпирической социологии, где многие пове­денческие или установочные переменные измеряются не непосредственно, а через самоописания, ответы на анкетные вопросы, иными словами, через вер­бальное поведение. Например, мы можем оценить конкурентную валидность анкетного вопроса о частоте посещения дискотеки студентами-отличниками с помощью серии включенных наблюдений за реальным поведением данной груп­пы. Уже ранние исследования конкурентной валидности фактографических вопросов в социологии показали, что даже для относительно «безобидных»,

несензитивных индикаторов конкурентная валидность может изменяться в са­мых широких пределах.

В так называемом Денверском исследовании валидности, проведенном С. Стауффером и соавторами в 1947 г., сопоставлялись данные ответов респондентов на фактографические вопросы и данные официальной ста­тистики местных организаций. Речь шла о регистрации избирателей, уча­стии в голосовании, взносах в городскую казну, о наличии водительских прав и читательского билета и т. п. Сопоставляя данные официальной ста­тистики (критерий) с ответами респондентов (предиктор), исследователи обнаружили, что величина расхождений составляла от нескольких про­центов до почти 50%, в зависимости от содержания вопроса.

Следует, однако, помнить и об ограничениях, присущих объективным показа­телям-критериям: данные официальных документов также нередко основаны на самоотчетах и нередко подвержены ошибкам измерения.

Все же в некоторых случаях процедура конкурентной валидации имеет пре­имущество перед предиктивной, так как первая не требует от исследователя длительного ожидания того момента, когда можно будет измерить значения критерия. Если, например, исследователь хочет оценить критериальную валид-ностъ теста профессиональных интересов, разработанного для студентов, как предиктора успешной профессиональной карьеры, то ему необязательно ждать десять лет, чтобы измерить значение переменной-критерия. Достаточно прове­сти тестирование профессиональных интересов для двух «крайних» групп уже работающих специалистов—преуспевших и наименее преуспевших в профес­сии в данный момент времени. Высокая корреляция между тестовым баллом и успешностью работы (или статистически значимое различие тестовых баллов «крайних» групп) будет свидетельствовать о конкурентной валидности теста. Условиями, при которых выводы о конкурентной валидности индикатора могут все же оказаться ошибочными, являются избирательное выбывание из выбор­ки (самоотбор) и реактивность переменной-предйктора. Самоотбор в нашем примере может иметь место в том случае, если среди выбывших из выборки (бывших студентов, отказавшихся от профессиональной карьеры в данной об­ласти и не охваченных по этой причине проводимым тестированием) будут сверх-представлены высоко- либо низкомотивированные, т. е. естественное выбыва­ние будет носить неслучайный характер. В случае реактивности индикатора наши испытуемые будут отвечать на вопросы теста мотивации не так, как они отвечали будучи студентами (из-за повлиявших на них профессионального опы­та, изменения социального статуса и т. п.) И все же существуют нереактивные переменные-предикторы, конкурентная валидность которых вполне поддается обоснованию. Примером могут служить такие стабильные характеристики, как коэффициент интеллекта или «фоновые» переменные (социальное происхож­дение, национальная принадлежность и т. п.).

Наконец, в некоторых случаях мы заинтересованы в том, чтобы установить точ­ность, с которой мы можем оценить наличие какого-то критерия-признака или черты, присущей индивиду (группе) в прошлом. Пример использования проек­тивного психологического теста для постдиктивного «прогноза» детских травм приведен выше. Эта ситуация обозначается как оценка постдиктивной ва­лидности.

Описанные нами виды валидности существенны в тех ситуациях, когда перед исследователем стоит задача сравнить некий показатель с уже существующими

или с используемым в практике критерием. Иными словами, критериальная валидность показателя—это корреляция с другим, предположительно «чис­тым», эмпирическим показателем. Однако существует и другой подход к ва-лидности, где оценка индикатора основана на том, насколько хорошо его «пове­дение» соответствует теоретическим ожиданиям. Такая оценка может быть проведена лишь в рамках целостной теоретической модели, описывающей от­ношения между теоретическими переменными, их индикаторами, случайными и неслучайными ошибками измерения. Предположим, мы хотим проверить валидность новой шкалы групповой сплоченности. Основываясь на существу­ющих теоретических представлениях, мы можем предположить, что большей групповой сплоченности соответствует меньшая частота открытых конфлик­тов и большая интенсивность коммуникаций. Сравнив различные по уровню групповой сплоченности группы и определив для них значения других двух переменных (частота конфликтов и интенсивность коммуникаций), мы увидим, насколько хорошо «ведет» себя разработанный нами показатель групповой спло­ченности. Если паттерн его отношений с двумя другими переменными соответ­ствует предсказаниям теории, то мы можем заключить, что новая шкала валид­на, т. е. измеряет именно ту теоретическую переменную, которая нас интересу­ет. Этот вид валидности обычно обозначают термином «конструктная валидность»7. (Иногда используют также обозначение «концептуальная валид­ность».)

Со статистической точки зрения абсолютная конструктная валидность предпо­лагает, что весь наблюдаемый разброс в значениях показателя связан исключи­тельно с измеряемым теоретическим конструктом. Если же часть вариации ин­дикатора связана с другой переменной — будь то другой теоретический конст­рукт или систематическая ошибка измерения,—конструктная валидность окажется меньше.

Легко заметить, что оценка конструктной валидности предполагает какую-то связь между проверкой содержательных теоретических гипотез и проверкой качества измерения. Действительно, оценка конструктной валидности посред­ством сопоставления теоретической модели «поведения» изучаемой перемен­ной с реальными отношениями индикаторов требует включения модели изме­рения (см. выше) в более широкую теоретическую модель.

Предположим, мы используем некоторый суммарный показатель—индекс «де­мократизма политической системы», состоящий из ряда индикаторов (Х1, Х2, Х3), каждый из которых имеет свой собственный «вес» в индексе демократизма. К таким индикаторам могут относиться наличие парламента (номинальная ди­хотомическая 8 переменная), количество независимых телерадиокомпаний и т. п. Исходя из теоретической модели, мы ожидаем, что степень «демократизма» находится в обратной связи с долей ВНП, расходуемой на модернизацию воо­ружений, Основываясь на этой модели (см. рис. 77), можно проверить конст-руктную валидность изобретенного нами индекса демократизма.

Собрав необходимые данные для 10—15-и национальных государств, мы мо­жем обнаружить, что наш индекс «демократизма» невалиден, так как ожидае-

7 См.: Cronbach L. J., Meehl Р. Е. Construct Validity in Psychological Tests // Psychological Bulletin. 1955. Vol. 52. № 3. P. 281—302.

8 Номинальная дихотомическая переменная, т. е. принимающая лишь два возможных значения, в данном случае—«да» или «нет».

Надежность и валидность измерения - student2.ru

мое отношение между теоретическими переменными (с) не выполняется, их корреляция равна нулю. Просмотрев наши данные, мы, например, обнаружим, что в некоторых странах, почитаемых за образец демократического обществен­ного устройства, изрядную часть бюджета составляют военные расходы, тогда как некоторые деспоты из «банановых республик» вполне обходятся кремне­выми ружьями. Однако вывод о невалидности нашего измерения «демократиз­ма» верен лишь в том случае, если верны наши теоретические представления о связи демократии и пацифизма. Если же демократия и пацифизм отнюдь не связаны друг с другом, наши результаты вовсе не доказывают низкую валид-ность индикатора: вполне возможно, что как раз «демократию» мы измеряли правильно, но неверна была наша теоретическая гипотеза. Существует своеоб­разное отношение дополнительности между собственно теоретическими моделями и моделями измерения. Оценить качество показателей в модели изме­рения (см. левую часть рис. 11) можно, лишь приняв теоретическую модель как безусловно верную. Для оценки справедливости собственно теоретической модели (см. верхнюю часть рисунка), нужно принять предположение о конст-руктной валидности индикаторов и провестиновое исследование сновымиданными.

Существуют сложные статистические методы, позволяющие одновременно оценивать модель измерения и теоретическую модель (часто их называют «LISREL-методы»). Они применимы лишь к моделям с несколькими индикато­рами для каждой переменной. Однако некоторые методологи полагают—на наш взгляд, справедливо,—что попытки проверить модель измерения и сово­купность теоретических гипотезна одних и тех же данных чреваты возможно­стью ошибочных выводов. Если теория, предсказания которой мы используем для проверки конструктной валидности, относительно нова и не стала еще об­щепринятой истиной, мы просто не сможем определить, связан ли отрицатель­ный результат исследования с невалидностью показателя, или причиной все­му—ложные теоретические представления. Кроме того, может оказаться, что мы отберем худший из показателей, ибо именно он поддерживает неверную теорию. Поэтому проверка конструктной валидности индикаторов и проверка

теорий требуют от нас разных исследований, множественных показателей и разных матриц данных.

Наши рекомендации