Поиск эталона измерения
Нахождение эталона измерения осуществляется в четыре стадии, каждая из которых — необходимая предпосылка надежности будущей шкалы.
Первая стадия — качественная классификация объектов. Собираясь, например, измерять структуру ценностных ориентации или социальных установок личности, мы прежде всего должны четко классифицировать типы ориентации, исходя из теоретической концепции и задач исследования. Можно положить в основу классификации иерархию потребностей или интересов, сфер деятельности, социальные функции, социальные ситуации, которые бы различались по степени свободы выбора целей и средств деятельности и т. д.
Вторая стадия — поиск протяженности выделенных в качественном анализе свойств. Следует установить, обладают ли эти свойства прерывной или непрерывной протяженностью, можно ли их представить в виде различных последовательных состояний измеряемого качества.
Рассмотрим с этой точки зрения какую-нибудь ценностную ориентацию (на материальный достаток, культурные ценности, творчество и др.)- Ее можно "вытянуть" в несколько протяженностей — континуумов. Один континуум составляет: сильная—средняя—слабая ориентации; другой: устойчивая—малоустойчивая— неустойчивая; третий: господствующая—рядоположен-ная—подавленная; четвертый: центральная или периферийная. В зависимости от концепции исследования можно выделить и другие протяженности.
Третья стадия — установление эмпирических индикаторов или внешних признаков тех свойств объекта, которые поддаются расположению в континуум.
Индикатор — внешне хорошо различимый показатель измеряемого признака. С его помощью устанавливается наличие или отсутствие признака, его состояние.
Например, высота ртутного столбика термометра — индикатор температуры.
Простейший индикатор расположения какого-то объекта среди других объектов ориентации — порядковое место, отмечаемое опрашиваемым в заданном списке. Например, из 18 объектов он помечает объект М порядковым номером 1. Этот номер — индикатор доминирования объекта М с точки зрения интересов субъекта. Объект N, помеченный порядковым номером 18, будет располагаться в конце протяженности ("подавленная ориентация на N").
Сложнее найти индикатор для протяженности по критерию "сильные", "средние", "слабые" ориентации. Один из возможных вариантов таков.
Испытуемым предлагают три ситуации, в которых они принимают решение о выборе "ценностного ориентира". Ситуации различаются по степени свободы выбора. Допустим, измерению подлежат интересы к различным видам занятий в сфере досуга. Предлагаются три одинаковых списка возможных занятий, число которых в каждом списке 18 (чтение художественной литературы, посещение гостей, просмотр телепередач и т. д.).
В первой ситуации (широкий диапазон выбора) испытуемый имеет право без ограничения указать любые занятия, которые ему нравятся. Во второй ситуации (средний диапазон выбора) он оставляет в списке лишь шесть наиболее важных для него занятий, в третьем случае (узкий диапазон) — не более трех, для него особенно значимых.
Индикатор "сильной" ориентации — выбор данного занятия —имел место во всех трех ситуациях; "средний" — выбор в первой и второй ситуациях; "слабый" — выбор имел место только при широком диапазоне принятия решения.
Одно и то же свойство можно фиксировать с помощью нескольких индикаторов, которые сводятся в общий показатель — индекс. Это случай сложного первичного измерения, по технике напоминающего приемы вторичных измерений. Так, для определения интенсивности интереса к какому-то виду досуга можно использовать и саморанжирование занятий (первый пример), и выборы в нескольких ситуациях, и оценки занятий по десятибалльной системе, и другие способы.3
3 Детально эти процедуры рассматриваются Г. И. Саганенко [232; 233. Разд. 4.2].
Наиболее надежный индикатор будет получен по совмещению нескольких способов: некоторая группа занятий помечена первыми номерами по ранжированному списку, она же выбрана в трех названных выше ситуациях, эти занятия были оценены 10 баллами при максимуме 10 и минимуме 1. Такой сводный числовой показатель и называют индексом.
Четвертая стадия заключается в том, чтобы уяснить, все ли единицы, составляющие измеряемый объект, укладываются в ранжируемый ряд, все ли они обладают свойством занимать определенное место в континууме отношений по принятым индикаторам.
Например, в одном из наших исследований индикатором отношения к труду рабочих был показатель нормы выработки (значительно перевыполняет норму — перевыполняет — выполняет — не выполняет норму). Однако он был неудачным, так как применим не ко всем рабочим, а только к "сдельщикам". Труд тех, кто получает повременную оплату, оценивается по другим показателям: качеству работы прежде всего. Например, чем меньше времени тратит ремонтник на устранение текущих неполадок, тем выше качество профилактического ремонта.
В итоге описанных выше операций устанавливается эталон, или шкала измерения.
Отношения между пунктами шкалы должны отображать отношение свойств объекта в понятиях "равно", "больше", "меньше". В нашем примере с ценностными ориентациями отношениям "сильная">"средняя">"слабая" соответствуют отношения трех пунктов построенной шкалы: (выбор сделан в трех ситуациях) > (выбор сделан в первой и второй ситуациях) > (выбор сделан только в первой ситуации). Теперь предстоит испытать шкалу на надежность.
Способы проверки процедуры первичного измерения на надежность.
Следует иметь в виду, что операции повышения надежности первичного измерения, которые мы будем здесь рассматривать, используются лишь на стадии отработки инструмента измерения в процессе пилотажа. После окончательной проверки надежности построенных шкал и сбора данных на объектах исследования акцент контроля их достоверности переносится с первичного измерения на вторичные, т. е. комбинаторные процедуры, и так последовательно вплоть до обоснования достоверности итоговых выводов.
В целом же достоверность результатов исследования зависит от многих составляющих, начиная с того, насколько обоснована его общая концепция и все компоненты теоретико-методологического раздела программы, а далее — от качества исходных данных, системы их отбора, т. е. соответствия типа выборки (и ее организации) целям исследования, качества анализа данных и, наконец, от глубины интерпретации полученных зависимостей и связей.4
4 О требованиях и операциях, необходимых для гарантии общей Достоверности данных, см. [68, 200, 233]. Если учесть все возможные ошибки, связанные с неполным соответствием теоретической модели объекта самому объекту, возможными упущениями на разных этапах исследования (например, при расчетах выборки, тиражирования полевых документов и т. д.), спецификой типов возможных ошибок (напри-Мер, систематические или случайные), а также некоторые другие причины, то, как показал Б. 3. Докторов [68], в так называемой метрологической карте можно обнаружить 162 (I) составляющие возможных ошибок.
К сожалению, нет единообразия в толковании термина "надежность" применительно к социологической информации. Главная причина состоит в том, что одни авторы трактуют надежность слишком расширительно как качество всего исследования и, следовательно, его итогов, а другие, напротив, отождествляют надежность с тем или иным особым ее проявлением (например, с.устойчивостью данных, их адекватностью целям исследования и т. д.).
Не останавливаясь здесь на дискуссии терминологического характера, заметим, что в строгом смысле слова понятие надежности измерения правомерно относить именно к инструменту, с помощью которого производится измерение, но не к самим данным, подлежащим измерению, В отношении данных, как и заключительных выводов из исследования, правильнее говорить, что они достоверны (или относительно достоверны) в том числе и потому, что фиксированы надежным инструментом.
Возможны различные типологии приемов оценки надежности первичной информации, например, с точки зрения внешнего или внутреннего контроля данных, получаемых определенным способом. Мы будем пользоваться обобщающим понятием надежности инструмента измерения (и соответственно надежности данных, фиксируемых этим инструментом), имея в виду три составляющие: (1) обоснованность, (2) устойчивость и (3) правильность измерения. Естественно, что и методы контроля на надежность нужно рассматривать в этих трех аспектах5.
5 Наиболее детально методы и техника контроля данных на надежность изложены в работах Г. И. Саганенко [233] и В. И. Папиотто [200]. Последний применяет аналитический подход к предмету, выделяя множество разновидностей надежности и технических приемов оценки ее уровня [200. С. 74—75], тогда как Саганоцко, ряд идей и примеров из книги которой мы используем, акцентирует внимание на наиболее существенных, непременных требованиях и сравнительно простых способах контроля надежности.
Обоснованность6 шкалы заключается в том, что с ее помощью целенаправленно измеряют вполне определенное свойство или признак, не смешивая его с другими.
6 В зарубежной и отечественной (особенно в психологической) литературе вместо термина "обоснованность" часто используется как его аналог понятие "валидность". Однако в английском "reliability" (обоснованность) подчеркивает возможность полагаться на кого-либо, в данном случае доверять полученной информации благодаря тому, что она адекватна объекту измерения [337. С, 132—138], a "validity" семантически имеет оттенок устойчивости, "прочности" полученной информации. Поэтому термин "валидность" правильнее было бы соотносить ве с обоснованностью, во с устойчивостью данных измерения.
Предположим, при опросе телезрителей им предлагают указать, каким из перечисленных в прилагаемом списке передачам телевидение уделяет "слишком много", "достаточно" и "слишком мало" времени. Если с помощью этой трехчленной шкалы исследователь намерен фиксировать среднее время, отводимое телепередачам, его измерение будет необоснованным. В действительности он измеряет отношение людей к данным передачам, а не объем времени, отводимого для их трансляции. Обоснованное измерение объема времени на передачи разного типа — документальный анализ "сетки" программ телевидения.
Чтобы повысить обоснованность измерения, используют ряд технических приемов.
(1) Наиболее простой способ — логические рассуждения на основе опыта и здравого смысла.
Обратимся к примеру из обследования, проведенного Б. М. Фирсовым. Задача: определить среднюю интенсивность просмотра телепередач путем массового опроса телезрителей.
Первый вариант построения шкалы был таков. Вопрос: "Сколько приблизительно часов в день Вы проводите у телевизора?" Шкала для ответа содержала пять интервалов: (не больше 1 часа) — (от 1 до 2 часов) — (от 2 до 3 часов) — (от 3 до 4 часов) — (свыше 4 часов).
Путем логических рассуждений были высказаны следующие сомнения в обоснованности такого метода. Следует указать день просмотра телепередач: будний, субботний или воскресный. Иначе неясно, какой из дней зритель выберет за эталон оценки. Не спасет положения и вопрос, сколько в среднем часов в неделю зритель проводит у телевизора, так как люди не привыкли думать в "средних" величинах.
Значит, надо поставить вопрос так, чтобы: а) выделить дни недели и б) указать понятный для зрителя эталон оценки. Поэтому более удачный вариант построения шкалы для решения той же задачи следующий [274. С. 142].
Первый вопрос: "Сколько дней в неделю Вы, как правило, смотрите телевизионные передачи?":
1) почти все дни недели;
2) 3 или 4 дня в неделю;
3) 1 или 2 дня в неделю;
4) меньше, чем один раз в педелю, т. е. не каждую неделю;
5) в сущности, совсем не смотрю.
Второй вопрос: "Не могли бы Вы приблизительно оценить, сколько в среднем часов Вы проводите у телевизора в тот день, когда смотрите передачи?" Сделайте отметку в каждой строке.
Дни недели | Время просмотра | ||||
не больше 1 часа | от 1 до 2 часов | от 2 до 3 часов | от 3 до 4 часов | свыше 4 часов | |
В будние дни | — | — | — | — | — |
В субботу | — | — | — | — | _ |
В воскресенье | _ | - | — | — | — |
Теперь, пользуясь простыми арифметическими действиями, можно рассчитать "среднепросмотровое" время за неделю и составить шкалу.
Обозначим а число дней в неделю, уделяемых просмотру телепередач. Числовые индикаторы ответов на первый вопрос взяты как средние эмпирически полученных интервалов (в числе дней просмотра), а именно: 6; 3,5; 1,5; 0,7; 0. Обозначим Ъ количество часов, затраченных на просмотр телепрограмм в определенные дни (ответы на второй вопрос) также по средним: 4,5; 3,5; 2,5; 1,5; 1.
Обозначив будние дни как d, субботние s, воскресные w, рассчитаем среднепросмотровое время за неделю Т:
Для телезрителя, который в ответе на первый вопрос пометил "3 или 4 раза в неделю", в ответе на второй указал "до 1 часа в будни" и "от 2 до 3 часов в субботу и воскресенье" среднепросмотровое время исчисляется по формуле:
Неадекватное понимание того, что же мы измеряем, может привести к серьезным последствиям. Поучительный пример: дискуссия в прессе относительно добросовестности служб общественного мнения в опросах о рейтинге политических деятелей.
В ноябре 1997 г. два ведущих российских центра изучения общественного мнения представили данные общероссийских опросов. Рейтинги Президента, премьера и некоторых других ключевых фигур в правительстве по опросам центра "А" на 10—12% отличались от рейтингов по опросам службы "Б". Это вызвало публичный скандал: одна служба подыгрывает правительству, а другая — оппозиции. Что же в действительности случилось? Служба "А" задавала вопрос "Одобряете ли Вы деятельность..?", а служба "Б" предлагала формулировку "Доверяете ли Вы..?". На протяжении трех месяцев все показатели доверия/недоверия на 10—12% уступали показателям одобрения/неодобрения, причем этот разрыв устойчиво сохранялся в отношении Президента и премьера, но сильно колебался в отношении ряда других правительственных чиновников (т. е. граждане сформировали позицию относительно Президента и премьера, но не имели четкой позиции в отношении Других, неключевых фигур в правительстве). Через две недели после этого скандала служба "Б" в общероссийском опросе предложила респондентам обе формулировки в одном интервью. Обнаружилось, что доверяют правительству 14-16% опрошенных, но одобряют его деятельность в той же выборке 29%. Логика здесь такая: "Я могу не очень доверять искренности намерений правительства, но то, что оно делает, я склонен сейчас одобрить".
Заметим, однако, что логические рассуждения, наподобие приведенных выше, повышают обоснованность, но не являются прямым доказательством того, что мы меряем искомое свойство.
(2) Тест по "эталонной грynne" - более сильный прием проверки инструмента на обоснованность. Смысл проверки — в сопоставлении данных, полученных путем измерения по шкале, с достоверными сведениями об объекте измерения.
Так, шкала на отношение к соблюдению норм права может быть обоснована опросом осужденных правонарушителей (они рассматриваются как "эталон" негативного полюса шкалы), в сравнении с "эталонной" группой законопослушных граждан. Дихотомизация полярных групп по шкале должна созпадать с фактической поляризацией эталонных групп в пределах допустимой ошибки, величина которой зависит от задач исследования.
(3) Поиск независимого критерия как разновидность внешнего контроля надежности для измерения того же самого объекта или свойства.
Если подключить к телевизионному приемнику прибор, регистрирующий время его работы, и сопоставить показания прибора с результатами опроса о частоте и длительности просмотра телепрограмм, можно точно установить обоснованность данных опроса.
Не имея такой возможности, Б. М. Фирсов сопоставлял сведения, полученные по шкале среднепросмотрового времени, с данными по другой шкале, названной "изменение привычек" (табл. 1) [274, С, 107]. Последняя конструировалась по ответам на вопрос: "Придется ли Вам в случае длительного отсутствия телевизора менять свои привычки, способ проведения досуга, жизненный уклад?" Берем два крайних варианта ответов по второй шкале, отбрасывая промежуточные (в процентах к численности представителей каждого типа, т. е. по строке). Очевидно, что шкала "увлеченности", полученная как вторичная группировка данных среднепросмотрового времени Т, высоко согласуется со шкалой "привычек" и, следовательно, может считаться вполне обоснованной.7
7 Пользуясь той же шкалой, автор провел повторное сравнительное исследование аналогичной выборки ленинградцев спустя 10 и 12 лет. За период с 1967 г. по 1979 г. обнаружилось, что доля "весьма умеренных" телезрителей упала с 32% до 6% и "весьма увлеченных" повысилась с 16% до 40% [157. С. 701].
Таблица 1