Надежность измерительных процедур. Способы проверки шкалы на обоснованность
Следует иметь в виду, что операции повышения надежности первичного измерения, которые мы будем здесь рассматривать, используются лишь на стадии отработки инструмента измерения в процессе пилотажа. После окончательной проверки надежности построенных шкал и сбора данных на объектах исследования акцент контроля их достоверности переносится с первичного измерения на вторичные, т.е. комбинаторные процедуры, и так последовательно вплоть до обоснования достоверности и интерпретации итоговых выводов.
В целом же достоверность результатов исследования зависит от многих составляющих, начиная с того, насколько обоснована его общая концепция и все компоненты теоретико-методологического раздела программы, а далее - от качества исходных данных, системы их отбора, т.е. соответствия типа выборки (и ее организации) целям исследования, качества анализа данных и, наконец, от глубины интерпретации полученных зависимостей и связей.
В строгом смысле слова +понятие надежности измерения правомерно относить именно к инструменту, с помощью которого производится измерение, но не к самим данным, подлежащим измерению. В отношении данных, как и заключительных выводов из исследования, правильнее говорить, что они достоверны (или относительно достоверны) и потому, что фиксированы надежным инструментом.
Возможны различные типологии приемов оценки надежности первичной информации, например с точки зрения внешнего или внутреннего контроля данных, получаемых определенным способом. Мы будем пользоваться обобщающим понятием надежности инструмента измерения (и соответственно надежности данных, фиксируемых этим инструментом), имея в виду три составляющих: (1) обоснованность, (2) устойчивость и (3) правильность информации. Естественно, что и методы контроля на надежность будут рассмотрены в этих трех аспектах.
+Обоснованность шкалы заключается в том, что с ее помощью целенаправленно измеряют вполне определенное свойство или признак, не смешивая его с другими.
Предположим, при опросе телезрителей им предлагают указать, каким из перечисленных в прилагаемом списке передачам телевидение уделяет "слишком много", "достаточно" и "слишком мало" времени. Если с помощью этой трехчленной шкалы исследователь намерен фиксировать среднее время, отводимое телепередачам, его измерение будет необоснованным. В действительности он измеряет отношение людей к данным передачам, а не объем времени, отводимого для их трансляции. Обоснованное измерение объема времени на передачи разного типа — документальный анализ "сетки" программ телевидения.
Чтобы повысить обоснованность измерения, используют ряд технических приемов.
1.Наиболее простой способ — логические рассуждения на основе опыта и здравого смысла.
Заметим, однако, что логические рассуждения наподобие приведенных выше повышают обоснованность, но не являются прямым доказательством того, что мы меряем искомое свойство
2. Тест по "эталонной группе" - более сильный прием проверки инструмента на обоснованность. Смысл проверки - в сопоставлении данных, полученных путем измерения по шкале, с достоверными сведениями об объекте измерения.
Так, шкала на отношение к соблюдению норм права обосновывается опросом осужденных правонарушителей в сравнении с "эталонной" группой законопослушных граждан. Дихотомизация полярных групп по шкале должна совпадать с фактической поляризацией эталонных групп в пределах допустимой ошибки, величина которой зависит от задач исследования.
(3). Поиск независимого критерия как разновидность внешнего контроля надежности для измерения того же самого объекта или свойства.
Если подключить к телевизионному приемнику прибор, регистрирующий время его работы, и сопоставить показания прибора с результатами опроса о частоте и длительности просмотра телепрограмм, можно точно установить обоснованность данных опроса.
(4). Использование метода судей для отбора пунктов шкалы. Сомнения в обоснованности возникают уже на стадии первоначального отбора пунктов шкалы. Эти вопросы лучше всего доверить решению компетентных судей. В нашем случае ими являются типичные телезрители, которые будут представлять как бы микромодель основной массы опрашиваемых. В этом смысле "судейство" как способ контроля обоснованности шкалы надо отличать от опроса экспертов — профессиональных специалистов в данной области.
Численность судей зависит от меры однородности или разнородности выборочной совокупности основного обследования. Так, при построении шкал на отношение к досуговым занятиям мнения мужчин и женщин об одних и тех же занятиях будут существенно разными. Рекомендуется отобрать для судейства половину судей из женщин, половину — из мужчин. Не меньшее значение в данном случае будут иметь уровень образования и род занятий. Для компоновки судейской группы используют метод квоты (подробнее см. с. 389).
(5). Один из широко используемых приемов внутреннего контроля обоснованности — совмещение нескольких показателей для регистрации определенного одного свойства или построение индекса. Типы индексов крайне разнообразны. Они широко используются в психологических тестах, в социально-экономических исследованиях и демографии. Суть индексной обоснованности в том, что согласно гипотезе, данному свойству находится множество его проявлений, для каждого из которых формируют отдельную шкалу. Затем измерения по частным шкалам либо суммируются, либо из них образуют логические конструкции, как это было сделано в показателе "логический квадрат" для построения производной шкалы удовлетворенности работой (см. с. 202) .
Вполне справедливо выделяют два существенно разных аспекта обоснованности: теоретический и эмпирический [181, с. 109]. Первый непосредственно связан с содержательными посылками исследования и предполагает установление значимых связей с широким классом ситуаций, предсказываемых теорией, второй требует доказательства надежной регистрации данных в сравнительно узком секторе, в частном проявлении изучаемых объектов. "Если валидность (синоним обоснованности. - В.Я.) эмпирическую через измерение обеспечивают, — заключает В.И. Паниотто, — то валидность теоретическую только проверяют, т.е. уточняют область валидности методики, границы интерпретации получаемых материалов" [181,110].
Надежность измерительных процедур: устойчивость шкалы.Устойчивость измерения выражается в однозначности информации, которую мы извлекаем с помощью данной процедуры. Нередко устойчивость ошибочно отождествляют с надежностью процедуры в целом. И хотя последняя зависит не только от устойчивости, но также от обоснованности и правильности операций, подобное смешение не случайно: проверка инструмента на устойчивость - важнейшее условие его надежности.
1) Наиболее распространенный прием контроля на устойчивость — повторное измерение. Один и тот же объект измеряется дважды с двух-трехнедельным временным интервалом и с помощью одинаковой процедуры. Шкала считается устойчивой, если совпадения между первой и второй сериями измерений будут достаточно высокими.
В отличие от проверки на устойчивость измерения физических объектов социолог или психолог сталкивается здесь с особой проблемой — влиянием психологической установки человека, возникающей после первого замера. Люди могут намеренно или непроизвольно подгонять данные второго замера к предыдущим. Или же, напротив, интуитивно сопротивляясь повторному эксперименту, они покажут новые результаты.
Какая же мера устойчивости удовлетворительна? Это зависит от существа измеряемого свойства, его значимости для целей и задач исследования. В принципе для немногочленной шкалы среднеарифметическая ошибка различения градаций в 40% ее деления невысока, а соответствующая мера устойчивости (100% - 40% = 60%) вполне достаточна, ибо не перекрываются границы между двумя соседними интервалами шкалы. Если неустойчивость составила не 40%, а 60%, т.е. более половины деления шкалы, то ошибка была бы явно недопустима, ибо в среднем испытуемые не различают две соседние градации из трех.
Для многочленных шкал, например из 10 градаций, ошибка в 60% одного деления не слишком велика, так как перекрываются два деления из 10, т.е. не 2/3, а 0,2 общей "длины" шкалы. Если при обработке данных градации укрупнить, объединяя две соседние, то ошибка минимизируется до вполне уверенного уровня устойчивости.
Помимо показателей полной устойчивости шкалы возможны также показатели ее относительной устойчивости. Они полезны при сравнении разных шкал, например для выбора из нескольких вариантов наиболее правильной и точной шкалы (о чем говорится ниже в этом же разделе) или для того, чтобы сопоставить уровни устойчивости измерения разных свойств, каждое из которых фиксируется шкалами разного типа и разной степени дробности.
Но, повторяем, независимо от вида оценки или способа ее расчетов все эти показатели следует соотносить с существом изучаемой проблемы и мерой строгости, предъявляемой к достоверности данных, исходя из характера исследования.
2) Использование нескольких лиц для измерения одного свойства. Случается, что шкала неустойчива потому, что ее пункты произвольно интерпретируются самими исследователями. В особенности это характерно для шкал качественной классификации объектов. В таких (номинальных) шкалах группы объектов классифицируют с помощью описания всех качественных признаков, по которым каждый объект относится к определенному пункту шкалы ¾ классу.
Предположим, что выделено несколько признаков (с соответствующими индикаторами) для отнесения общественной деятельности в высшую категорию по уровню активности. Чтобы выполнить эту операцию однозначно, нужно убедиться, что признаки ясно различимы и при соотнесении видов деятельности с пунктами шкалы не возникает путаницы.
В этом случае объект измеряют одновременно несколько (минимум трое) лаборантов, использующих единую процедуру. Если данные, полученные разными лаборантами, высоко согласуются, шкала устойчивая, если нет — неустойчива, и мы начинаем искать другую, более приемлемую размерную величину. Причина неустойчивости шкалы — в плохом отборе индикаторов.
3) Наконец, третий прием контроля эталона измерения на устойчивость — "расщепление шкалы". Шкала раздваивается на две половины.
Если окажется, что измерения по каждой из них совпадают, их можно рассматривать как равноценные шкалы, суммировать данные и впредь пользоваться одновременно обеими половинами, образующими теперь единую и более надежную шкалу, чем каждая из ее составляющих.
7. Шкала Лайкерта: процедура построения.