Обработка и анализ социологических данных
Среди процедур, выполнение которых обязательно на начальной стадии обработки информации, особое место занимают действия, называемые верификацией.
Верификация (от лат. «подтверждение») – проверка достоверности социологических данных. Основными критериями достоверности информации можно назвать:
· адекватность изучаемым процессам. Иначе говоря, собранная информация должна соответствовать действительному состоянию исследуемых явлений, их объективным параметрам;
· надежность,то есть быть способность устойчиво воспроизводить именно те характеристики объекта исследования, которые важны для исследователя. Собранная информация, как правило, не может противоречить изложенным в программе исследования основным теоретическим принципам и методическим подходам;
· валидность,то есть измерение тех качества или свойства изучаемых явлений и процессов, которые задуманы исследователем.
Провести полноценный анализ первичной социологической информации можно только после ее обработки, то есть приведения в состояние, удобное для сравнений, обобщений, интерпретаций. Подготовку собранной информации к анализу можно представить в виде расположенных в определенной последовательности процедур или этапов:
1. Проверкадокументов (бланков социологического инструментария) на точность, полноту и качество заполнения.
Говоря о точности заполнения, имеют в виду правильность (адекватность) ответов респондентов на вопросы. Например, если на вопрос анкеты «Были ли у Вас взыскания за последние 12 месяцев» дан ответ «да», а на вопрос «Если «да», то какие?» - ответа не было, значит ответ «да» в предыдущем вопросе следует исправить на вариант «затрудняюсь ответить».
Под полнотойзаполнения понимают наличие ответов на все или большинство вопросов. Например, если нет ответов более чем на 20% вопросов или отсутствуют ответы на вопросы «паспортички» – анкета бракуется.
Очень важно обращать внимание на качество заполнения. Если, например, ответы на открытые вопросы сделаны неразборчивым почерком, если контрольные вопросы противоречат основным, если из фильтрующих вопросов следует вывод о некомпетентности респондента – во всех этих случаях анкета исключается из обработки.
2. Доборпропущенных данных, то есть проведение дополнительных опросов взамен забракованных. Например, после исключения некоторого количества анкет из обработки из-за их низкого качества, необходимо провести дополнительные опросы, чтобы выборка оставалась репрезентативной.
3. Кодирование данных, то есть присвоение числового кодакаждой единице информации, необходимое для компьютерной обработки данных.
Способыкодирования вопросников могут быть различными:
1) сплошная нумерация – кодируется порядковым номером каждый вариант ответов, например:
1. Как Вы относитесь к телевизионной рекламе?
001. В целом положительно
002. В основном отрицательно
003. Нормально, понимая ее необходимость
004. Затрудняюсь ответить
2. Нужна ли вообще реклама? (возможно несколько ответов):
005. Да, обязательно нужна
006. Да, нужна, но в меньшем объеме
007. Да, нужна, но и в иных формах
008. Нет, не нужна
009. Затрудняюсь ответить
2) позиционноекодирование, когда числовой код состоит из порядкового номера вопроса и номера варианта ответа, например, соединив номер вопроса «04» и вариант ответа «1» получим код «041»:
04. Всегда ли дети правильно понимают рекламу?
Обычно понимают (041)
Чаще не понимают (042)
Бывает по-разному (043)
Затрудняюсь ответить (044)
05. Будет ли ребенок чаще чистить зубы после рекламы?
Да, будет (051)
Нет (052)
Возможно (053)
Затрудняюсь ответить (054)
С особыми трудностями приходится сталкиваться при кодировании открытых вопросов анкеты. Выполняя такую работу, следует вначале обработать часть анкет, выявить повторяющиеся варианты, затем классифицировать их, наделяя числовыми кодами.
4. Определение процентных значений, вычисление значений, необходимых для «сжатия» информации (средних арифметических, средних взвешенных и др.), приведение в состояние, удобное для анализа (группировка, ранжирование данных по возрастанию или убыванию признака).
5. Оформлениеданных в виде аналитических таблиц, графиков, диаграмм, с использованием различных способов, приемов, повышающих наглядность информации.
Деление процедур обработки информации на перечисленные выше этапы в определенной мере условно. Многие из видов работ могут выполняться в иной последовательности или параллельно друг другу.
Процедура обработки собранных данных должна быть максимально проста, экономична по затратам с применением средств современной вычислительной техники. Именно поэтому социологическую информацию желательно выражать в математических символах. Приписывание числовых значений свойствам исследуемого объекта называют измерением социологических характеристик.
В социологии различают следующие типы измерительных шкал:
· номинальныешкалы, предполагающие присвоение каждому признаку своего номера; например, ответы «да» обозначаются цифрой 1, ответы «нет» - 2, ответы «затрудняюсь ответить» - 3;
· порядковыешкалы, применяющиеся для оценки интенсивности признаков по критерию возрастания или убывания; например, используется пятибалльная шкала (5, 4, 3, 2, 1), где значение измеряемого признака убывает слева направо: 5 - очень высокая оценка, 4 - высокая, 3 - нейтральная, 2 - низкая, 1 - очень низкая;
· интервальныешкалы, используемые для измерения интенсивности повторения изучаемых признаков в пределах одинаковых интервалов; например, количество курящих школьников, а также число учащихся, желающих бросить курить: в 4-5 классах, в 6-7, в 8-9 и в 10-11 (в процентном отношении к общему количеству обследованных в каждой группе);
· шкалы отношений,выражающие пропорции измеряемых величин; например, среди детей, воспитываемых в семьях, где курит отец, «курильщиков» среди детей в 1,3 раза больше, а где курят отец и мать - в 1,5 раза больше, чем в семьях, где родители не курят.
Шкалы позволяют не только измерить, но и сгруппировать признаки в систему, приспособленную для анализа. В результате группировки исследуемых признаков получаются ряды чисел, которые принято называть рядами распределения.
Количество повторяющихся замеров в составе ряда называют частотой признака.Например, интервьюирование 49 школьников показало, что на вопрос «Как часто бывают у Вас конфликты с родителями?» ответы распределились следующим образом: «очень часто» (5 баллов) - 9 человек, «часто» (4 балла) -12 человек, «редко» (3 балла) - 19 человек, «очень редко» (2 балла) - 8 человек, «не бывают» (1 балл) - 1 человек. Если выстроить все ответы в порядке убывания получится ряд: 5555555554444444444443333333333333333333222222221.
Однако информацию, изложенную в виде ряда, трудно анализировать. Ее необходимо предварительно «сжать», выразить в более наглядной форме.
Повышение наглядностисобранных данных, то есть приведение их в компактное состояние, максимально подходящее для аналитических обобщений, осуществляется за счет различных способов,а именно:
· применение таблиц;
· использование графических способов представления информации (диаграмм, полигонов распределения, гистограмм и т.п.);
· вычисление средних величин и других значений, позволяющих «сжимать» информацию, выделять наиболее типичные, характерные для исследуемых явлений результаты;
· ранжирование данных;
· определение уровня связей между переменными.
Например, приведенный выше пример ряда в обработанном виде может быть изложен в форме таблицы (см. таблицу 2).
Таблица 2.
Частотное распределение ответов школьников на вопрос анкеты «Как часто бывают у Вас конфликты с родителями?»
Варианты ответов | Частота (чел.) |
Очень часто (5 баллов) | |
Часто (4 балла) | |
Редко (3 балла) | |
Очень редко (2 балла) | |
Не бывают (1 балл) | |
Всего опрошено: |
Втаблице 2 приведен пример одномерногораспределения, когда по каждому признаку подсчитывается общее количество ответов. Нередко в анализе используются двумерныеили многомерныераспределения, когда подсчеты ведутся с учетом взаимозависимости двух и более признаков. Данные чаще всего выражают в процентных соотношениях (см.таблицу 3).