Одномерные статистические распределения (средняя арифметическая, дисперсия, мода, медианна)
20. Построение перекрёстных таблиц и графиков по результатам исследования.
До начала ввода анкет в компьютер необходимо произвести ряд процедур, связанных с контролем качества анкет. От характера заполненности анкет зависит качеств первичной социологической информации, а следовательно и достоверность выводов. Поэтому до начала кодировки открытых вопросов анкеты необходимо осуществить их проверку на точность и полноту заполнения.
Если отсутствие ответов характерно в том или ином вопроснике, менее, чем для 10% содержащихся в нем вопросов, то опираясь на ответы респондента на остальные вопросы анкеты представляется возможным восстановить (с той или иной степенью вероятности) ответы на «пропущенный» вопрос.
Если в опроснике отсутствуют ответы респондента более чем на 20% вопросов, либо на 2–3 вопроса в социально-демографическом блоке, то такие опросники следует исключить из основного массива как некачественные.
При контроле анкет целесообразно проверить их на предмет наличия противоречий. Например, если в исследовании инвестиционного поведения в ответе на вопрос респондент указал, что акции и ценные бумаги его вообще не интересуют, а в конце анкеты на вопрос о среднем количестве акций, которыми обладает респондент, он называет 20, то здесь налицо противоречие. Некоторые противоречия относительно легко снять, скорректировав в первом вопросе ответ «не интересуюсь» на «интересуюсь иногда».
В более сложных ситуациях, когда противоречие в ответах на два и более вопросов неразрешимо, часть, либо все вопросы соответствующей анкеты исключаются из обработки на компьютере. В случае исключения из обработки 20% и более вопросов анкета подлежит выбраковке.
Нередко случается, что несмотря на подстрочное инструктивное указание в вопросе – выбрать 1,2 или 3 варианта ответа респондент обводит на несколько кодов больше. Коррекция ответа в таких случаях затруднена. На практике обычно сохраняют первые обведенные (подчеркнутые коды), зачеркивая остальные.
После выбраковки непригодных для обработки на ПК анкет, осуществляется составление бланка кодировки ответов респондента на открытые вопросы.
Ответы текстового характера, смысловое значение которых имеет широкий спектр, предварительно следует выписать (вручную или сокращенно на компьютере), отмечая частоту повторяемости утверждений или оценочных суждений по смыслу.
После подсчета частоты (повторяемости) идентичных по смыслу суждений, близкие по содержанию суждения объединяются в одну группу, сведя таким образом многозначность суждений к 5–10-ти укрупненным. Основой подобной укрупненной группировки служат задачи исследования.
Далее, каждой из полученных групп суждений присваивается числовой код, который учитывается при вводе в компьютер первичной социологической информации.
Социологические явления и процессы имеют массовый характер. Поэтому одним из главных инструментов социологического анализа является статистика – наука о том, как собирать, анализировать и интерпретировать данные о массовых явлениях и процессах.
Традиционно выделяют три основные функции статистики – описание, обобщение и объяснение (анализ). Понятие обработки данных связывают, в первую очередь, с методами описательной или дискриптивной статистики, которые применяются для получения обобщенных сведений об обследованной совокупности объектов (например, людей). Если исследование проводилось выборочным методом, результаты статистической обработки относятся только к выборке. Для того, чтобы обобщить их на генеральную совокупность, применяются специальные процедуры статистического вывода или индуктивной статистики. Методы статистического анализа данных предназначены главным образом для исследования связей между переменными.
Большинство статистических методов могут применяться «вручную», что, как правило, связано со значительным объемом рутинных вычислений. Широкое распространение персональных компьютеров и пакетов статистических программ упростило статистическую обработку и анализ данных.
Данными называют формализованную и структурированную информацию, собранную в ходе исследования. Структурирование предполагает определение списка измеряемых показателей (переменных) и списка объектов, подлежащих непосредственному обследованию (выборка). Формализация включает процедуры построения выборки, доступа к информации, ее фиксации, а также измерительные процедуры.
Общепринято представлять статистические данные в виде матрицы типа «объект-признак». В матрице данных каждая строка отводится одному объекту, а каждый столбец – одному признаку – переменной. На пересечении строки и столбца находится значение признака для объекта.
Наиболее простоя способ представления результатов исследования – одномерные частотные распределения, показывающие распространенность объектов с различными значениями переменных. Одномерным частотным распределением называют совокупность значений переменных и их частот. Значения переменных упорядочивают по возрастанию, непрерывные переменные должны быть предварительно сгруппированы в интервалы.
Различают абсолютные и относительные частоты. Абсолютная частота показывает количество объектов, обладающих определенным значением признака. Относительные частоты могут выражаться в процентах от объема выборки или в долях единицы. При анализе порядковых и количественных переменных часто бывает полезным распределение накопленных частот. Накопленной частотой значения переменной называется сумма частот от первого значения в распределении вплоть до значения, о котором идет речь. Накопленные частоты также могут быть абсолютными и относительными.
Согласно наиболее общему определению, между двумя переменными существует статистическая взаимосвязь, если при изменении значения одной переменной меняется распределение другой. Если статистической связи между переменными нет, то говорят, что они статистически независимы.
Универсальным средством анализа связей является таблица сопряженности, представляющая совместное распределение двух признаков.
Для определения взаимосвязи между полом, семейным положением и политической активностью следует представить собранный материал в виде таблицы. Первоначально собранный материал представляется в виде матрицы данных. Вдоль одной стороны матрицы перечислены респонденты, а вдоль другой помещены переменные. В графах матрицы указано, какое значение приняла каждая единица наблюдения для каждой переменной исследования.
Создание таблицы необходимо для того, как часто появляются те или иные значения одной переменной или комбинации переменных. Однако проведение анализа требует соответствующих шагов.
1) необходимо решить, какие переменные в соответствии с постановкой проблемы следует включить в анализ. Исходным моментом может служить пара переменных, где, как мы полагаем, одна влияет на другую, например, пол и политическая активность. Если взять предлагаемую причинную переменную в качестве независимой переменной (пол), а предполагаемую переменную эффекта в качестве зависимой переменной (для которой рассчитывается распределение: для наиболее активных, средне- и слабоактивных).
2) в анализ включаются новые – контрольные переменные. Эти переменные необходимы для более точной характеристики взаимосвязи между первыми двумя. Если к примеру высшее образование имеют больше мужчин, чем женщин, а оно идет в ногу с высокой политической активностью, то установленная сила взаимосвязи между полом и политической активностью или часть ее могут исчезнуть, если мы станем контролировать образование. Контроль означает построение трехвариантной таблицы, где пол и образование независимые переменные, а участие в политике – зависимая. При этом мы можем распределить людей с одинаковым уровнем образованием по контролируемым типологическим группам. Из массива данных выбираются респонденты, имеющие сходство по определенному признаку, например, по образованию. Тем самым определяются типологические группы с контролируемым параметром – высоким, средним или низким образованием, а затем изучаются их особенности применительно к «причинной переменной». Таким образом, контрольная переменная необходима для того, чтобы устранить двойную зависимость, когда влияние одной переменной на другую опосредуется третьим фактором.
Многовариантный анализ (декомпозиция) делает более дробной и более полной картину исходной взаимосвязи между нашей парой переменных. Можно выявить, какие компоненты взаимосвязи этих двух переменных обусловливают появление различных контрольных переменных. Затем с помощью причинной модели переменных – проинтерпретировать компоненты взаимосвязи. Если в модели контрольная переменная находится перед причинной переменной, то есть предшествует ей, то изучаемая взаимосвязь, согласно данной модели, есть ложный эффект. Это некаузальная статистическая взаимосвязь, и она не есть результат взаимодействия между двумя исходными переменными.
Корреляция означает наличие статистической взаимосвязи признаков. Один из них – коэффициент ранговой корреляции – ρ. Он легко рассчитывается «вручную», а применение его весьма эффективно при анализе распределений социологической информации, полученной при помощи ранговой шкалы.
Фактически коэффициент ранговой корреляции выявляет идентичность распределения установок, мнений, характеристик двух сравниваемых групп опрашиваемых при их ответах на один и тот же вопрос, либо близость распределения ответов одних и тех же групп респондентов на «смежные» вопросы, позиции которых являются показателями ранговой шкалы. При ρ= -1 порядок распределения ответов по двум сравниваемым группам прямо противоположен, а при ρ= +1 он полностью совпадает.
Наиболее простой метод выявления взаимосвязи двух признаков – группировка и сравнение средних. Например, если мы хотим оценить зависимость частоты посещения кинотеатров от возраста респондентов, то сначала группируем их по возрасту, после чего в каждой возрастной группе вычисляем среднюю посещаемость кинотеатров (в неделю, месяц, в год). Сравнение средних покажет нам наличие или отсутствие корреляции между выбранными двумя признаками – возраст респондентов и частота посещения ими кинотеатров.
Корреляционная связь двух (или нескольких) признаков социального объекта носит не функциональный, а статистический характер, в связи с чем она является не строгой закономерностью, а лишь тенденцией.
В процессе измерения корреляций между признаками решаются две задачи: определение формы и тесноты связи признаков.
При определении формы связи выявляется вариация (характер изменения) средних параметров результативного, под воздействием факторного признака, при условии их независимости от других признаков.