В. Формирование исходной базы данных в программном комплексе SPSS.
Структура редактора данных.Файл исходной базы данных для проведения статистического анализа в SPSS формируется в редакторе данных (Data Editor). Редактор данных имеет две вкладки: «Свойства переменных» (Variable View) и «Значения переменных» (Date View). Данные вкладки представляют собой таблицы, содержащие информацию о данных, собранных для проведения анализа.
Во вкладке «Variable View» представлена таблица с данными, описывающими свойства переменных. Каждая строка отображает переменную (вопрос анкеты), каждый столбец – ее свойства (рис. 1).
В столбце «Name» таблицы «Свойства переменных» указывается имя переменной – как правило, это номер вопроса в анкете. Например, в базе данных, представленной в рис. 1, переменная «пол» имеет название «s_1», поскольку в разделе анкеты «социально-демографические признаки» вопрос о поле респондента находился на первом месте.
Имена переменных могут содержать буквы латинского алфавита и цифры, а также некоторые символы; @, S, _, #. В сумме число знаков не должно превышать «8». Не допускаются пробелы и буквы других алфавитов. Имя переменной должно начинаться с буквы и не может заканчиваться знаком подчеркивания «_».
Рисунок 1 – Редактор данных: вкладка
«Свойства переменных (Variable View).
В столбце «Туре» таблицы «Свойства переменных» указывается тип переменной; новые, созданные, переменные по умолчанию являются числовыми (Numeric), Если требуется изменить тип переменной, следует подвести курсор в соответствующую ячейку таблицы, и при нажатии кнопки мыши на экране появится диалоговое окно «Тип переменной» (Variable Type).
Рисунок 2 – Диалоговое окно «Тип переменной».
В диалоговом окне «Тип переменной» возможен выбор формата записи значений переменной:
Comma (например: 43,675.67);
Dot (например: 43.675, 67);
Scientific notation (например: 43Е+0,4);
Dollar (например:$43,675).
Аналогичным образом можно выбрать текстовую переменную (String). Однако применение текстовых переменных в SPSS практически невозможно, поскольку с ними нельзя производить никаких арифметических операций и рассчитывать какие-либо статистические показатели.
В поле «Width» диалогового окна «Тип переменной» (рис. 2) указывается число знаков, используемых для кодировки переменной. Например, для кодировки переменной «пол»используется только один знак («1»- «мужчины» или «2» - «женщины»).
Число знаков, используемых для кодировки переменной, можно также указать в столбце «Width» («Формат столбца») таблицы «Свойства переменных» (табл. 1).
В поле «Decimal Places» диалогового окна «Тип переменной» указывается число знаков после запятой при записи значений переменной. Например, для переменной «пол» в поле «Decimal aces» указывается значение 0. Ответы респондентов в данном Учае заносятся в базу данных в виде целых чисел («1» –– «мужчины» или «2» – «женщины»).
Число знаков после запятой при записи значений переменной можно также указать в столбце «Decimals» («Десятичные разряды») таблицы «Свойства переменных».
В столбце «Label» таблицы «Свойства переменных» указываются метки переменных. Метка - название, позволяющее огщ, сать переменную более подробно, чем имя переменной, она Может содержать до 256 символов. В качестве этих символов могут выступать также буквы русского алфавита.
При задании меток переменных часто используются формулировки вопросов, содержащихся в анкете. Например, в качестве метки переменной «пол» в редакторе данных может быть введена фраза: «Укажите, пожалуйста, свой пол». Однако следует помнить, что метка переменной будет отображаться во всех графиках и таблицах, представляющих результаты статистического анализа. Поэтому рекомендуется использовать более лаконичные метки для наглядности представления результатов анализа.
В столбце «Values» таблицы «Свойства переменных» (рис. 1) отображаются значения меток переменных. Если в поле «Label» указывается вопрос анкеты, то в поле «Values» указываются коды возможных вариантов ответа на этот вопрос.
Для заполнения поля «Values» необходимо произвести кодировку вариантов ответа. При подведении курсора к соответствующей ячейке таблицы и нажатии клавиши мыши на экране компьютера появляется диалоговое окно «Значение меток переменных» (Value Labels) (рис. 3). В диалоговом окне «Значение меток переменных» в поле «Value» указываются числовые коды вариантов ответа, а в поле «Value Label» – их вербальные формулировки.
При задании вербальных формулировок следует учитывать, что они будут фигурировать впоследствии в графиках и аналитических таблицах.
Например, ответ на вопрос о половой принадлежности респондента должен быть не «мужской» («женский»), а «мужчины» («женщины»).
Процедура кодировки производится поэтапно по каждому вариантуответа. В рассматриваемом примере кодировки переменной «пол», сначала в поле «Value» указывается числовой код «1», а в поле «Value Label» – вербальный вариант ответа «мужчины». После нажатия кнопки «Add» эти данные переносятся в большое поле диалогового окна «Значение меток переменных». Затем подобным образом кодируется вариант ответа «женщины». После нажатия кнопки «ОК» диалоговое окно «Значение меток переменных» закрывается, а указанные в нем данные заносятся в столбец «Values» таблицы «Свойства переменных».
В столбце «Missing» («Пропущенные значения») рис. 1 «Свойства переменных» следует указать, какие коды вариантов ответов следует исключить из анализа.
Рисунок 3 – Диалоговое окно «Значение меток переменных.
В SPSS допускаются два вида пропущенных значений:
– Пропущенные значения, определяемые системой (System-defined missing values). Если в матрице данных есть незаполненные ячейки, система SPSS самостоятельно идентифицирует их как пропущенные значения. Отсутствие ответа отражается в исходном файле данных в виде запятой.
– Пропущенные ответы, задаваемые пользователем {User-defined missing values). Например, среди вариантов ответа на поставленный вопрос можно закодировать отсутствие определенного ответа («98» — «не знаю», «99» — «нет данных») и затем в поле «Missing» указать эти коды, чтобы исключить соответствующие варианты ответа из анализируемых данных. При подведении курсора к соответствующей ячейке столбца «Missing» и нажатии кнопки мыши открывается диалоговое окно «Пропущенные значения» (рис 4).
По умолчанию в диалоговом окне «Пропущенные значения» отмечается команда «No missing values». Это означает, что пропущенных значений нет, а все варианты ответа на вопрос рассматриваются как допустимые.
Рисунок 4 – Диалоговое окно «Пропущенные значения».
Если бы нужно было указать коды вариантов ответа, исключаемых из процедуры анализа, то следовало бы выбрать команду «Discrete missing values» и в соответствующих ячейках указать ДЫ «98» и «99» («98» – «не знаю», «99» – «нет данных»). Для одной переменной можно задать до трех пропущенных значений.
Существует еще один вариант задания пропущенных значенний: «Range plus one optional discrete missing value» («Диапазон плюс единичное пропущенное значение»). Эта команда применялась бы в случае, если бы, например, при заданных значениях переменной «возраст» нужно было бы исключить из исследований респондентов от 20 до 40 лет, а также лиц в возрасте 55 лет.
В рассматриваемом примере описания свойств переменной «пол» достаточно сложно представить, чтобы кто-то из респондентов затруднился ответить или не захотел отвечать на вопрос о своей половой принадлежности. Поэтому в поле «Missing» таблицы «Свойства переменных» отсутствуют какие-либо коды вариантов ответа.
В столбце «Columns» («Столбцы») таблицы «Свойства переменных» указывается ширина столбца, содержащего значения соответствующей переменной в таблице другой вкладки редактора данных: «Значения переменных» (Date View) (рис. 5). По умолчанию ширина столбца задается «8».
В столбце «Alignment» («Выравнивание») таблицы «Свойства переменных» задается положение кодов ответов в таблице «Значения переменных» во вкладке редактора данных «Date View». Они могут быть выровнены по правому краю {Right), по левому краю (Left) или по центру (Center). По умолчанию задается выравнивание по правому краю. Если нужно изменить порядок выравнивания, то следует подвести курсор к соответствующей ячейке столбца «Alignment», и при нажатии клавиши мыши на экране появится меню, содержащее три вышеперечисленных варианта выравнивания данных, из которых следует выбрать желаемый
Рисунок 5 – Редактор данных: «Значения переменных».
В столбце «Measure» («Шкала измерения») таблицы «Свойств переменных» указывается тип шкалы, по которой измеряется переменная. По умолчанию задается метрическая шкала (Scale) В случае необходимости тип шкалы можно изменить. Для этого следует подвести курсор в соответствующую ячейку столбца «Measure» и нажать клавишу мыши, после чего на экране по-, явится меню из трех типов шкалы измерения (рис. 6).
Рисунок 6 – Меню выбора типа шкалы измерения переменной.
В зависимости от вида переменной следует выбрать один из трех типов шкалы измерения: метрическую (Scale), порядковую (Ordinal) или номинальную (Nominal). Поскольку переменная «пол» измеряется по номинальной шкале, то при заполнении таблицы «Свойства переменных» в строке этой переменной в столбце «Measure» выбирается тип шкалы измерения «Nominal». После того как заполнена таблица «Свойства переменных» во вкладке редактора данных «Variable View», следует открыть другую вкладку редактора данных – «Date View».
Во вкладке редактора данных «Date View» представлена таблица с данными, описывающими значения переменных. Каждый столбец отображает переменную (вопрос анкеты), каждая строка – от дельное наблюдение (объект сбора информации) (рис. 5). В качестве объектов сбора информации могут выступать люди, предприятия, продукты, бренды и т.д.
На рис. 5 представлен фрагмент таблицы, содержащей значения переменных, описанных в таблице «Свойства переменных».
Из данных таблицы «Свойства переменных» (табл. 1) известно, что переменная с именем «s_l» имеет метку «Пол». Метка переменной «пол» имеет два значения: «мужчины» (код «1») и женщины (код «2»). В столбце «s_l» таблицы «Значения переменных» (рис. 5) содержатся закодированные ответы респондентов на вопрос об их половой принадлежности: «I» или «2». Так, по данным этой таблицы известно, что респондент в строке 1143 - мужчина, а респондент в строке 1144 – женщина.
Из данных таблицы «Свойства переменных» также известно что переменная с именем «s_1a» имеет метку «Возраст». Эта переменная не имеет кодировки (в столбце «Values» отсутствуют значения меток переменных). В столбце «s_1a» таблицы «Значения переменных» содержатся незакодированные ответы респондентов на вопрос об их возрасте. Так, поданным этой таблицы известно, что респондент в строке 1143 – мужчина в возрасте З1 года, а респондент в строке 1144 - женщина в возрасте 33 лет.