Статистические характеристики
Среднее арифметическое
СА – показывает среднее выборки для количественных шкал.
Для порядковой шкалы в качестве меры средней тенденции используется медиана, которая показывает центр вариационного ряда, деля его на две равные части.
Для данных, имеющих форму частотной таблицы более точным методом определения среднего значения является медиана для концентрированных данных.
Меры разброса
Стандартное отклонение и дисперсия (квадрат стандартного отклонения) – используются для определения степени разброса данных относительно среднего для количественных шкал. Чем больше мера разброса, тем более неоднородной является выборка. Большой разброс делает выводы о среднем значении не точными. Со средним значением всегда необходимо рассчитывать меру разброса (например, стандартное отклонение).
Для порядковых данных в качестве меры разброса выступает межквартильный размах.
Для номинальных – размах - разница между наибольшим и наименьшим значением.
Стандартная ошибка среднего позволяет сделать вывод о доверительном интервале, который можно экстраполировать по данным выборки на таблицу сопряжённости.
Доверительный интервал (95%) рассчитывается как среднее арифметическое ± 1.96 * стандартную ошибку (SE).
Представление о доверительном интервале даёт возможность утверждать, что с вероятностью 95% данные из этого интервала выборки будут обнаружены в таблице сопряжённости.
Пятипроцентное усечённое среднее - среднее значение, вычисленное без учёта 5% наименьших и 5% наибольших значений (среднее без экстремумов).
Коэффициент асимметрии – мера отклонения частоты от симметричного распределения, то есть такого, у которого по обе стороны от среднего располагается равное число значений.
«0» - отсутствие асимметрии
«+» - смещение вправо
«-» - смещение влево
Эксцесс (коэффициент вариации) – демонстрирует, является ли коэффициент пологим либо круты.
«+» - крутой
«-» - пологий
Если коэффициент асимметрии и эксцесс равны нулю, то выборки располагаются по нормальному распределению.
Точной оценкой формы распределения является метод Колмогорова-Смирнова.
Путь: Анализ – Непараметрические критерии
Выводы делаются по показателю двусторонней асимптологической значимости (Отклонение P).
Если p < 0,05, то переменная не подчиняется нормальному распределению и наоборот, если p > 0,05, то переменная подчиняется.
Для того чтобы вывести статистические характеристики отдельной переменной по группам, необходимо группирующую переменную перенести в поле факторов.
Анализ таблиц сопряжённости также предполагает вывод результатов по группирующим переменным.
Группирующие переменные вводятся в слои.
Лекция 18 (20.11)
Отбор данных
Отбор данных - выбор наблюдений по определённым критериям.
После отбора все вычисления (например, построение частотных таблиц, таблиц сопряжённости, графиков) будут проводиться только по отобранным наблюдениям.
Пример: из всех респондентов могут быть отобраны только мужчины определённого возраста или образования, голосующие за определённую партию.
SPSS осуществляет 3 возможности отбора:
1. Выбор по определённому условию
2. Извлечение случайной выборки наблюдений (может быть отобран определённый процент от всех респондентов)
3. Разделение определений на группы
Например, могут быть отобраны группы по возрасту людей, которые собираются принятие участие в выборах.
Алгоритм:
• Загрузить файл Выборы
• Выберите команды Данные - Отобрать наблюдения
• Если выполнено условие - Если...
• В этом диалоговом окне имеются: список переменных, редактор условий, клавиатура, список функций
Классификация операторов:
• Арифметические операторы - обычно используются для создания новых переменных.
• Операторы отношений. Отношение - логическое выражение, в котором два или более значений переменных сопоставляются друг с другом посредством оператора отношения.
Например, пол респондента и количество полных лет - будут отобраны Оператор "&" позволяет отобрать женщин возрастом более 30 лет.
Операторы отношений:
Знак | Альтернативный текст | Значение |
< | LT | Меньше |
> | GT | Больше |
<= | LE | Меньше или равно |
>= | GE | Больше или равно |
= | EQ | Равно |
≈= | NE или <> | Не равно |
Логические операторы:
Знак | Альтернативный текст | Значение |
& | AND | И |
| | OR | Или |
≈ | NOT | Не |
Приоритеты между логическими операторами:
Приоритет | Значение |
NOT | |
AND | |
OR |
Логические функции переносятся в редактор условий двойным щелчком в списке функций.
Вместо знаков вопросов вводятся переменные и аргументы.
Редактирование функций осуществляется в редакторе.
Функции
Функция RANGE (промежуток данных):
Аргументами являются переменная и значения.
Например, RANGE(v36,18,36) - v36-возраст, остальные данные будут исключены.
В результате действия этой функции образуется новая переменная filter_$, которая принимает значение 1 для респондентов в возрасте от 18 до 36 годов и 0 - для не отобранных данных (отображаются в редакторе как зачёркнутые).
Функция ANY (конкретные данные):
Аргументами являются переменная и значения.
Например, ANY(v1,2,64) – не будет обрабатывать респондентов, номер которых не равен 2 или 64.
Функция может работать не только с числовыми, но и с символьными значениями.
Например, ANY(страна,«Афганистан», «Замбия») – только из Афганистана и Замбии.
Командный синтаксис
SELECT IF Пол=2
EXECUTE.
Для удаления фильтра его нужно выделить и нажать Backspace
Отбор данных по нескольким переменным.
Пример: отобрать женщин, которые будут голосовать за Путина.
V35 = 2&V34_1 = 1
Расчёт суммарных статистик:
Анализ – Описательные статистики – выбрать новый фильтр – Статистики – Сумма – ОК
/STATISTICS=SUM
/ORDER=ANALYSIS
Оператор «И».
V36 >= 40&V36 <= 60
или
V36 >= 40ANDV36 <= 60
или
RANGE(V36,40,60)
Оператор «ИЛИ».
V32_1 = 1ORV32_2 = 1ORV32_3 = 1
или
ANY(V32_1, V32_2, V32_3)
или
V32_1 = 1|V32_2 = 1|V32_3 = 1