ИСПОЛЬЗОВАНИЕ INTERNET И КОМПЬЮТЕРА. Все три стандартных статистических пакета (SPSS, SAS, BMDP) имеют схожие функции для вычисления распределения частот
Все три стандартных статистических пакета (SPSS, SAS, BMDP) имеют схожие функции для вычисления распределения частот, построения таблиц сопряженности признаков и проверки гипотезы. Основные программы для вычисления распределения частот следующие: FREQUENCIES (SPSS), UNIVARIATE (SAS) и 2D (BMDP). Другие программы определяют только распределение частот (FREQ в SAS, 4D в BMDP) или только некоторые статистики [27].
Вставка 15.1
Компьютерные программы для анализа распределения частот
SPSS
Основная программа в SPSS — FREQUENCIES. С ее помощью строится таблица значений частот, частостей и накопленных частостей для значений каждой переменной. Она проводит расчет всех необходимых статистик, за исключением коэффициента вариации. Если данные интервальные и требуется определить только итоговые статистики, то можно использовать процедуру DESCRIPTIVES. Все статистики, которые вычисляют с помощью DESCRIPTIVES, доступны и в FREQUENCIES. Однако DESCRIPTIVES эффективнее, поскольку она не сортирует значения в таблице частот. Дополнительная программа MEANS вычисляет среднее значение и стандартное отклонение для зависимой переменной в подгруппах случаев, определяемых независимыми переменными.
SAS
Основная программа в SAS — UNIVARIATE. В дополнение к определению таблицы частот, эта программа позволяет вычислить все необходимые статистики. Другая доступная процедура — FREQ. Для одномерного распределения частот FREQ не дает ни одной необходимой статистики. Для определения итоговых статистик используются такие процедуры, как MEANS, SUMMARY и TABULATE. Следует отметить, что FREQ недоступна в качестве независимой программы в микрокомпьютерной версии.
BMDP
Главная процедура в BMDP — 2D, она позволяет определять распределение частот и все ассоциированные статистики, за исключением коэффициента вариации. С помощью ID можно вычислить итоговые статистики для интервальных данных, но нельзя вычислить распределение частот. 4D вычисляет распределение частот для метрических и неметрических данных, но не позволяет вычислить итоговые статистики.
Minitab
Главная функция — Stats→Descriptive Statistics. Выходные величины включают среднее, медиану, стандартное отклонение, минимум, максимум и квартили. Гистограмму можно получить при выборе опции Graphs→ Histogram.
Excel
С помощью функции Tools→Data Analysis (Инструменты→Анализ данных) вычисляют дескриптивные статистики. Можно определить среднее, стандартную ошибку, медиану, моду, стандартное отклонение, дисперсию, эксцесс, асимметрию, размах, минимум, максимум, сумму и доверительный интервал. Частоты можно отобразитьть с помощью гистограммы.
Основные программы для построения таблиц сопряженности признаков — CROSSTABS (SPSS), FREQ (SAS) и 4F (BMDP). Все они могут строить таблицы сопряженности и вычислять данные для ячеек, проценты для категорий в рядах и колонках, высчитывать критерий хи-квадрат для определения уровня значимости и все рассмотренные показатели силы связи. Программу TABULATE (SAS) также можно использовать для получения данных для ячеек, процентов рядов и колонок, хотя она не вычисляет ни одной ассоциированной статистики. В программе Minitab таблицы сопряженности и критерий хи-квадрат вычисляют с помощью функции Stats→Tables. Каждую из этих характеристик можно выбрать с помощью функции Tables. Функция Data→Pivot Table выполняет построение таблиц сопряженности в программе Excel. Для дополнительного анализа необходимы такие функции: максимум, минимум, среднее или стандартное отклонение. Расчеты можно провести также на основе других ячеек. Для ChiTest можно воспользоваться функцией Inserts→ Function →Statistical→ChiTest.
Основная программа для выполнения проверки с помощью /-критерия в SPSS — Т-ТЕST. Она с помощью t-критерия проверяет как независимые, так и парные выборки. Все рассмотренные выше непараметрические методы проверки выполняются с помощью программы NPAR. В SAS используется T-TEST. Непараметрические методы проверки выполняются программой NPAR1WAY, которая проверяет гипотезу для двух независимых выборок (с помощью критерия Манна—Уитни, медианого критерия и критерия Колмогорова—Смирнова), а также вычисляет критерий Уилкоксона для парных выборок. Параметрический метод проверки с помощью t-критерия можно выполнить в BMDP, используя программы 3D, а не параметрическую проверку с помощью того же критерия — с использованием программы 3S. Параметрические критерии, доступные в Minitab с помощью функции descriptive stat, следующие: z-критерий для средних, t-критерий для средних и двухвыборочный t-критерий. Непараметрические критерии доступны с помощью функции Stat^Time Series. Они включают следующие категории: одновыборочный знаков, Уилкоксона, Манна—Уитни, Крускала—Уэллиса, медианный, Фридмана, серий и попарных разностей. Доступные параметрические критерии в Excel и других электронных таблицах включают t-критерий: парных выборок для средних; t-критерий: две независимые выборки, предполагающие равные дисперсии; t-критерий: две независимые выборки при допущении неравенства дисперсий; z-критерий: две выборки для средних и F-критерий для дисперсий двух выборок. Непараметрических критериев здесь нет.
В центре внимания Burke
Основной инструмент, используемый большинством исследователей для анализа данных, — построение таблиц сопряженности признаков (кросс-табуляция). Она позволяет окинуть быстрым взглядом распределение ответов и выявить проблемы с данными. Однако она может ввести в заблуждение, если не предпринять определенных мер.
Рассмотрим такой пример. Корпорация Burke завершила исследование, представляющее большой интерес для клиента. Результаты таблиц Burke отличались от недавних результатов другой маркетинговой компании. Для разбора этого примера используем иллюстративные данные (фактические данные — частная собственность компании).
Это исследование проводилось среди небольших компаний (с количеством работающих меньше 20 человек) относительно использования ими кадровых агентств как источника приема временных рабочих. Взята выборка в 100 фирм с одним работником, а также в 100 фирм с количеством работающих от 2 до 19 человек. Создана следующая таблица.
Это тип таблицы привычен для обычного клиента. Получается, что 52% фирм используют помощь кадровых агентств для привлечения временных рабочих Информационный центр корпорации Burke имел данные переписи населения, показывающие, что в генеральной совокупности имелось 9,2 миллиона фирм с одним работником и только 2,5 миллиона фирм с количеством работающих от 2 до 20 человек. Взвешенная общая колонка должна выглядеть следующим образом.
Количество постоянных работников, t
= 1 От 2 до 19 Итого
Использовали агентство? База 100 100 200
Да 40 65 105
40% 65% 52%
Нет 60 35 95
60% 35% 48%
Репрезентативная выборка должна включать 157 фирм с одним работником и 43 фирмы от 2 до 20 человек.
Тогда веса для формирования общей колонки равны 1,57 и 0,43 соответственно.
Правильная таблица должна имеет следующий вид:
Количество постоянных работников, t
= 1 От 2 до 19 Взвешенный итог
Использовали агентство? База 100 100 200
Да 40 65 91
40% 65% 45%
Нет 60 35 109
60% 35% 55%
% выборочной совокупности (выборки) —1 работник = 0,79
% выборочной совокупности (выборки) — от 2 до 20 работников = 0,21
Теперь клиенту сказали, что 45% (а не 52%) компаний с количеством работников меньше 20 человек используют кадровые агентства для приема временных работников. Может показаться, что это незначительное изменение, но когда клиент увидел последнюю таблицу, он принял решение о перестройке своего бизнеса. Никогда не формируйте итоговую колонку в таблицах, не рассмотрев истинное распределение в генеральной совокупности.
РЕЗЮМЕ
Базовый анализ данных позволяет глубже проникнуть в суть явления и является основой как для выполнения последующего анализа, так и для интерпретации данных. Для каждой переменной необходимо получить распределение частот признаков (вариационный ряд). Результаты анализа отражены в таблицах частот, частостей и накопленных частот для всех значений переменной. Они показывают наличие выбросов, пропущенных или экстремальных значений. Показатели центра распределения— среднее арифметическое, медиана и мода. Вариация распределения признаков описывается размахом, дисперсией, стандартным отклонением, коэффициентом вариации и межквартильным размахом. Форму кривой распределения определяют асимметрия и эксцесс.
Кросс-табуляция представляет собой процедуру создания таблиц сопряженности признаков, которые отражают совместное распределение значений двух или больше переменных. В кросс-табуляции проценты вычисляем по колонкам (к итоговой колонке) или по рядам (к итоговому ряду). Общее правило — вычисление процентов в направлении независимой переменной через зависимую переменную.
Часто, чтобы лучше уяснить суть связи переменных, вводят третью переменную. Статистика хи-квадрат позволяет проверить статистическую значимость наблюдаемой связи в таблице сопряженности. С помощью фи-коэффициента, коэффициента сопряженности, V-коэффициент Крамера и коэффициента "лямбда" определяют силу связи между переменными.
Для проверки гипотез о различиях используют параметрические и непараметрические методы. Из параметрических методов для проверки гипотезы относительно среднего совокупности используют t-критерий. Его различные типы подходят для проверки гипотезы, в основе которой лежит одна выборка, две независимые выборки или парные выборки. Из непараметрических методов популярны одновыборочные критерии, включающие критерий согласия Колмогорова—Смирнова, критерий хи-квадрат, критерий серий и биномиальный критерий. Для двух независимых непараметрических выборок можно использовать U-критерий Манна— Уитни, медианный критерий и критерий Колмогорова—Смирнова. В случае парных выборок для проверки гипотезы о показателе центра распределения полезны критерий попарных сравнений Уилкоксона и критерий знаков.