ИСПОЛЬЗОВАНИЕ INTERNET И КОМПЬЮТЕРА. Все три стандартных статистических пакета (SPSS, SAS, BMDP) имеют схожие функции для вычисления распределения частот

Все три стандартных статистических пакета (SPSS, SAS, BMDP) имеют схожие функции для вычисления распределения частот, построения таблиц сопряженности признаков и проверки гипотезы. Основные программы для вычисления распределения частот следующие: FREQUENCIES (SPSS), UNIVARIATE (SAS) и 2D (BMDP). Другие программы определяют только распределение частот (FREQ в SAS, 4D в BMDP) или только некоторые статистики [27].

Вставка 15.1

Компьютерные программы для анализа распределения частот

SPSS

Основная программа в SPSS — FREQUENCIES. С ее помощью строится таблица значе­ний частот, частостей и накопленных частостей для значений каждой переменной. Она про­водит расчет всех необходимых статистик, за исключением коэффициента вариации. Если данные интервальные и требуется определить только итоговые статистики, то можно ис­пользовать процедуру DESCRIPTIVES. Все статистики, которые вычисляют с помощью DESCRIPTIVES, доступны и в FREQUENCIES. Однако DESCRIPTIVES эффективнее, по­скольку она не сортирует значения в таблице частот. Дополнительная программа MEANS вычисляет среднее значение и стандартное отклонение для зависимой переменной в под­группах случаев, определяемых независимыми переменными.

SAS

Основная программа в SAS — UNIVARIATE. В дополнение к определению таблицы час­тот, эта программа позволяет вычислить все необходимые статистики. Другая доступная процедура — FREQ. Для одномерного распределения частот FREQ не дает ни одной необ­ходимой статистики. Для определения итоговых статистик используются такие процедуры, как MEANS, SUMMARY и TABULATE. Следует отметить, что FREQ недоступна в качестве независимой программы в микрокомпьютерной версии.

BMDP

Главная процедура в BMDP — 2D, она позволяет определять распределение частот и все ассоциированные статистики, за исключением коэффициента вариации. С помощью ID можно вычислить итоговые статистики для интервальных данных, но нельзя вычислить распределение частот. 4D вычисляет распределение частот для метрических и неметрических данных, но не позволяет вычислить итоговые статистики.

Minitab

Главная функция — Stats→Descriptive Statistics. Выходные величины включают среднее, медиану, стандартное отклонение, минимум, максимум и квартили. Гистограмму можно получить при выборе опции Graphs→ Histogram.

Excel

С помощью функции Tools→Data Analysis (Инструменты→Анализ данных) вычисля­ют дескриптивные статистики. Можно определить среднее, стандартную ошибку, медиа­ну, моду, стандартное отклонение, дисперсию, эксцесс, асимметрию, размах, минимум, максимум, сумму и доверительный интервал. Частоты можно отобразитьть с помощью гистограммы.

Основные программы для построения таблиц сопряженности признаков — CROSSTABS (SPSS), FREQ (SAS) и 4F (BMDP). Все они могут строить таблицы сопряженности и вычис­лять данные для ячеек, проценты для категорий в рядах и колонках, высчитывать критерий хи-квадрат для определения уровня значимости и все рассмотренные показатели силы связи. Про­грамму TABULATE (SAS) также можно использовать для получения данных для ячеек, про­центов рядов и колонок, хотя она не вычисляет ни одной ассоциированной статистики. В про­грамме Minitab таблицы сопряженности и критерий хи-квадрат вычисляют с помощью функ­ции Stats→Tables. Каждую из этих характеристик можно выбрать с помощью функции Tables. Функция Data→Pivot Table выполняет построение таблиц сопряженности в программе Excel. Для дополнительного анализа необходимы такие функции: максимум, минимум, среднее или стандартное отклонение. Расчеты можно провести также на основе других ячеек. Для ChiTest можно воспользоваться функцией Inserts→ Function →Statistical→ChiTest.

Основная программа для выполнения проверки с помощью /-критерия в SPSS — Т-ТЕST. Она с помощью t-критерия проверяет как независимые, так и парные выборки. Все рассмотренные выше непараметрические методы проверки выполняются с помощью программы NPAR. В SAS используется T-TEST. Непараметрические методы проверки выполняются программой NPAR1WAY, которая проверяет гипотезу для двух независимых выборок (с помощью критерия Манна—Уитни, медианого критерия и критерия Колмогорова—Смирнова), а также вычисляет критерий Уилкоксона для парных выборок. Параметрический метод проверки с помощью t-критерия можно выполнить в BMDP, используя программы 3D, а не параметрическую проверку с помощью того же критерия — с использованием программы 3S. Параметрические критерии, доступные в Minitab с помощью функции descriptive stat, следующие: z-критерий для средних, t-критерий для средних и двухвыборочный t-критерий. Непараметрические критерии доступны с помощью функции Stat^Time Series. Они включают следующие категории: одновыборочный знаков, Уилкоксона, Манна—Уитни, Крускала—Уэллиса, медианный, Фридмана, серий и попарных разностей. Доступные параметрические критерии в Excel и других электронных таблицах включают t-критерий: парных выборок для средних; t-критерий: две независимые выборки, предполагающие равные дисперсии; t-критерий: две независимые выборки при допущении неравенства дисперсий; z-критерий: две выборки для средних и F-критерий для дисперсий двух выборок. Непараметрических критериев здесь нет.

В центре внимания Burke

Основной инструмент, используемый большинством исследователей для анализа данных, — построение таблиц сопряженности признаков (кросс-табуляция). Она позволяет окинуть быстрым взглядом распределение ответов и выявить проблемы с данными. Однако она может ввести в заблуждение, если не предпринять определенных мер.

Рассмотрим такой пример. Корпорация Burke завершила исследование, представляющее большой интерес для клиента. Результаты таблиц Burke отличались от недавних результатов другой маркетинговой компании. Для разбора этого примера используем иллюстративные данные (фактические данные — частная собственность компании).

Это исследование проводилось среди небольших компаний (с количеством работающих меньше 20 человек) относительно использования ими кадровых агентств как источника приема временных рабочих. Взята выборка в 100 фирм с одним работником, а также в 100 фирм с количеством работающих от 2 до 19 человек. Создана следующая таблица.

Это тип таблицы привычен для обычного клиента. Получается, что 52% фирм используют помощь кадровых агентств для привлечения временных рабочих Информационный центр корпорации Burke имел данные переписи населения, показывающие, что в генеральной совокупности имелось 9,2 миллиона фирм с одним работником и только 2,5 миллиона фирм с количеством работающих от 2 до 20 человек. Взвешенная общая колонка должна выглядеть следующим образом.

Количество постоянных работников, t

= 1 От 2 до 19 Итого

Использовали агентство? База 100 100 200

Да 40 65 105

40% 65% 52%

Нет 60 35 95

60% 35% 48%

Репрезентативная выборка должна включать 157 фирм с одним работником и 43 фирмы от 2 до 20 человек.

Тогда веса для формирования общей колонки равны 1,57 и 0,43 соответственно.

Правильная таблица должна имеет следующий вид:

Количество постоянных работников, t

= 1 От 2 до 19 Взвешенный итог

Использовали агентство? База 100 100 200

Да 40 65 91

40% 65% 45%

Нет 60 35 109

60% 35% 55%

% выборочной совокупности (выборки) —1 работник = 0,79

% выборочной совокупности (выборки) — от 2 до 20 работников = 0,21

Теперь клиенту сказали, что 45% (а не 52%) компаний с количеством работников мень­ше 20 человек используют кадровые агентства для приема временных работников. Может показаться, что это незначительное изменение, но когда клиент увидел последнюю таблицу, он принял решение о перестройке своего бизнеса. Никогда не формируйте итоговую колон­ку в таблицах, не рассмотрев истинное распределение в генеральной совокупности.

РЕЗЮМЕ

Базовый анализ данных позволяет глубже проникнуть в суть явления и является основой как для выполнения последующего анализа, так и для интерпретации данных. Для каждой переменной не­обходимо получить распределение частот признаков (вариационный ряд). Результаты анализа отражены в таблицах частот, частостей и накопленных частот для всех значений переменной. Они по­казывают наличие выбросов, пропущенных или экстремальных значений. Показатели центра рас­пределения— среднее арифметическое, медиана и мода. Вариация распределения признаков описывается размахом, дисперсией, стандартным отклонением, коэффициентом вариации и межквартильным размахом. Форму кривой распределения определяют асимметрия и эксцесс.

Кросс-табуляция представляет собой процедуру создания таблиц сопряженности призна­ков, которые отражают совместное распределение значений двух или больше переменных. В кросс-табуляции проценты вычисляем по колонкам (к итоговой колонке) или по рядам (к итоговому ряду). Общее правило — вычисление процентов в направлении независимой пе­ременной через зависимую переменную.

Часто, чтобы лучше уяснить суть связи переменных, вводят третью переменную. Статистика хи-квадрат позволяет проверить статистическую значимость наблюдаемой связи в таблице со­пряженности. С помощью фи-коэффициента, коэффициента сопряженности, V-коэффициент Крамера и коэффициента "лямбда" определяют силу связи между переменными.

Для проверки гипотез о различиях используют параметрические и непараметрические ме­тоды. Из параметрических методов для проверки гипотезы относительно среднего совокупно­сти используют t-критерий. Его различные типы подходят для проверки гипотезы, в основе ко­торой лежит одна выборка, две независимые выборки или парные выборки. Из непараметри­ческих методов популярны одновыборочные критерии, включающие критерий согласия Колмогорова—Смирнова, критерий хи-квадрат, критерий серий и биномиальный критерий. Для двух независимых непараметрических выборок можно использовать U-критерий Манна— Уитни, медианный критерий и критерий Колмогорова—Смирнова. В случае парных выборок для проверки гипотезы о показателе центра распределения полезны критерий попарных срав­нений Уилкоксона и критерий знаков.

Наши рекомендации