Частотные распределения количественных признаков
Для построения простых частотных таблиц в программе STATISTICA можно использовать раздел Frequency tables на вкладке Quick (рис. 1.4). Если щелкнуть по соответствующей графической кнопке, программа выдает таблицу с параметрами по умолчанию (на рис. 1.8 показан результат построения частотного распределения признака "возраст" для файла Duma с числом интервалов, равным по умолчанию 10).
Как уже отмечалось, такие таблицы могут быть построены для любой переменной (как количественной, так и качественной), но значения количественной переменной можно естественным образом выстроить по порядку и кроме частот (Count) или долей (Percent) всех значений (или интервалов) подсчитать кумулятивные (т.е. накопленные) частоты (Cumulative Count) или доли (Cumul. %) значений признака. При этом подсчет долей (процентов) значений признака можно вести относительно только известных значений (of Valid) или относительно всех значений признака (of All).
Кумулятивная частота – это частота встречаемости текущего значения вместе со всеми предшествующими в упорядоченном ряду. Следовательно, кумулятивная доля показывает вклад текущего значения в общее количество. Зная кумулятивные частоту и долю, мы сразу можем сказать, содержит ли некоторая часть совокупности доминирующую группу значений или нет. Например, переменная может содержать несколько десятков различных значений, а совокупная встречаемость первых пяти из них составлять более половины.
Рис. 1.8. Частотное распределение для признака "возраст", полученное в разделе дескриптивной статистики
Более широкий спектр возможностей предлагает, однако, специальный раздел модуля Основная статистика/Таблицы, который называется Frequency tables (список разделов модуля Основная статистика… см. на рис. 1.3). Выбрав этот раздел, мы переходим в диалоговое окно частотных распределений, показанное на рис. 1.9.
Рис. 1.9. Диалоговое окно частотных распределений
Вкладка Options позволяет определить, какие из возможных частотных характеристик будут выводится на экран (по умолчанию это простые и кумулятивные частоты и проценты – см. рис. 1.10)
Рис. 1.10. Определение вывода на экран параметров частотной таблицы
Если перейти на вкладку Quick диалогового окна Frequency Tables, и нажать графическую кнопку Summary: Frequency Tables, то для количественного признака будет построена частотная таблица всех отдельных (дискретных) значений признака (по умолчанию учитываются все отдельные значения). Но это не всегда удобно, т.к. их может быть слишком много. Поэтому на основании таблиц частот отдельных значений количественного признака можно правильно подобрать размеры и число интервалов при переходе от дискретного к интервальному вариационному ряду. Это способствует более компактному представлению о распределении признака.
Изменить параметры частотной таблицы позволяет вкладка Advanced, где можно задавать параметры группировки значений признака:
без группировки (All distinct values) – по умолчанию для количественных признаков;
· размер интервала (Step Size);
· количество интервалов с точными значениями границ (No. of exact intervals);
· количество интервалов с округленными значениями границ – часто эти значения оканчиваются на 0 или на 5 ("Neat" intervals, approximate no.).
Рис. 1.11. Методы категоризации значений признака
Пример 1.2.Вновь обратимся к таблице Duma.sta и построим частотные таблицы для признака "возраст", выбирая либо длину интервала, либо число интервалов. Напомним, что в разделе Categorization method for tables & graphs есть возможность построения дискретных вариационных рядов. Для того, чтобы построить такой ряд, надо оставить переключатель в позиции All distinct values (рис. 1.11). Однако для выбранного признака лучше строить интервальные ряды.
а) Построим интервальный вариационный ряд, задавая размер возрастных групп, например, 5 лет (в окошке Step Size (размер интервала) вкладки Advanced диалогового окна Frequency Tables надо поставить число 5). Щелчок по графической кнопке Summary: Frequency Tables дает результат, показанный на рис. 1.12.
При этом способе группировки число групп заданного размера вычисляется автоматически, а за нижнюю границу первого интервала берется минимальное значение признака.
Мы видим, что первые четыре интервала на рис. 1.12 в совокупности покрывают 70% значений возраста.
Рис. 1.12. Интервальный ряд распределения по возрасту с длиной интервала 5 лет
б) Теперь зададим число групп, равное пяти в окошке "Neat" intervals, approximate no. (число интервалов с округленными границами). Результат приведен на рис. 1.13.
Рис. 1.13. Интервальный ряд распределения по возрасту
с числом интервалов, равным 5
При этом способе группировки программа вычисляет автоматически размер интервала, помещая минимум и максимум в центре первого и последнего интервалов, соответственно.
В данном случае уже первые две группы дают в совокупности более 50% всех депутатов.