Частотные распределения
ЧАСТЬ I
СТАТИСТИЧЕСКОЕ ОПИСАНИЕ
ГЛАВА 1
ДЕСКРИПТИВНАЯ СТАТИСТИКА
Для более глубокого исследования материала необходимы обобщающие количественные показатели, раскрывающие общие свойства статистической совокупности. Эти показатели, во-первых, дают общую картину, показывают тенденцию развития процесса или явления, нивелируя случайные индивидуальные отклонения, во-вторых, позволяют сравнивать различные совокупности и, наконец, используются во всех разделах математической статистики при более полном и сложном анализе статистического материала. Статистические характеристики описывают параметры т.н. эмпирического распределения признака.
Основные статистические характеристики
Эти параметры можно разделить на две основные группы: меры среднего уровня и меры рассеяния (разброса).
Меры среднего уровня
К ним относятся:
· среднее (арифметическое) значение – сумма всех значений, отнесенная к общему числу наблюдений (принятые обозначения: Mean или ), т.е. средним арифметическим значением признака называется величина
,
где – значение признака у i-го объекта, n – число объектов в совокупности.
· минимум – минимальное значение переменной (Min)
· максимум – максимальное значение переменной (Max)
· мода – наиболее часто встречающееся значение переменной (M)
· медиана – среднее по порядку значение (принятые обозначения: Median, m). Медиана – это "срединное" значение признака в том смысле, что у половины объектов совокупности значения этого признака меньше, а у другой половины – больше медианы. Вычислить медиану можно таким образом: упорядочить все значения признака по возрастанию (убыванию) и найти число в этом вариационном ряду, которое либо имеет номер (n+1)/2 – в случае нечетного n, либо находится посередине между числами с номерами n/2 и (n+2)/2 – в случае четного n [1].
Не все из перечисленных характеристик можно вычислять для качественных признаков. Если признак качественный и номинальный, то для него можно найти только моду (ее значением будет название наиболее часто встречающейся категории номинального признака). Если признак ранговый, то кроме моды для него можно найти еще и медиану, а также минимум и максимум. Однако среднее арифметическое значение можно вычислять только для количественных признаков.
В случае количественных данных все характеристики среднего уровня, очевидно, измеряются в тех же единицах, что и сам исходный признак. Если все значения исходного признака изменятся в несколько раз или на некоторое число, то же самое произойдет и со всеми средними величинами для этого признака.
Меры рассеяния
К ним относятся:
· среднее квадратическое или стандартное отклонение – мера разброса значений признака около среднего арифметического значения (принятые обозначения: Std.Dev. (standard deviation), s или s). Величина этого отклонения вычисляется по формуле
.
· дисперсия признака (s2 или s2)
· коэффициент вариации – отношение стандартного отклонения к среднему арифметическому, выраженное в процентах (обозначается в статистике буквой V). Коэффициент вычисляется по формуле: .
Прежде всего отметим, что все меры разброса можно вычислять только для количественных признаков. Все они показывают, насколько сильно варьируют значения признака (а точнее – их отклонения от среднего) в данной совокупности. Чем меньше значение меры разброса, тем ближе значения признака у всех объектов к своему среднему значению, а значит, и друг к другу. Если величина меры разброса равна нулю, значения признака у всех объектов одинаковы.
Наиболее часто используется среднее квадратическое (или стандартное) отклонение s. Оно измеряется, как и среднее арифметическое, в тех же единицах, что и сам исходный признак. Заметьте, что при изменении всех значений признака в несколько раз, точно так же изменится и стандартное отклонение, однако если все значения признака увеличить (уменьшить) на некоторую величину, его стандартное отклонение не изменится. Наряду со стандартным отклонением часто пользуются дисперсией, равной его квадрату, однако на практике она является менее удобной мерой, поскольку единицы измерения дисперсии не соответствуют единицам измерения признака (попробуйте представить рубли или тонны в квадрате!).
Смысл коэффициента вариации состоит в том, что он, в отличие от s, измеряет не абсолютную, а относительную меру разброса значений признака в статистической совокупности. Дело в том, что сравнение распределения отдельных признаков на основании обобщенных характеристик, таких, как среднее арифметическое значение и стандартное отклонение, затруднительно во многих случаях, например, когда эти признаки измеряются в разных единицах. Но даже если признаки и имеют одинаковый смысл, прямое сравнение возможно лишь для средних арифметических значений, но не для стандартных отклонений. Например, в одной группе среднее квадратическое отклонение по доходу равно 400 руб., а во второй – 2000 руб., то есть в 5 раз больше, чем в первой. Можно ли сделать вывод, что первая группа гораздо более однородна по величине дохода, чем вторая, – или следует обратить внимание на то, что и средние значения показателей неодинаковы? Если учесть, что средний доход в первой группе – 800 руб., а во второй – 8000 руб., то получим, что в первой группе V = 50%, а во второй V = 25%, т.е. в относительном измерении как раз вторая группа значительно более однородна .
Пример 1.1. Рассмотрим таблицу, созданную на основе базы данных по депутатам 1-й Государственной думы 1906 г. (файл Duma.sta). Эта таблица содержит количественную переменную "возраст".
Для получения дескриптивной статистики запустим программу STATISTICA и с помощью команды Открыть раздела Файл главного меню откроем файл с именем "Duma", который будет представлен отдельным окном (см. рис. 1.1)
Рис. 1.1. Окно данных
Чтобы выбрать вариант анализа, обратимся к разделу Статистика главного меню программы и в раскрывшемся списке выберем первый модуль – Основная статистика/Таблицы (рис. 1.2). Откроетсядиалоговое окно со списком подразделов Основной статистики, из которого надо снова выбрать первый – Дескриптивную статистику (Descriptive Statistics – рис. 1.3).
Открывшее диалоговое окно в левом верхнем углу содержит графическую кнопку Variables, нажав которую, можно выбрать анализируемые признаки. Выберем "возраст" и рассмотрим подробнее наиболее важные компоненты упомянутого диалогового окна (рис. 1.4).
Во-первых, окно содержит ряд вкладок, из которых по умолчанию открыта вкладка простой (быстрой) дескриптивной статистики (Quick).
Рис. 1.2. Выбор раздела статистики Рис. 1.3. Выбор подраздела
Рисунок 1.4. Диалоговое окно простой дескриптивной статистики
Простая дескриптивная статистика прежде всего позволяет увидеть таблицу наиболее общих статистических характеристик исходных данных (графическая кнопка Summary: Descriptive statistics). В набор этих характеристик, предлагаемый программой по умолчанию, входят: Valid N – число наблюдений, не содержащих пропусков (MD – Missing Data) в данной переменной, т.е. в нашем случае – число депутатов, у которых известен возраст; Mean – среднее арифметическое; Standard Deviation (среднее квадратическое отклонение), а также минимум и максимум (рис. 1.5).
Рис. 1.5. Простая дескриптивная статистика для переменной "возраст"
Кроме того, программа позволяет получить более детальную дескриптивную статистику. Выбрать нужный набор статистических характеристик позволяет вкладка Advanced. При переходе на эту вкладку вы увидите диалоговое окно (рис. 1.6), в котором можно пометить необходимые нам дополнительные характеристики.
Рисунок 1.6. Диалоговое окно детальной дескриптивной статистики
Добавим к стандартному набору еще несколько характеристик:
Median – медиану;
Mode – моду;
Lower/Upper quartiles – нижний/верхний квартили;
Quartile Range – разность между ними, т.е. диапазон значений, в который попадает половина наблюдений, ближайших к медиане;
Range – разность между минимальным и максимальным значениями признака.
Нажав после выбора графическую кнопку Summary, получим результат в виде таблицы, представленной на рис. 1.7.
Рис. 1.7. Детальная дескриптивная статистика для переменной "возраст"
Итак, средний возраст депутатов – почти 41 год при среднем квадратическом отклонении около 8,6 года.
Поскольку коэффициент вариации в таблице на рис. 1.5 (в программе Statistica не предусмотрено его вычисление) отсутствует, подсчитаем его, пользуясь имеющимися данными. В нашем случае коэффициент вариации равен 8,6/40,9*100% » 21%.
Качественный вывод из проделанных вычислений: большинство депутатов – люди среднего возраста, причем большинство депутатов имеют возраст в диапазоне 32-50 лет (или средний возраст 41 при относительном отклонении 21%.). При этом половина депутатов (интервал между нижним и верхним квартилями) имеет возраст от 34 до 46 лет.
Сравните среднее арифметическое значение и медиану. Среднее значение переменной "возраст" – около 41 года, т.е. больше, чем медиана (40). Как видим, разница невелика и может быть связана с тем, что в наших данных присутствует небольшая асимметрия: диапазон значений признака (26 – 66 лет) смещен вправо относительно среднего, т.к. среди депутатов, возраст которых сильно отличается от среднего, преобладают пожилые, а не молодые люди (значения их возраста отклоняются далеко вправо по оси возрастов от среднего).
Частотные распределения
При работе с пакетом STATISTICA всегда предполагается, что исходные данные имеют вид таблицы "объекты-признаки", т.е. каждый признак (как количественный, так и качественный) задается для каждого объекта. Однако чем больше объем совокупности, тем чаще повторяются значения признаков у разных объектов. Например, в таблице Duma встречаются люди одинакового возраста, с одинаковыми профессиями или уровнем образования и т.д. Поэтому кроме средних величин изучают распределения признаков, которые дают информацию о том, сколько раз встречаются различные значения признаков, т.е. каковы их частоты. Кроме того, более адекватное представление о распределении дают упорядоченные значения признака (если речь идет о количественных или ранговых признаках).
Таким образом, мы приходим к идее вариационного ряда – для каждого признака это упорядоченный ряд значений, которые встречаются в исходных данных, с указанием их частот. Частоты могут выражаться как абсолютными числами (количества объектов), так и относительными (доли или проценты).
Вариационные ряды можно строить как для качественных, так и для количественных признаков. Для номинальных признаков порядок категорий в вариационном ряду не имеет значения, а для ранговых и количественных признаков значения упорядочивают. При этом для количественных признаков различают две ситуации: а) признак может принимать любые значения из некоторого диапазона (является непрерывным); б) признак может принимать только конечное число отдельных значений (является дискретным). Так, возраст в предыдущем примере может принимать только целые значения.
Значения непрерывных (а также и дискретных признаков, если число отдельных значений достаточно велико) принято группировать в интервалы, т.к. учет всех различных значений привел бы к слишком длинному вариационному ряду, в котором, к тому же, частоты были бы очень небольшими. Так, значения возраста часто группируют в интервалы длиной 5 лет: 20-25, 25-30 и т.д.