Одномерное частотное распределение
ОЧР имеёт вид таблицы, содержащие следующие данные:
- первый столбец: значения изучаемой переменной;
- второй: абсолютная частота;
- третий: относительная частота в процентах;
- четвертый: рассчитывается только для количественных признаков и порядковых шкал, и содержит накопленную частоту.
Таблица ОЧР строится на основании данных матрицы «объект-признак».
Абсолютная частота – fi. Относительная частота (в процентах). В сумме – 100%. fi(%) = fi/n* 100%. Замечание: теории статистического вывода вместо относительной частоты процентов используется относительная частота в долях от 1. Когда мы строим таблицу одномерного распределения для количественного признака, мы обязательно должны упорядочить значения признака по возрастанию. Накопленные частоты: абсолютные и относительные в процентах, возрастающие и убывающие – Fi(%). Наиболее часто исследователи пользуются возрастающие накопленной частотой в процентах. Если рассчитываем возрастающую накопленную частоту, начинаем с частоты, соответствующей первому значению признака. Накопленные частоты могут использоваться при ответе на вопрос, например: «Каков процент респондентов, возраст которых меньше либо равен 35 годам?». Одномерное частотное распределение количественных признаков называется вариационным рядом.
Возраст | fi | fi(%) | Fi(%) |
2,4 | 2,4 | ||
36,5 | 38,9 | ||
46,3 | 85,2 | ||
7,3 | 92,5 | ||
4,8 | 97,3 | ||
2,4 | 99,7 | ||
n = 41 |
Группировки количественных признаков в интервалы. Количественные признаки, имеющие достаточно большие разбросы значений или длинный/большой вариационный ряд, принято группировать в интервалы. Проводя группировку, исследователю необходимо решить ряд задач. Необходимо определить:
1) сколько интервалов будет содержать данная группировка;
2) интервалы одинаковой или разной длины;
3) каким образом будут определены границы интервалов.
Необходимо для того, чтобы всевозможные значения признаков имели свое место в группировке, а также чтобы каждое значение признака входило только в один интервал.
Наиболее важным является определение границ интервалов. Для границы интервалов важно, чтобы:
1) границы не пересекались;
2) не терялись значения непрерывных признаков.
Если возникает ситуация, когда теряются промежуточные значения непрерывного признака, необходимо при построении интервалов указывать пресекающиеся границы и одновременно отмечать, каким образом эти границы закрыты, то есть, если границы закрыты сверху, то пересекающееся значение попадает в первый (верхний) интервал; если снизу или слева, попадает в нижний или следующий интервал. Интервалы с пересекающимися границами строятся на этапе анализа данных. Если группировку интервалов мы хотим предоставить респондентам в качестве инструментария, пользоваться пересекающимися границами нельзя. В этом случае мы должны четко разграничивать значения переменных по интервалу. Если интервалы закрыты сверху, доход, равный 500 000, попадает в 1-ый интервал (от 100 000 до 500 000).
Существует три вида группировки интервалов:
1) типологическая;
2) аналитическая;
3) процентивная.
1) При построении типологической группировки не применяются какие-либо конкретные методики, а производится разбиение на интервалы в соответствии с задачами исследования и теоретическим представлением о том, как изменяется отношение к предмету исследования в зависимости от значения признака. То есть, исследователь сам определяет количество интервалов, длину интервалов, а также будут ли границы интервалов пересекающимися или не пересекающимися.
Основная задача исследователя: после группировки суметь теоретически обосновать каждый полученный интервал.
2) Это разбиение на заданное число интервалов равной длины. Для того чтобы построить аналитическую группировку, нужно померить интервалы.
1. D = xmax – xmin.
2. d/7 < l < d/6.
Количество интервалов равны 6 или 7, если объём выборочной совокупности не превышает 100 наблюдений. Если объём выборки превышает 100 и d (размах вариаций) имеет достаточно большое значение, рассматривают 12- 15 интервалов: d/15 < l < d/12 (государственная статистика). Длина интервала l всегда целое число, поэтому, если в определенных границах не содержится целого числа, берем (целое) l, ближайшее к дробному числу. Границы всегда пересекающиеся.
3) Это разбиение на заданное число интервалов с заданным процентным объектом из выборки.
В процентильной группировке длины интервалов разные, а частоты внутри каждого интервала одинаковые. При построении процентивной группировки вводится понятия квантиля (= процентиля). Квантиль (значение признака) - xp, где p показывает, какая доля объектов из выборки имеет значение признака, меньшее квантиля.
Существует несколько разновидностей ПГ:
1) Наиболее используемая – квартильная группировка – группировка, состоящая из 4 интервалов по 25% объектов из выборки:
xmin, x0,25 , x0,5, xmax;
2) терцильная – 3 интервала по 33,3% из выборки:
xmin, x0,33, x0,66, xmax;
3) квинтильная – 5 интервалов по 20%:
xmin, x0,2, x0,4, x0,8, xmax;
4) децильная - 10 интервалов по 10%:
xmin, x0,1…
Для того чтобы построить ПГ, пользуются возрастающей накопленной частотой.
1. Если ПГ строить по вариационному ряду, то соответствующие квантили определяются по возрастающей накопленной частоте, равной либо впервые превысившей значение p*100%. Данный способ определение границы ПГ является приблизительным.
2. Если необходимо определить точное значение квантилей, необходимо в качестве основы использовать аналитическую группировку и специальную формулу: .
Х0 – левая граница интервала, в котором содержится искомый квантиль.
l – длина интервала
p * 100% – процент объектов из выборки, соответствующий квантилю.
F0 – накопленная частота, соответствующая предшествующему искомому интервалу.
fp – частота в процентах, соответствующая интервалу, содержащему квантиль.
Пример:
fi | fi(%) | Fi(%) | F* | |
10-20 | 41,5 | 41,5 | 99,6 | |
20-30 | 12,1 | 53,6 | 58,1 | |
30-40 | 12,1 | 65,7 | 4,6 | |
40-50 | 19,5 | 85,2 | 33,9 | |
50-60 | 9,6 | 94,8 | 14,4 | |
60-70 | 2,4 | 97,2 | 4,8 | |
70-80 | 2,4 | 99,6 | 2,4 |
d < 75 -10 = 35
65/7 < l < 65/6
9,3 < l < 10,8
l = 10
xmin = 10
x0,25 = 20
x0,5 = 30
x0,75 = 45
xmax = 75
Fi(%) | |
10-20 | |
20-30 | |
30-45 | |
45-75 | |
100% |
xmin = 10
x0,25 = = 16
x0,5 =
x0,75 = = 44,7
xmax = 80
Fi(%) | |
10-16 | |
16-26,7 | |
26,7-44,7 | |
44,7-80 | |
100% |