Понятие вариационного ряда. Виды вариационных рядов
Совокупность предметов или явлений, объединенных каким-либо общим признаком или свойством качественного или количественного характера, называется объектом наблюдения.
Всякий объект статистического наблюдения состоит из отдельных элементов - единиц наблюдения.
Результаты статистического наблюдения представляют собой числовую информацию - данные. Статистические данные - это сведения о том, какие значения принял интересующий исследователя признак в статистической совокупности.
Если значения признака выражаются числами, то признак называется количественным.
Если признак характеризует некоторое свойство или состояние элементов совокупности, то признак называется качественным.
Если исследованию подлежат все элементы совокупности (сплошное наблюдение), то статистическую совокупность называют генеральной.
Если исследованию подлежит часть элементов генеральной совокупности, то статистическую совокупность называют выборочной (выборкой). Выборка из генеральной совокупности извлекается случайно, так чтобы каждый из n элементов выборки имел равные шансы быть отобранным.
Значения признака при переходе от одного элемента совокупности к другому изменяются (варьируют), поэтому в статистике различные значения признака также называют вариантами. Варианты обычно обозначаются малыми латинскими буквами x, y, z.
Порядковый номер варианта (значения признака) называется рангом. x1 - 1-й вариант (1-е значение признака), x2 - 2-й вариант (2-е значение признака), xi - i-й вариант (i-е значение признака).
Упорядоченный в порядке возрастания или убывания ряд значений признака (вариантов) с соответствующими им весами называется вариационным рядом (рядом распределения).
В качестве весов выступают частоты или частости.
Частота (mi) показывает сколько раз встречается тот или иной вариант (значение признака) в статистической совокупности.
Частость или относительная частота (wi) показывает, какая часть единиц совокупности имеет тот или иной вариант. Частость рассчитывается как отношение частоты того или иного варианта к сумме всех частот ряда.
. (6.1)
Сумма всех частостей равна 1.
. (6.2)
Вариационные ряды бывают дискретными и интервальными.
Дискретные вариационные ряды строят обычно в том случае, если значения изучаемого признака могут отличаться друг от друга не менее чем на некоторую конечную величину.
В дискретных вариационных рядах задаются точечные значения признака.
Общий вид дискретного вариационного ряда указан в таблице 6.1.
Таблица 6.1
Значения признака (xi) | x1 | x2 | … | xk |
Частоты (mi) | m1 | m2 | … | mk |
где i = 1, 2, … , k.
Интервальные вариационные ряды строят обычно в том случае, если значения изучаемого признака могут отличаться друг от друга на сколь угодно малую величину.
В интервальных вариационных рядах значения признака задаются в виде интервалов.
Общий вид интервального вариационного ряда показан в таблице 6.2.
Таблица 6.2
Значения признака | а1 - а2 | а2 - а3 | … | аl-1 – аl |
Частоты (mi) | m1 | m2 | … | ml |
где i = 1, 2, … , l.
В интервальных вариационных рядах в каждом интервале выделяют верхнюю и нижнюю границы интервала.
Разность между верхней и нижней границами интервала называют интервальной разностью или длиной (величиной) интервала.
Величина первого интервала k1 определяется по формуле:
k1 = а2 - а1;
второго: k2 = а3 - а2; …
последнего: kl = al - al-1.
В общем виде интервальная разность ki рассчитывается по формуле:
ki = xi (max) - xi (min). (6.3)
Если интервал имеет обе границы, то его называют закрытым.
Первый и последний интервалы могут быть открытыми, т.е. иметь только одну границу.
Например, первый интервал может быть задан как "до 100", второй - "100-110", … , предпоследний - "190-200", последний - "200 и более". Очевидно, что первый интервал не имеет нижней границы, а последний - верхней, оба они - открытые.
Часто открытые интервалы приходится условно закрывать. Для этого обычно величину первого интервала принимают равной величине второго, а величину последнего - величине предпоследнего. В нашем примере величина второго интервала равна 110-100=10, следовательно, нижняя граница первого интервала условно составит 100-10=90; величина предпоследнего интервала равна 200-190=10, следовательно, верхняя граница последнего интервала условно составит 200+10=210.
Кроме этого, в интервальном вариационном ряде могут встречаются интервалы разной длины. Если интервалы в вариационном ряде имеют одинаковую длину (интервальную разность), их называют равновеликими, в противном случае - неравновеликими.
При построении интервального вариационного ряда часто встает проблема выбора величины интервалов (интервальной разности).
Для определения оптимальной величины интервалов (в том случае, если строится ряд с равными интервалами) применяют формулу Стэрджесса:
, (6.4)
где n - число единиц совокупности,
x(max) и x(min) - наибольшее и наименьшее значения вариантов ряда.
Для характеристики вариационного ряда наряду с частотами и частостями используются накопленные частоты и частости.
Накопленные частоты (частости) показывают сколько единиц совокупности (какая их часть) не превышают заданного значения (варианта) х.
Накопленные частоты (vi) по данным дискретного ряда можно рассчитать по следующей формуле:
. (6.5)
Для интервального вариационного ряда - это сумма частот (частостей) всех интервалов, не превышающих данный.
Дискретный вариационный ряд графически можно представить с помощьюполигона распределения частот или частостей.
При построении полигона распределения по оси абсцисс откладываются значения признака (варианты), а по оси ординат - частоты или частости. На пересечении значений признака и соответствующих им частот (частостей) откладываются точки, которые, в свою очередь, соединяются отрезками. Получающаяся таким образом ломаная называется полигоном распределения частот (частостей).
|
|
|
Интервальные вариационные ряды графически можно представить с помощью гистограммы, т.е. столбчатой диаграммы.
При построении гистограммы по оси абсцисс откладываются значения изучаемого признака (границы интервалов).
В том случае, если интервалы - одинаковой величины, по оси ординат можно откладывать частоты или частости.
Если же интервалы имеют разную величину, по оси ординат необходимо откладывать значения абсолютной или относительной плотности распределения.
Абсолютная плотность - отношение частоты интервала к величине интервала:
; (6.6)
где: f(a)i - абсолютная плотность i-го интервала;
mi - частота i-го интервала;
ki - величина i-го интервала (интервальная разность).
Абсолютная плотность показывает, сколько единиц совокупности приходится на единицу интервала.
Относительная плотность - отношение частости интервала к величине интервала:
; (6.7)
где: f(о)i - относительная плотность i-го интервала;
wi - частость i-го интервала.
Относительная плотность показывает, какая часть единиц совокупности приходится на единицу интервала.
|
|
|
Рис. 6.2.
И дискретные и интервальные вариационные ряды графически можно представить в виде кумуляты и огивы.
При построении кумуляты по данным дискретного ряда по оси абсцисс откладываются значения признака (варианты), а по оси ординат - накопленные частоты или частости. На пересечении значений признака (вариантов) и соответствующих им накопленных частот (частостей) строятся точки, которые, в свою очередь, соединяются отрезками или кривой. Получающаяся таким образом ломаная (кривая) называется кумулятой (кумулятивной кривой).
При построении кумуляты по данным интервального ряда по оси абсцисс откладываются границы интервалов. Абсциссами точек являются верхние границы интервалов. Ординаты образуют накопленные частоты (частости) соответствующих интервалов. Часто добавляют еще одну точку, абсциссой которой является нижняя граница первого интервала, а ордината равна нулю. Соединяя точки отрезками или кривой, получим кумуляту.
Огива строится аналогично кумуляте с той лишь разницей, что на оси абсцисс наносятся точки, соответствующие накопленным частотам (частостям), а по оси ординат - значения признака (варианты).