Вариационные ряды распределения
Методы анализа вариационных рядов распределения используются, главным образом, применительно к анализу внутренних закономерностей формирования цен на товары внешней торговли. Это – весьма важная задача, так как с ней связаны задача оценки эффективности внешней торговли и задача повышения достоверности данных таможенной статистики (контроль по средней цене контракта является одним из элементов контроля достоверности данных).
Основная цель статистического анализа – отделение закономерностей от случайностей. Решение этой задачи осуществляется в вариационном анализе исходя из простой идеи: случайное встречается редко, закономерное – часто. Подсчёт частоты встречаемости значений исследуемого показателя и анализ частотных характеристик является предметом изучения вариационных рядов распределения.
При решении этой задачи исходной информацией служат одномерные пространственные ряды наблюдений, то есть совокупность наблюдений за значениями одного и того же показателя в один и тот же момент времени по различным объектам. В качестве исследуемого показателя, как правило, берутся не объёмные, а относительные, качественные показатели, так как именно в их формировании обычно наиболее сильно проявляется закономерность.
При проведении вариационного анализа исходные наблюдения группируются в виде ряда распределения, рассчитываются статистические характеристики, описывающие форму распределения, и строится его график.
На основе формы распределения, его графика и статистических характеристик делается вывод о соотношении закономерности и случайности в формировании значений показателя и о сходстве распределения с известными теоретическими законами распределения.
В статистике вариационные ряды подразделяются на дискретные и интервальные.
Дискретными называют вариационные ряды, в которых значения признаков, положенных в основу их образования, выражены в виде вполне определённых величин, обычно целых. Дискретные ряды распределения предназначены для анализа показателей, которые имеют сравнительно малое число значений (обычно не больше 10). Они редко используются в статистических исследованиях и для анализа данных таможенной статистики внешней торговли (ТСВТ) не представляют практического интереса.
Интервальными называются такие вариационные ряды, в которых значения признака заданы определёнными интервалами, то есть для каждой выделяемой группы единиц совокупности указывается минимальная и максимальная граница значений показателя. Их использование для цен внешней торговли представляет теоретический и практический интерес.
При построении интервальных рядов распределения обычно сначала образуют интервалы изменения значений показателя, а затем подсчитывают число единиц совокупности, относящихся к каждому интервалу.
Образование интервалов связано с решением вопроса об их рациональной численности и величине. Интервалы подбираются так, чтобы ряд распределения дал как можно долее подробную, но в то же время обозримую структуру статистической совокупности. Интервалы не должны быть слишком большими.
Интервалы могут быть равными и неравными.
Равные интервалы применяются в тех случаях, когда показатель варьирует в незначительных пределах, а распространение единиц совокупности по его значениям не отличается резко выраженной колеблемостью.
Когда признак варьируется в значительных пределах, применяются неравные интервалы, например, при анализе цен на машины и оборудование.
Величина равных интервалов определяется по формуле:
где: xmax и xmin – соответственно максимальное и минимальное значение показателя;
k – число интервалов.
Если не решён вопрос о количестве выделяемых групп k, то его рекомендуется брать близким к величине:
Величины равных интервалов, исчисленных по приведённым формулам, обычно округляют для удобства подсчёта. В качестве величин интервалов часто используют числа, кратные пяти или десяти.
При образовании интервалов необходимо соблюдать следующее правило их записи: границы интервалов надо обозначать так, чтобы было ясно, в какую группу следует относить единицы, размер варьирующего признака у которых в точности совпадает с крайними значениями интервалов. При образовании интервалов по дискретным признакам иногда это достигается обозначением нижних границ интервалов таким образом, чтобы они отличались на единицу от верхних границ предшествующих им интервалов.
В непрерывных вариационных рядах часто границы интервалов обозначаются таким образом, чтобы верхние и нижние границы смежных интервалов совпадали. В подобных случаях соблюдение сформулированного выше правила записи интервалов достигается при помощи слов: «менее», «более», «свыше» и т. п.
Интервальный ряд позволяет судить о соотношении свойств постоянства и изменчивости изучаемого показателя. Если показатель принимает значения в широком диапазоне, и в таблице распределения вариантом признака соответствуют примерно равные значения частот, а график распределения имеет «размытый» вид, не имеющий чётко выраженной вершины, то это свидетельствует о преобладании у показателя свойств изменчивости и о большом влиянии случайных факторов на его формирование. Напротив, если большинство значений показателя тяготеет к некоторой величине, что иллюстрируется обычно островершинным графиком распределения, то это свидетельствует о наличии закономерности в формировании показателя, о преобладании у него свойства постоянства и о значительной его устойчивости.
Статистические характеристики являются обобщёнными показателями свойств ряда распределения. Они позволяют судить о распределении, даже не располагая таблицей или графиком. По числовым значениям статистических характеристик несложно в общих чертах представить форму гистограммы.
К основным статистическим характеристикам относятся различные виды показателей средних, показатели вариации относительно среднего, а также показатели асимметрии (скошенности) и эксцесса (крутости) распределения.
Наиболее часто применяемым показателем среднего является средняя арифметическая (см. Гл. 1 п. 1.5).
Если данные представлены не исходными наблюдениями, а уже сгруппированы в виде ряда распределения, то удобнее пользоваться формулой средней взвешенной (см. Гл. 1 п. 1.5).
Важное значение для характеристики формы распределения имеют структурные средние мода и медиана.
Мода Мо определяет наиболее часто встречающееся (наиболее типичное) значение признака. На графиках распределения моде соответствует вершина гистограммы.
Для интервального ряда распределения непосредственно по таблице нельзя сразу найти моду, а можно определить только модальный интервал, то есть такой интервал, которому соответствует максимальная плотность fj. В качестве грубой оценки моды может служить середина модального интервала. Более строго мода определяется с учётом весов интервалов, соседних с модальным, в этом случае мода вычисляется по формуле:
где: xjниж – нижняя граница модального интервала;
Δxj – длина интервала;
fj – плотность модального интервала;
fj-1 – плотность интервала, предшествующего модальному;
fj+1 – плотность интервала, следующего за модальным.
Медиана Ме - это значение показателя, приходящееся на середину ранжированного ряда наблюдений.
Если ряд наблюдений представлен интервальным распределением, то при вычислении медианы сначала находится j-й медианный интервал из условия vj-1≥0,5 и vj-1<0,5. Внутри интервала медиана определяется из выражения:
где: xjниж – начало медианного интервала;
vj-1 – накопленная частость предшествующего интервала;
wj – частота медианного интервала;
Δxj – длина интервала.
Если средние величины отражают расположение графика распределения относительно числовой оси, то показатели вариации несут информацию о «ширине» распределения.
Простейшим показателем вариации является Rв – размах вариации:
Более устойчивым показателем вариации является среднее линейное отклонение d:
Из показателей вариации наиболее важным является дисперсия S2 и среднеквадратическое отклонение S.
Дисперсия:
или для распределения:
Иногда при расчёте дисперсии удобнее пользоваться формулой:
Среднеквадратическое отклонение S позволяет наглядно представить «ширину» распределения:
Относительным показателем вариации является коэффициент вариации V: