Тема 6. вариационный анализ
6.1. Сущность и значение изучения вариации признаков
6.2. Абсолютные и относительные показатели вариации
6.3. Свойства вариации и правила сложения дисперсии
6.1. Рассматривая зарегистрированные в процессе статистического наблюдения величины того или иного признака у отдельных единиц совокупности, можно обнаружить между ними различия.
Если индивидуальные значения признака примерно одинаковые, то средняя будет достаточно надёжной показательной характеристикой изучаемой совокупности, если же ряд распределения отличается значительным рассеиванием индивидуальных значений признака, то средняя не будет являться надёжной характеристикой и иметь практическое значение. Одним словом, для каждой единицы совокупности размер изучаемого признака может принимать различные значения, то есть имеет некоторую вариацию.
Вариация признака – наличие различий в численных значениях признаков у отдельных единиц совокупности. Она порождается комплексом условий, действующих на совокупность и её единицы. Именно вариация предопределяет необходимость статистики. Вариацию классифицируют в пространстве и во времени:
- в пространстве – колеблемость значений признака по разным объектам, территориям и т.п.;
- во времени – изменение значений признака в различные периоды или моменты времени.
Наличие вариации ставит перед статистикой задачи: Определение меры вариации и соответствующих измерителей; измерение степени её колеблемости; выявление сущности степени вариации и определяющих её факторов.
По степени вариации оценивают однородность совокупности, устойчивость индивидуальных значений, типичность средней, степень воздействия на данный признак других варьирующих признаков и определяют взаимосвязь между ними. Показатели вариации применяются при оценке ритмичности работы предприятия, контроля и устойчивости производственного процесса, организации выборочного наблюдения, разработке материалов экспертных опросов, переписи и т.д.
В математической части измерения вариации, теория статистика опирается на математическую статистику, применяя при этом показатели, которые классифицируют на абсолютные и относительные.
6.2. Абсолютные – размах вариации, среднее линейное отклонение, дисперсия и середнеквадратическое отклонение. Абсолютные показатели вариации всегда величины именованные. В зависимости от исходных данных их рассчитывают по несгруппированным и сгруппированым значениям.
Размах вариации (R) – различие между единицами совокупности, имеющими самое большое и самое маленькое значение: R = xmax - xmin ,
где: xmaxиxmin - соответственно максимальное и минимальное значения.
Сущность его - в измерении расстояния между крайними точками. Поэтому величина показателя всецело зависит от этих значений, хотя и не учитывает всех изменений варьирующего признака в пределах совокупности.
К недостаткам можно отнести то, что очень большое и очень маленькое значение совокупности может быть обусловлено случайными обстоятельствами и рассматриваться как аномальным, что в целом даёт искажённую амплитуду колебания признака против нормальных её размеров.
Поэтому для анализа вариации необходим показатель, который отражал бы все колебания варьирующего признака, дававший бы обобщённую характеристику. Будет логичным, если в качестве такой величины использовать среднюю, так как в ней будут более или менее погашаться случайные отклонения от закономерного хода развития явления и отражаться типичный размер признака. Следовательно, средняя, должна быть своего рода центра тяжести, вокруг которого происходит колебание, рассеивание индивидуальных значений признака.
Такая средняя является средним линейным отклонением.
Среднее линейное отклонение (d) – средняя арифметическая из отклонений отдельных значений варьирующего признака от средней величины:
dср =∑|х-хср|/n(простое); dср =∑|х-хср| ·ƒ / ∑ƒ (взвешенное)
Данный показатель даёт обобщённую характеристику степени колеблемости признака в совокупности.
Поскольку сумма отклонений отдельных значений признака от средней равна нулю (одно из свойств средней арифметической), то все отклонения приходится брать по модулю, на что указывают прямые скобки в числителе. В итоге при исчислении допускаются некорректные, с точки зрения математики, действия, что побудило искать иной способ оценки вариации, чтобы иметь дело только с положительными числами.
Дисперсия (σ2) – средний квадрат отклонений индивидуальных значений варьирующего признака от их средней величины:
σ² = ∑(х-хср)2 / ∑n (простая); σ² = ∑(х-хср)2 ·ƒ / ∑ƒ (взвешенная)
Однако вследствие суммирования квадратов отклонений дисперсия даёт искажённое представление об отклонениях, измеряя их во второй степени, хотя все варианты изучаемой совокупности и выражены изначально в первой степени. Поэтому их необходимо преобразовать, Для этого достаточно извлечь корень квадратный из дисперсии, В результате получим новую величину, именуемую средним квадратическим отклонением.
Среднеквадратическое отклонение (σ) – наиболее обобщающая характеристика размеров вариации признака в совокупности, главное сущностное измерение меры колеблемости:
σ = √∑(х-хср)2 / ∑n (простое); σ = √∑(х-хср)2 ·ƒ / ∑ƒ(взвешенное)
Дисперсия и среднеквадратическое отклонение являются общепринятыми мерами вариации. Используют в статистических исследованиях, технике, биологии, международной практике учёта, разработке СНС.
Для оценки интенсивности вариации, однородности совокупности, сравнения её в различных явлениях используют относительные показатели вариации, являющиеся результатом соотношения полученных абсолютных значений и средней арифметической величины. Выражаются в процентах.
Различают относительные показатели размаха вариации (коэффициент осцилляции), среднего линейного отклонения, коэффициент вариации.
Относительный размах вариации (VR) – отражает относительную меру колеблемости крайних значений признака вокруг средней:
VR =R/хср×100
Относительное среднее линейное отклонение (Vd) – отражает долю усреднённого значения абсолютных отклонений от средней величины:
Vd = dср/хср×100
Коэффициент вариации ( Vσ) – наиболее распространённый показатель колеблемости, поскольку среднеквадратическое отклонение даёт наиболее общую характеристику колеблемости всех вариантов совокупности:
Vσ = σ/хср×100
Совокупность считается однородной если коэффициент вариации не превышает 10 %, от 10 до 30% - колеблемость средняя и свыше 30 % - считается неоднородной.
Кроме измерения вариации признака иногда возникает необходимость в изучении числовых изменений признака по группам и между группами, оценить степень воздействия одного признака на вариацию другого, определить взаимосвязь между ними. При этом совокупность, представляя собой - множество единиц, характеризуется двумя признаками – факторным и результативным. Для анализа исходная совокупность делится на две и более группы по факторному признаку, но выводы о степени взаимосвязи базируются на анализе вариации результативного признака.
Проводится данное изучение вычислением и дальнейшим анализом различных видов дисперсий.
Различают общую дисперсию, межгрупповую и внунтригрупповую.
Общая дисперсия (σо2) – измеряет вариацию признака всей совокупности под воздействием всех факторов, обусловивших данную вариацию. Рассчитывается по простой и взвешенной формулам.
σi2 = Σ(хi-хo)2n / Σn(простая); σi2 = Σ(хi-хo)2f / Σf(взвешенная)
Межгрупповая дисперсия (δх2) – характеризует вариацию признака, возникающую под воздействием какого-либо одного фактора, стоящего в основании группировки. Данная характеристика проявляется в отклонении групповых средних от общей средней.
δх2 = Σ(хi-хо)2n/Σn
Внутригрупповая дисперсия (σi2) – показывает случайную вариацию, её какую –то часть, происходящую под влиянием случайных, неучтённых факторов. Не зависит от изучаемого фактора, стоящего в основании группировки.
σi2 = Σ(х-хi)2n / Σn(простая); σi2 = Σ(х-хi)2f / Σf(взвешенная)
Средняя из внутригрупповых дисперсий исчисляется по формуле:
σi2 = Σσi2·n/Σn
Эта средняя также отражает ту часть вариации, обусловленную действием всех прочих неучтённых факторов, кроме фактора, по которому осуществилась группировка (группировочный).
6.3. По полученным величинам всех дисперсий в статистике изучается правило сложения дисперсий, согласно которому общая дисперсия равна сумме межгрупповой и средней из внутригрупповых дисперсий: σо2 = δх2 + σi2
Таким образом, по полученным величинам дисперсий, согласно ему, можно рассчитать влияние изучаемых признаков на результативный фактор. При этом необходимо знать: если групповые средние будут равны между собой и совпадут с общей средней, т.е. межгрупповая средняя равна нулю, то в данном случае факторный признак не оказывает влияния на результативный.
В статистическом анализе широко используется эмпирический коэффициент детерминации (η2 = δх2 /σi2 ), показывающий удельный вес общей вариации изучаемого признака, обусловленной вариацией группировочного признака, а также эмпирическое корреляционное отношение (η) – как результата извлечения корня квадратного из первого. Эмпирическое корреляционное отношение характеризует влияние признака, лежащего в основании группировки на вариацию результативного. Измеряется в пределах от 0 до 1.
При η = 0 - группировояный признак не оказывает влияние на результативный,если η = 1, - то результативный изменяется только под влиянием группировочного, влияние же прочих = 0. Промежуточные же величины оцениваются в зависимости от их близости к предельным значениям: чем ближе к 1, тем взаимосвязь сильнее.