Изучение вариации статистических данных
Содержание темы
Понятие о вариации (колеблемости). Причины, порождающие вариацию признаков общественных явлений. Необходимость и задачи статистического изучения вариации. Показатели вариации: размах, среднее абсолютное линейное отклонение, дисперсия, среднее квадратическое отклонение, коэффициент вариации. Определения и способы расчета этих показателей. Форма распределения. Нормальное распределение, формула плотности. Показатели, характеризующие форму распределения (крутость и скошенность).
Понятия, определения, теоретические вопросы
При проведении вариационного анализа исходные данные группируются в виде ряда распределения, рассчитываются статистические характеристики, описывающие форму распределения, стоится его график. Затем делается вывод о соотношении закономерности и случайности.
В статистике под вариацией понимают такие количественные изменения величины исследуемого признака в пределах однородной совокупности, которые обусловлены влиянием различных факторов. Вариация признака бывает случайная и систематическая. Изучая силу и характер вариации, можно оценить насколько однородной является данная совокупность, а также насколько характерной является исчисленная средняя величина.
При этом различают абсолютные и относительные показатели вариации.
Рис.12.1. Абсолютные показатели вариации
Если средние величины отражают расположение графика распределения относительно числовой оси, то показатели вариации несут информацию о ширине распределения и определяют расстояние от максимального до минимального значения. Простейшим показателем вариации размах вариации (Rв):
Rв = . (12.1)
где - наибольшая и наименьшая варианты
Размах вариации имеет существенный недостаток: чувствителен к случайным максимальным значениям. Более устойчивым показателем вариации является среднее абсолютное линейное отклонение d
d = . (12.2)
Если каждое значение признака встречается несколько раз, то используют взвешенную формулу для среднего абсолютного линейного отклонения
, (12.3)
где n- количество вариант, xj – варианты, fj – соответствующие частоты
Дисперсия (D) - это средняя арифметическая квадратов отклонений каждого значения признака от общей средней. В зависимости от исходных данных дисперсия может вычисляться по средней арифметической простой или взвешенной:
— дисперсия (простая); (12.4)
— дисперсия взвешенная. (12.5)
Среднее линейное отклонение по простоте вычисления выигрывает по сравнению с дисперсией. В тоже время дисперсия позволяет раскладывать общую вариацию показателя по факторам, что очень важно при анализе взаимосвязей. Недостатком дисперсии является то, что ее размеренность квадратичная по отношению к размеренности показателя, что мешает наглядности представления рассеивания относительно среднего. Среднеквадратическое отклонение позволяет наглядно представить среднюю ширину распределения в первоначальных единицах измерения.
Среднеквадратическое отклонение представляет собой корень квадратный из дисперсии и обозначается :
— среднеквадратическое отклонение невзвешенное;
— среднеквадратическое отклонение взвешенное.
Среднеквадратическое отклонение - это обобщающая характеристика абсолютных размеров вариации признака в совокупности. Выражается оно в тех же единицах измерения, что и признак (в метрах, тоннах, процентах, гектарах и т.д.).
Среднеквадратическое отклонение является мерилом надежности средней. Чем меньше среднеквадратическое отклонение, тем лучше средняя арифметическая отражает собой всю представляемую совокупность.
Вычислению среднеквадратического отклонения предшествует расчет дисперсии.
Абсолютному показателю вариации соответствует относительный показатель вариации. Относительные показатели позволяют сравнивать характер рассеивания в различных распределениях (например, различные единицы наблюдения одного и того же признака в двух совокупностях, сравнение разноименных совокупностей и т.д.). При этом расчет относительного показателя рассеивания (вариации) осуществляется как отношение абсолютного показателя вариации к средней арифметической. умноженной на 100%.
Относительным показателем вариации является коэффициент вариации ( )
%
Коэффициент вариации является также мерой устойчивости значений. Чем меньше , тем устойчивее ряд и надежнее все выводы и оценки статистического распределения. Ряд считается достаточно устойчивым, и выводы на его основе надежными, если , менее 30%, при , более 80% результаты статистического анализа, полученные на основе этого ряда, использовать некорректно.
Коэффициент осцилляции (Ко) отражает относительную колеблемость крайних значений признака вокруг средней:
,
где R – размах вариации.
Относительное линейное отклонение характеризует долю усредненного значения абсолютных отклонений от средней величины:
Характеристика форм распределения.Форма распределения характеризуется “скошенностью” и “крутостью”. Для их измерения используются коэффициенты асимметрии и эксцесса.
Коэффициент асимметрии ( ) является мерой скошенности (асимметрии) распределения и вычисляется по формуле:
- простая;
- взвешенная.
Для симметричных распределений =0, при правосторонней скошенности (когда вершина гистограммы сдвинута к минимальным значениям) >0, а при левосторонней <0.
Коэффициент эксцесса
Или для вариационных рядов с повторяющимися значениями:
Коэффициент эксцесса равен 0 для умеренно крутых распределений, в частности для нормальных распределений. Для более крутых, чем нормальное распределений, , для более сглаженных - .
Проверка нормальности. При анализе вариационных рядов важно знать вид распределения. Наиболее часто на практике встречается нормальное распределение, плотность которого задается формулой:
,
где a – среднее значение, - среднеквадратическое отклонение. Гистограмма, построенная по нормально распределенному вариационному ряду, имеет куполообразную форму. При нормальном распределении отклонение значений показателя от среднего более, чем на 3 маловероятно, а коэффициенты асимметрии и эксцесса должны быть равны нулю. Проверка гипотезы о нормальности распределения по небольшой выборке осуществляется в 4 этапа.
1. Анализ формы гистограммы. Если гистограмма куполообразная, то нет оснований отвергнуть гипотезу о нормальности.
2. Правило 3 . Если и , то нет оснований отвергнуть гипотезу о нормальности.
3. Проверка существенности коэффициента асимметрии. Если , то нет оснований отвергнуть гипотезу о нормальности.
4. Проверка существенности коэффициента эксцесса. Если , то нет оснований отвергнуть гипотезу о нормальности.
Если на каждом из четырех шагов нет оснований отвергнуть гипотезу о нормальности, то гипотеза о нормальности принимается. В противном случае, гипотеза о нормальности отвергается.
Если известно, что статистически обосновано то, что признак распределён нормально с средним значение и средним квадратическим отклонением , можно оценить вероятность попадания признака в определённый интервал:
,
где значения функции приведены в Приложении 1. При расчетах следует учитовать, что .