Показатели формы распределения
СТАТИСТИЧЕСКИЕ РАСПРЕДЕЛЕНИЯ И ИХ ОСНОВНЫЕ ХАРАКТЕРИСТИКИ
Цель работы
Вычисление сводных статистических характеристик данных в системе Statistica. Изучение формы распределения данных. Оценка статистической значимости различий средних значений различных выборок с помощью средств системы Statistica.
Краткие теоретические сведения.
Средние величины
Общие черты, закономерности, присущие данной совокупности тенденции отражает, погашая влияние индивидуальных (случайных) факторов, средняя величина. Она является обобщающей характеристикой варьирующего признака качественно однородной совокупности.
Все виды средних величин, используемые в статистических исследованиях, подразделяются на 2 категории: степенные (средняя арифметическая, средняя гармоническая, средняя геометрическая, средняя квадратическая и т.д.) и структурные (мода, медиана).
Средняя арифметическая простая применяется в случаях, когда данные не сгруппированы.
(1)
(Если данные представлены в виде рядов распределения или группировок, то средняя исчисляется иначе).
Доверительный интервал для среднего представляет интервал значений вокруг оценки, где с данным уровнем доверия, находится "истинное" (неизвестное) среднее генеральной совокупности. Например, если среднее выборки равно 23, а нижняя и верхняя границы доверительного интервала с уровнем p=0.95 равны 19 и 27 соответственно, то можно заключить, что с вероятностью 95% интервал с границами 19 и 27 накрывает среднее генеральной совокупности. Ширина доверительного интервала зависит от объема или размера выборки, а также от разброса данных. Увеличение размера выборки делает оценку среднего более надежной. Увеличение разброса наблюдаемых значений уменьшает надежность оценки. Вычисление доверительных интервалов основывается на предположении нормальности наблюдаемых величин. При увеличении объема выборки качество оценки улучшается и без предположения нормальности выборки.
Мода – величина признака, наиболее часто повторяющаяся в изучаемой совокупности
Медиана – варианта, расположенная в середине вариационного ряда. Если дискретный ряд распределения имеет нечетное число членов, то медианой будет варианта, находящаяся в середине вариационного ряда, если четное – медианой будет среднее из двух вариант, находящихся в середине ряда.
К структурным характеристикам переменной относятся также квартили.
Квартили. Нижняя квартиль переменной - это такое значение переменной, ниже которого попадают 25% значений переменной. Аналогично, верхняя квартиль - это такое значение переменной, ниже которого попадают 75% значений переменной.
Квартильный размах переменных равен разности значений верхней и нижней квартили. Таким образом, это тот диапазон вокруг медианы, который содержит 50% наблюдений.
Показатели вариации
Для характеристики совокупностей и исчисленных средних величин важно знать, какая вариация признака скрывается за средними. Для этого служат показатели вариации.
Размах вариации. Этот показатель прост в вычислении и указывает на общие размеры вариации, но он не дает представления о степени колеблемости внутри совокупности
R = xmax - xmin (2)
Дисперсия – это средняя арифметическая квадратов отклонений каждого значения признака от средней арифметической. Дисперсия вычисляется по формуле:
(3)
Среднеквадратическое отклонение (стандартное отклонение) – это обобщающая характеристика абсолютных размеров вариации признака в совокупности.
(4)
Показатели формы распределения
Если непрерывная случайная величина имеет плотность распределения
, (5)
то она подчиняется закону нормального распределения. Нормальное распределение графически представляется в виде симметричной колоколообразной кривой, которая асимптотически приближается к оси абсцисс. Для построения кривой нормального распределения надо знать два параметра - и σ. Закон нормального распределения предполагает, что отклонение от среднего значения является результатом большого количества мелких отклонений, что позитивные и негативные отклонения равновероятны и что наиболее вероятным значением всех измерений является их средняя арифметическая.
В кривой нормального распределения выражается закономерность, возникающая при взаимодействии множества случайных причин, поэтому она нашла широкое применение в статистике. Многие статистические гипотезы сформулированы и доказаны именно по отношению к нормальным распределениям.
Фактическая форма кривой для любого распределения зависит от значений и σ, формы кривых для различных распределений различны. Сделать вывод о том, можно ли данное эмпирическое распределение отнести к типу кривых нормального распределения, позволяют показатели асимметрии и эксцесса.
Асимметрия. В экономической статистике нормальное распределение встречается крайне редко. Чаще всего наблюдается отклонение от нормального распределения (рис.2), т.н. асимметрия распределения. Степень асимметрии определяется с помощью коэффициента асимметрии
, (6)
где – центральный момент третьего порядка ( ). Оценка существенности этого показателя дается с помощью средней квадратической ошибки: . Если превышает более, чем в три раза (по модулю), то асимметрия считается существенной.
Чаще используется другая формула расчета коэффициента асимметрии:
(7)
Коэффициент асимметрии может изменяться от –3 до +3. Если коэффициент асимметрии существенно отличается от 0, то распределение несимметрично, в то время как нормальное распределение абсолютно симметрично (асимметрия равна 0). Асимметрия распределения с длинным правым хвостом положительна. Если распределение имеет длинный левый хвост, то его асимметрия отрицательна. На практике асимметрия считается значительной, если коэффициент асимметрии превышает по модулю 0,25.
Эксцесс. Коэффициент эксцесса измеряет "пикообразность" распределения.
(8)
где – центральный момент четвертого порядка
Если эксцесс значимо отличен от 0, то функция плотности либо имеет более закругленный, либо более острый пик, чем пик плотности нормального распределения (рис.2).
Обычно, если эксцесс положителен, то распределение островершинное, если отрицательный – то плосковершинное. Эксцесс нормального распределения равен 0.
Для проверки близости теоретического и эмпирического распределения (например, проверки близости данного эмпирического распределения к нормальному распределению) используются также специальные показатели, называемые критериями согласия. Распространенным критерием согласия является критерий А.Н.Колмогорова:
, (9)
где
D – максимум разности между накопленными и теоретическими частотами,
n – сумма эмпирических частот.
По таблице вероятности d -критерия находят соответствующую вероятность р. Если найденной d соответствует значительная по величине вероятность р, то расхождение между эмпирическим и теоретическим распределением несущественно.