Понятие нормального распределения
Показатели, характеризующие форму распределения.
Что такое статистическое распределение данных.
Статистическим распределением данных называют перечень вариантов и соответствующих им частот или относительных частот.
Основная задача анализа вариационных рядов – это выявление подлинной закономерности распределения.
Первое представление о характере распределения данных в изучаемой совокупности можно получить при построении гистограммы или полигона частот.
Если увеличить объем совокупности и уменьшить интервал группировки, изобразить эти данные графически, по полигон (гистограмма) распределения все более будут приближаться к некоторой плавной линии, носящей название кривой распределения (красная линия на рисунке).
Различают следующие разновидности кривых распределения:
1) одновершинные кривые:
a. симметричные,
b. умеренно асимметричные
c. крайне асимметричные;
2) многовершинные кривые.
Для однородных совокупностей, как правило, характерны одновершинные распределения. Многовершинность свидетельствует о неоднородности изучаемой совокупности. Появление двух и более вершин делает необходимой перегруппировку данных с целью выделения более однородных групп.
Если Ваше распределение получится похожим на симметричный холм, то оно называется нормальным распределением. Нормальным такое распределение называется потому, что оно очень часто встречалось в естественнонаучных исследованиях и казалось "нормой" всякого массового случайного проявления признаков. Нормальное распределение часто встречается в природе и в общественных явлениях. Доказано, что нормальное распределение получается в результате воздействия многих независящих друг от друга факторов. Несмотря на это не все распределения, которые встречаются в жизни, являются нормальными.
Свойства нормального распределения
Как уже неоднократно отмечалось, часто пользуются типом распределения, которое называется нормальным. Нормальное распределение можно построить по формуле.
Особенности кривой нормального распределения:
1) кривая симметрична и имеет максимум в точке, соответствующей значению
(среднее значение признака) = Ме (медиана) = Мо (мода);
2) кривая асимптотически приближается к оси абсцисс, продолжаясь в обе стороны до бесконечности (чем больше отдельные значения X отклоняются от X , тем реже они встречаются);
3) коэффициенты асимметрии и эксцесса для кривой нормального распределения равны нулю;
4) ПРАВИЛО ТРЕХ СИГМ
· 68% всех наблюдений лежат в диапазоне ±1 стандартное отклонение ( ) от среднего значения ( ),
· диапазон ±2 стандартных отклонения ( ) от среднего значения ( ) содержит 95% значений,
· а диапазон ±3 стандартных отклонения ( ) от среднего значения ( ) содержит 99,7% значений.
Многие статистические критерии, которые будут рассмотрены в дальнейшем, требуют нормального распределения анализируемых переменных.
Показатели, характеризующие форму распределения
Форму распределения хорошо видно на рисунке, но для анализа нужны конкретные значения. Кроме того, очень редко встречаются абсолютно нормальные распределения, преобладающее большинство распределений, встречающихся при анализе природных и общественных процессов, являются чуть-чуть не нормальными. Поэтому для выяснения общего характера распределения необходимо оценить его однородность и вычислить показатели формы распределения (показатель асимметрии и эксцесс).
Определение симметричности распределения
(коэффициент ассиметрии)
Для симметричных распределений среднее значение признака, мода и медиана равны(на рисунке А – симметричное распределение, Б – ассиметричное распределение).
Кроме симметричных распределений, различают распределения с левосторонней и с правосторонней ассиметрией.
А) Симметричное распределение
( = Ме = Мо);
Б) Распределение с правосторонней
ассиметрией ( Ме > Мо);
в) Распределение с левосторонней
ассиметрией ( Ме < Мо);
Для оценки симметричности распределения используют коэффициенты ассиметрии:
1) Моментный коэффициент ассиметрии
С помощью этого показателя измеряют не только направление ассиметрии, но и степень скошенности или ассиметричности распределения.
– моментный коэффициент ассиметрии
– центральный момент третьего порядка
- среднеквадратическое отклонение в кубе
(для вариационного ряда)
(для несгруппированных данных)
В симметричных распределениях .
Если , то асимметрия правосторонняя и относительно максимальной ординаты вытянута в сторону правая ветвь; если ,
, то асимметрия левосторонняя (на графике это соответствует вытянутости в сторону левой ветви).
Степень существенности асимметрии можно оценить с помощью средней квадратической ошибки коэффициента асимметрии, которая зависит от объема изучаемой совокупности и рассчитывается по формуле:
где n - число единиц совокупности.
Если отношение >3, асимметрия считается существенной и распределение нельзя считать нормальным;
если < 3, то асимметрия признается несущественной, вызванной влиянием случайных обстоятельств, а распределение признается умеренно симметричным и приближенным к нормальному распределению
Основной недостаток моментного коэффициента асимметрии заключается в том, что его величина зависит от наличия в совокупности резко выделяющихся единиц. Для таких совокупностей этот коэффициент малопригоден,
2) структурный коэффициент ассиметрии Пирсона
или
Значение коэффициентов Пирсона может быть положительным или отрицательным.
Если As>0, то распределение с правосторонней асимметрией,
Если As<0 - с левосторонней ассиметрией.
Если < 0.25, то ассиметрия считается незначительной.
Если 0.25 < 0.5, то ассиметрия считается умеренной.
Если 0.5, то ассиметрия считается существенной.
Структурные коэффициенты асимметрии характеризуют ассиметричность только в центральной части распределения, т. е. для основной массы единиц, и в отличие от моментного коэффициента не зависят от крайних значений признака.
Эксцесс (показатель, характеризующий «крутизну» распределения)
Другим свойством рядов распределения является эксцесс (Ex).
Под эксцессом понимают островершинность или плосковершинность распределения по сравнению с нормальным распределением при той же силе вариации.
Другими словами, эксцесс - это отклонение вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения.
При этом эксцесс определяется только для симметричных и умеренно асимметричных распределений.
Наиболее точно эксцесс (Ex) определяется по формуле с использованием центрального момента четвертого порядка:
(для вариационного ряда)
(для несгруппированных данных)
Для нормальных распределений Ex=0. Распределения более островершинные, чем нормальные, обладают положительным эксцессом (Ех > 0), более плосковершинные - отрицательным (Ех < 0).
Положительный эксцесс свидетельствует о том, что в совокупности есть слабоварьирующее по данному признаку «ядро», а в плосковершинных распределениях такого «ядра» нет и единицы рассеяны по всем значениям признака более равномерно.
Чтобы оценить существенность эксцесса распределения, рассчитывают среднеквадратическую ошибку эксцесса.
Среднеквадратическая ошибка эксцесса (σEх) рассчитывается по формуле:
где п – число наблюдений
Если отношение >3, то отклонение от нормального можно считать существенным и распределение нельзя считать нормальным; если <3, то отклонение признается несущественным, а распределение признается приближенным к нормальному распределению.
Хотя показатели асимметрии и эксцесса характеризуют непосредственно лишь форму распределения признака в пределах изучаемой совокупности, но их определение имеет не только описательное значение. Часто асимметрия и эксцесс дают определенные указания для дальнейшего исследования социально-экономических явлений. Так появление значительного отрицательного эксцесса может указывать на качественную неоднородность исследуемой совокупности. Кроме того, эти показатели позволяют сделать вывод о возможности применения данного эмпирического распределения к типу кривых нормального распределения.