Выявление нормального распределения

Теоретические сведения

Статистические данные, как правило, представляются в виде числовых таблиц больших размеров. Если пытаться анализировать данные, просматривая таблицу, потребуются большие затраты времени и, чаще всего, целый ряд свойств данных останется не выявленным, поскольку представление информации в виде чисел лишено наглядности и не дает конкретного визуального указания о наличии этих свойств. Более информативно для анализа использование графического отображения данных, например гистограмм. С помощью табличного процессора Microsoft Excel, либо отдельного статистического пакета программ (например, «Статистика») можно с большей экономией времени построить гистограмму и получить информацию для визуального анализа данных.

Использование гистограмм для анализа данных

Гистограмма представляет собой столбиковую диаграмму частот. По горизонтальной оси диаграммы откладывают измеренные значения из набора данных, по вертикальной – частоту встречаемости этих значений. Высота каждого столбца показывает частоту (количество) значений из набора данных, принадлежащих соответствующему интервалу, равному ширине этого столбца.

Визуальный анализ гистограмм позволяет выявить характер распределения данных и ответить на следующие шесть вопросов:

1. Какие значения типичны для заданного набора данных?

2. Как различаются между собой значения (диапазон значений)?

3. Сконцентрированы ли данные вокруг некоторого типичного значения?

4. Какой характер имеет эта концентрация данных? В частности, одинаков ли характер «затухания» для малых и больших значений данных?

5. Есть ли в заданном наборе такие значения, которые сильно отличаются от остальных и требуют специальной обработки (выбросы)?

6. Можно ли сказать, что в целом это однородный набор или отчетливо наблюдается наличие групп, которые надо анализировать отдельно?

Анализ гистограммы

1. Размах (диапазон) значений. Размах процентных ставок определяется по левой и правой границам гистограммы. Если самая низкая процентная ставка равна приблизительно 5,9%, самая высокая процентная ставка – около 7,2%. Таким образом, размах процентной ставки составляет 1,3% (7,2% – 5,9% = 1,3%).

2. Типичные значения. Типичным значениям соответствует самый высокий столбец гистограммы. Наиболее часто встречаются ставки в интервале от 6,8% до 7,0% (26 из 45 организаций предлагают ставки в данном интервале).

3. Рассеяние. Рассеяние указывает разницу между типичным значением и остальными значениями, т.е. характеризует, как отстоят другие столбцы относительно самого высокого столбца (типичного). Типичная разница ставок для различных организаций составляет приблизительно 0,5% (6,8% – 6,3% = 0,5%), т.е. умеренно высокие столбцы отстоят от типичного столбца приблизительно на 0,5%.

4. Общая конфигурация данных. Большинство организаций сконцентрировано правее середины диапазона процентных ставок (здесь самые высокие столбцы) и немного организаций предлагают либо очень низкие, либо очень высокие ставки (короткие столбцы слева и справа от типичного столбца).

5. Характерные особенности. На гистограмме пропущена область от 5,9% до 6,1%. По-видимому, ни одна компания не предлагает ставку в этом интервале.

Выявление нормального распределения

Обычно в статистике предполагают, что распределение данных приблизительно соответствует нормальному. Это объясняется тем, что многие стандартные методы статистического анализа, например, вычисление доверительных интервалов или проверка статистических гипотез, требуют нормального распределения данных (хотя бы приблизительно). Зная свойства нормального распределения и изучив внимательно гистограмму, важно определить, являются ли данные нормально распределенными.

Теоретически нормальное распределение представляет собой гладкую гистограмму в форме колокола без случайных отклонений. Кривая нормального распределения задается функцией плотности распределения:

Выявление нормального распределения - student2.ru ,

где a и σ2 – параметры распределения: a – математическое ожидание; σ2 – дисперсия данной случайной величины. Для идеального набора нормально распределенных данных такая кривая имеет следующий вид:

Выявление нормального распределения - student2.ru

Как видим, большинство чисел сконцентрировано в средней части диапазона значений (центр колокола a), а оставшиеся значения с затуханием симметрично располагаются по обе стороны от вершины колокола. Величина σ характеризует ширину (масштаб) колокола.

Фактически существует много кривых нормального распределения, форма которых напоминает симметричный колокол. Эти кривые отличаются друг от друга расположением центра и масштабом σ. Ниже показаны кривые нормального распределения, построенные в разных масштабах.

Выявление нормального распределения - student2.ru Выявление нормального распределения - student2.ru

Поскольку реальные наборы нормально распределенных данных носят случайный характер, то они не имеют идеальную степень гладкости гистограмм и содержат некоторые случайные отклонения от теоретической кривой.

Наши рекомендации