Выявление нормального распределения
Лабораторная работа №1
Визуальный анализ статистических данных
Статистические данные, как правило, представляются в виде числовых таблиц больших размеров. Если пытаться анализировать данные, просматривая таблицу, потребуются большие затраты времени и, чаще всего, целый ряд свойств данных останется не выявленным, поскольку представление информации в виде чисел лишено наглядности и не дает конкретного визуального указания о наличии этих свойств. Более информативно для анализа использование графического отображения данных, например гистограмм. С помощью табличного процессора Microsoft Excel, либо отдельного статистического пакета программ (например, «Статистика») можно с большей экономией времени построить гистограмму и получить информацию для визуального анализа данных.
Использование гистограмм для анализа данных
Гистограмма представляет собой столбиковую диаграмму частот. По горизонтальной оси диаграммы откладывают измеренные значения из набора данных, по вертикальной – частоту встречаемости этих значений. Высота каждого столбца показывает частоту (количество) значений из набора данных, принадлежащих соответствующему интервалу, равному ширине этого столбца.
Визуальный анализ гистограмм позволяет выявить характер распределения данных и ответить на следующие шесть вопросов:
1. Какие значения типичны для заданного набора данных?
2. Как различаются между собой значения (диапазон значений)?
3. Сконцентрированы ли данные вокруг некоторого типичного значения?
4. Какой характер имеет эта концентрация данных? В частности, одинаков ли характер «затухания» для малых и больших значений данных?
5. Есть ли в заданном наборе такие значения, которые сильно отличаются от остальных и требуют специальной обработки (выбросы)?
6. Можно ли сказать, что в целом это однородный набор или отчетливо наблюдается наличие групп, которые надо анализировать отдельно?
Задание 1. | Построить и проанализировать гистограмму процентных ставок ссуд под залог недвижимости. |
В таблице 1 представлены размеры фиксированной процентной ставки ссуд под залог недвижимости, предоставляемых на 30 лет ипотечными компаниями.
Таблица 1. Процентные ставки ссуд под залог недвижимости
Кредитор | Процентная ставка | Кредитор | Процентная ставка | Кредитор | Процентная ставка |
7,000 | 7,125 | 6,875 | |||
6,875 | 7,125 | 6,500 | |||
6,875 | 7,000 | 6,875 | |||
6,750 | 7,000 | 7,000 | |||
6,875 | 7,000 | 6,875 | |||
7,250 | 6,875 | 7,000 | |||
6,875 | 6,875 | 7,250 | |||
7,000 | 6,500 | 7,000 | |||
6,875 | 6,500 | 6,625 | |||
7,000 | 6,500 | 6,875 | |||
7,250 | 7,250 | 6,625 | |||
7,000 | 6,750 | 6,625 | |||
7,000 | 6,875 | 6,250 | |||
6,125 | 6,875 | 5,875 | |||
6,750 | 6,875 | 7,000 |
Чтобы построить гистограмму в Excel с помощью статистического пакетаАнализ данных, выполните следующие действия.
1. В папке Мои документы создайте папку Статистика. На Рабочем столе создайте ярлык для папки Статистика.
2. Откройте программу Excel. Щелкните на кнопке Сохранить на панели инструментов Стандартная. В появившемся диалоговом окне откройте папку Статистика и задайте имя файлу Гистограммы.xls.
3. На Листе1 в ячейке A1 задайте метку (название) Процентная ставка, а в диапазон A2:A46 введите из Таблицы 1 значения процентных ставок.
4. Выберите из меню команду: Сервис®Анализ данных®Гистограмма. Щелкните на кнопке OK.
5. В появившемся диалоговом окне в области Входные данные укажите Входной интервал:, выделяя диапазон данных А1:А46 вместе с меткой. Установите флажок Метки, чтобы указать, что метка включена в диапазон входного интервала.
6. В области Параметры вывода установите флажок Вывод графика и включите параметр Выходной интервал: для вывода гистограммы на том же листе, где располагаются входные данные. Для определения места вывода гистограммы сначала щелкните в текстовом поле параметра Выходной интервал:, а затем выделите ячейку D1, указывающую адрес левого верхнего угла поля вывода гистограммы. Щелкните на кнопке OK.
Замечание. Если не указывать параметр Интервал карманов:, определяющий ширину столбца, то программа Excel устанавливает равные интервалы автоматически. Количество интервалов приближенно равно квадратному корню из числа значений данных.
Excel разместит на листе таблицу распределения частот и гистограмму как показано ниже.
Карман | Частота |
5,875 | |
6,104167 | |
6,333333 | |
6,5625 | |
6,791667 | |
7,020833 | |
Еще |
Таблица распределения частот включает исходные карманы. Значения карманов указывают правые границы интервалов. Например, карману со значением 6,5625 соответствует интервал (6,333333; 6,5625]. В данный интервал попали 4 значения процентных ставок. На гистограмме Excel размещает значения карманов по оси Х в середине интервалов, а не у отметок, разделяющих интервалы.
Для того, чтобы гистограмма была удобочитаемой и имела обычный вид, проведите форматирование гистограммы следующим образом.
7. Измените размеры диаграммы так, чтобы она разместилась в диапазоне G1:L16.
8. Удалите легенду. Для этого щелкните по легенде Частота (справа от гистограммы) и нажмите клавишу [Delete].
9. Для устранения зазоров между столбцами гистограммы, дважды щелкните на любом столбце, выберите в появившемся диалоговом окне вкладку Параметры, установите нулевое значение параметра Ширина зазора и щелкните на кнопке OK.
10. Для уменьшения разрядности значений процентных ставок на гистограмме до одного знака после запятой выделите диапазон значений карманов D2:D7 и воспользуйтесь соответствующей кнопкой на панели инструментов Форматирование.
11. Дважды щелкните по значениям оси Y. В диалоговом окне Формат оси на вкладке Шкала установите в текстовом поле цена основных делений: значение 4, а в текстовом поле цена промежуточных делений: значение 1. На вкладке Шрифт установите размер 10. Щелкните на кнопке ОК.
12. Дважды щелкните по значениям оси Х. В диалоговом окне Формат оси на вкладке Выравнивание дважды щелкните в текстовом поле градусов и введите значение 0, чтобы при любом изменении размеров диаграммы подписи по оси Х всегда были горизонтальными. На вкладке Шрифт установите размер 10. Щелкните на кнопке ОК.
13. Выделите название диаграммы. Используя список на панели инструментов Форматирование, установите размер шрифта 10. Введите новое название Процентные ставки ссуд под залог недвижимости. Нажмите клавишу [Enter].
14. Выделите название оси Y. Установите размер шрифта 10. Введите новое название Частота (количество ипотечных компаний). Нажмите клавишу [Enter].
15. Выделите название оси Х. Установите размер шрифта 10. Введите новое название Процентная ставка. Нажмите клавишу [Enter].
Карман | Частота |
5,9 | |
6,1 | |
6,3 | |
6,6 | |
6,8 | |
7,0 | |
Еще |
16. Выделите Область построения диаграммы и увеличьте ее высоту. Щелкните на кнопке Сохранить. Ниже показан вид полученной гистограммы.
Анализ гистограммы
1. Размах (диапазон) значений. Размах процентных ставок определяется по левой и правой границам гистограммы. Самая низкая процентная ставка равна приблизительно 5,9%, самая высокая процентная ставка – около 7,2%. Таким образом, размах процентной ставки составляет 1,3% (7,2% – 5,9% = 1,3%).
2. Типичные значения. Типичным значениям соответствует самый высокий столбец гистограммы. Наиболее часто встречаются ставки в интервале от 6,8% до 7,0% (26 из 45 организаций предлагают ставки в данном интервале).
3. Рассеяние. Рассеяние указывает разницу между типичным значением и остальными значениями, т.е. характеризует, как отстоят другие столбцы относительно самого высокого столбца (типичного). Типичная разница ставок для различных организаций составляет приблизительно 0,5% (6,8% – 6,3% = 0,5%), т.е. умеренно высокие столбцы отстоят от типичного столбца приблизительно на 0,5%.
4. Общая конфигурация данных. Большинство организаций сконцентрировано правее середины диапазона процентных ставок (здесь самые высокие столбцы) и немного организаций предлагают либо очень низкие, либо очень высокие ставки (короткие столбцы слева и справа от типичного столбца).
5. Характерные особенности. На гистограмме пропущена область от 5,9% до 6,1%. По-видимому, ни одна компания не предлагает ставку в этом интервале.
Выявление нормального распределения
Обычно в статистике предполагают, что распределение данных приблизительно соответствует нормальному. Это объясняется тем, что многие стандартные методы статистического анализа, например, вычисление доверительных интервалов или проверка статистических гипотез, требуют нормального распределения данных (хотя бы приблизительно). Зная свойства нормального распределения и изучив внимательно гистограмму, важно определить, являются ли данные нормально распределенными.
Теоретически нормальное распределение представляет собой гладкую гистограмму в форме колокола без случайных отклонений. Кривая нормального распределения задается функцией плотности распределения:
,
где a и σ2 – параметры распределения: a – математическое ожидание; σ2 – дисперсия данной случайной величины. Для идеального набора нормально распределенных данных такая кривая имеет следующий вид:
Как видим, большинство чисел сконцентрировано в средней части диапазона значений (центр колокола a), а оставшиеся значения с затуханием симметрично располагаются по обе стороны от вершины колокола. Величина σ характеризует ширину (масштаб) колокола.
Фактически существует много кривых нормального распределения, форма которых напоминает симметричный колокол. Эти кривые отличаются друг от друга расположением центра и масштабом σ. Ниже показаны кривые нормального распределения, построенные в разных масштабах.
Поскольку реальные наборы нормально распределенных данных носят случайный характер, то они не имеют идеальную степень гладкости гистограмм и содержат некоторые случайные отклонения от теоретической кривой.
Задание 2. | Построить гистограммы для двух различных выборок объемом по 100 значений каждая из нормально распределенного набора данных. |
Для получения выборки из нормально распределенного набора данных используйте статистический пакет Анализ данных. Выполните следующие действия.
1. Откройте файл Гистограммы.xls и выделите Лист2.
2. Выберите из меню команду: Сервис®Анализ данных®Генерация случайных чисел. Щелкните на кнопке OK.
3. В появившемся диалоговом окне установите параметры, как показано ниже. Щелкните на кнопке OK.
4. Для полученной выборки на том же Листе2 постройте гистограмму, разместите ее вместе с таблицей распределения частот в диапазоне G1:N16 и приведите к виду, указанному ниже.
5. Получите вторую выборку из нормально распределенных данных с теми же параметрами и разместите ее на Листе2 в диапазоне B1:B100.
6. Для второй выборки постройте гистограмму, расположите ее вместе с таблицей распределения частот в диапазоне G21:N36 и приведите к виду, указанному ниже. Щелкните на кнопке Сохранить.
Сравнение этих двух гистограмм показывает, насколько случайной может быть форма распределения при ограниченном объеме выборки. Значительное уменьшение объема выборки приводит к увеличению случайности и может быть недостаточно для представления полной картины распределения.
Задание 3. | Построить гистограммы для двух различных выборок объемом по 15 значений каждая из нормально распределенного набора данных. |
1. В файле Гистограммы.xls выделите Лист3.
2. Используя статистический пакет Анализ данных, получите две выборки объемом по 15 значений каждая из нормально распределенных данных с параметрами, указанными в Задании 2. Постройте гистограммы и сравните форму распределения. Щелкните на кнопке Сохранить.