Ассиметричное распределение и преобразование данных
В реальной жизни не все наборы данных подчиняются нормальному распределению. В экономике часто можно встретить ассиметрию в наборах данных. Ассиметричное распределение характеризуется тем, что значения данных на одной стороне от вершины кривой (самого высокого столбца гистограммы) затухают быстрее, чем на другой. Реальные ассиметрично распределенные данные, также как и нормально распределенные, имеют некоторые случайные отклонения.
Поскольку наиболее распространенные статистические методы требуют, чтобы данные были хотя бы приблизительно нормально распределенными, то применение методов к ассиметричным данным приводит к неточным или просто неверным результатам. Один из способов устранения ассиметрии заключается в использовании такого преобразования данных, которое переводит ассиметричное распределение в более симметричное. Наиболее распространенным типом преобразования данных в экономике является логарифмирование, которое можно использовать только для положительных значений, сконцентрированных около нуля (при движении по горизонтальной оси гистограммы вправо количество значений постепенно уменьшается). Логарифмирование приводит к «растягиванию» на числовой оси малых значений и, наоборот, «стягивает вместе» большие значения, уменьшая разницу между ними. Для правильной интерпретации результата логарифмирования необходимо учитывать, что равным расстояниям на логарифмической шкале соответствуют на исходной шкале равные процентные увеличения, а не просто равные увеличения значений. В преобразованиях данных можно использовать логарифмы по основанию 10 или натуральные логарифмы. В экономике натуральный логарифм часто используют при вычислении сложных процентов, темпов роста, экономической эластичности.
Бимодальное распределение
В некоторых ситуациях набор данных может состоять из двух или нескольких отчетливо различающихся между собой групп. На гистограмме таким ситуациям соответствуют разрывы между соседними группами столбцов. Если на гистограмме четко видны две отдельные группы, то это соответствует бимодальному распределению. Наличие бимодального распределения требует серьезного анализа. Прежде всего, следует выявить причины наличия двух групп. Возможно, интерес представляет только одна группа, поэтому другую группу можно исключить из рассмотрения. А может быть, необходимо изучить обе группы отдельно и внести некоторые уточнения, чтобы учесть факт имеющегося различия.
Выбросы
При анализе гистограмм иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения), т.е. такие значения, которые либо слишком велики, либо слишком малы. Существуют два вида выбросов: ошибки и корректные, но «отличающиеся» значения данных.
С ошибками справиться легко – нужно просто отредактировать значение. Например, если значение объема продаж $1597,15 записано как $159715 (без десятичной точки), то оно будет сильно отличаться от остальных значений на гистограмме. В этом случае нужно перепроверить данные, найти ошибку и исправить это значение.
Более сложной является проблема выбросов корректных данных. Если есть убедительное подтверждение того, что выбросы не соответствуют изучаемым данным, то их можно просто удалить и анализировать оставшиеся более согласованные между собой данные. Например, в наборе данных относительно доходов денежного рынка могут появиться несколько значений доходов фондов, не облагаемых налогом. Если цель исследования состоит в анализе рыночной ситуации для обычных фондов, облагаемых налогом, то эти выбросы лучше исключить. При отсутствии достаточно обоснованного аргумента для исключения выбросов можно выполнить два различных анализа: один с учетом выбросов, другой – с исключением их. В лучшем случае может оказаться, что наличие выбросов не имеет существенного значения. Если два анализа дадут разные результаты, то выводы могут быть менее определенными и неоднозначными. В современной статистике в настоящее время разрабатываются устойчивые методы, в которых применяется мощный вычислительный аппарат для учета наличия выбросов.
Задание 1. | Построить и проанализировать гистограмму процентных ставок ссуд под залог недвижимости. |
В таблице 1 представлены размеры фиксированной процентной ставки ссуд под залог недвижимости, предоставляемых на 30 лет ипотечными компаниями.
Таблица 1. Процентные ставки ссуд под залог недвижимости
Кредитор | Процентная ставка | Кредитор | Процентная ставка | Кредитор | Процентная ставка |
7,000 | 7,125 | 6,875 | |||
6,875 | 7,125 | 6,500 | |||
6,875 | 7,000 | 6,875 | |||
6,750 | 7,000 | 7,000 | |||
6,875 | 7,000 | 6,875 | |||
7,250 | 6,875 | 7,000 | |||
6,875 | 6,875 | 7,250 | |||
7,000 | 6,500 | 7,000 | |||
6,875 | 6,500 | 6,625 | |||
7,000 | 6,500 | 6,875 | |||
7,250 | 7,250 | 6,625 | |||
7,000 | 6,750 | 6,625 | |||
7,000 | 6,875 | 6,250 | |||
6,125 | 6,875 | 5,875 | |||
6,750 | 6,875 | 7,000 |
Чтобы построить гистограмму в Excel с помощью статистического пакетаАнализ данных, выполните следующие действия.
1. В папке Мои документы создайте папку Статистика. На Рабочем столе создайте ярлык для папки Статистика.
2. Откройте программу Excel. Щелкните на кнопке Сохранить на панели инструментов Стандартная. В появившемся диалоговом окне откройте папку Статистика и задайте имя файлу Гистограммы.xls.
3. На Листе1 в ячейке A1 задайте метку (название) Процентная ставка, а в диапазон A2:A46 введите из Таблицы 1 значения процентных ставок.
4. Выберите из меню команду: Сервис®Анализ данных®Гистограмма. Щелкните на кнопке OK.
5. В появившемся диалоговом окне в области Входные данные укажите Входной интервал:, выделяя диапазон данных А1:А46 вместе с меткой. Установите флажок Метки, чтобы указать, что метка включена в диапазон входного интервала.
6. В области Параметры вывода установите флажок Вывод графика и включите параметр Выходной интервал: для вывода гистограммы на том же листе, где располагаются входные данные. Для определения места вывода гистограммы сначала щелкните в текстовом поле параметра Выходной интервал:, а затем выделите ячейку D1, указывающую адрес левого верхнего угла поля вывода гистограммы. Щелкните на кнопке OK.
Замечание. Если не указывать параметр Интервал карманов:, определяющий ширину столбца, то программа Excel устанавливает равные интервалы автоматически. Количество интервалов приближенно равно квадратному корню из числа значений данных.
Excel разместит на листе таблицу распределения частот и гистограмму как показано ниже.
Карман | Частота |
5,875 | |
6,104167 | |
6,333333 | |
6,5625 | |
6,791667 | |
7,020833 | |
Еще |
Таблица распределения частот включает исходные карманы. Значения карманов указывают правые границы интервалов. Например, карману со значением 6,5625 соответствует интервал (6,333333; 6,5625]. В данный интервал попали 4 значения процентных ставок. На гистограмме Excel размещает значения карманов по оси Х в середине интервалов, а не у отметок, разделяющих интервалы.
Для того, чтобы гистограмма была удобочитаемой и имела обычный вид, проведите форматирование гистограммы следующим образом.
7. Измените размеры диаграммы так, чтобы она разместилась в диапазоне G1:L16.
8. Удалите легенду. Для этого щелкните по легенде Частота (справа от гистограммы) и нажмите клавишу [Delete].
9. Для устранения зазоров между столбцами гистограммы, дважды щелкните на любом столбце, выберите в появившемся диалоговом окне вкладку Параметры, установите нулевое значение параметра Ширина зазора и щелкните на кнопке OK.
10. Для уменьшения разрядности значений процентных ставок на гистограмме до одного знака после запятой выделите диапазон значений карманов D2:D7 и воспользуйтесь соответствующей кнопкой на панели инструментов Форматирование.
11. Дважды щелкните по значениям оси Y. В диалоговом окне Формат оси на вкладке Шкала установите в текстовом поле цена основных делений: значение 4, а в текстовом поле цена промежуточных делений: значение 1. На вкладке Шрифт установите размер 10. Щелкните на кнопке ОК.
12. Дважды щелкните по значениям оси Х. В диалоговом окне Формат оси на вкладке Выравнивание дважды щелкните в текстовом поле градусов и введите значение 0, чтобы при любом изменении размеров диаграммы подписи по оси Х всегда были горизонтальными. На вкладке Шрифт установите размер 10. Щелкните на кнопке ОК.
13. Выделите название диаграммы. Используя список на панели инструментов Форматирование, установите размер шрифта 10. Введите новое название Процентные ставки ссуд под залог недвижимости. Нажмите клавишу [Enter].
14. Выделите название оси Y. Установите размер шрифта 10. Введите новое название Частота (количество ипотечных компаний). Нажмите клавишу [Enter].
15. Выделите название оси Х. Установите размер шрифта 10. Введите новое название Процентная ставка. Нажмите клавишу [Enter].
Карман | Частота |
5,9 | |
6,1 | |
6,3 | |
6,6 | |
6,8 | |
7,0 | |
Еще |
16. Выделите Область построения диаграммы и увеличьте ее высоту. Щелкните на кнопке Сохранить. Ниже показан вид полученной гистограммы.
Задание 2. | Построить гистограммы для двух различных выборок объемом по 100 значений каждая из нормально распределенного набора данных. |
Для получения выборки из нормально распределенного набора данных используйте статистический пакет Анализ данных. Выполните следующие действия.
1. Откройте файл Гистограммы.xls и выделите Лист2.
2. Выберите из меню команду: Сервис®Анализ данных®Генерация случайных чисел. Щелкните на кнопке OK.
3. В появившемся диалоговом окне установите параметры, как показано ниже. Щелкните на кнопке OK.
4. Для полученной выборки на том же Листе2 постройте гистограмму, разместите ее вместе с таблицей распределения частот в диапазоне G1:N16 и приведите к виду, указанному ниже.
5. Получите вторую выборку из нормально распределенных данных с теми же параметрами и разместите ее на Листе2 в диапазоне B1:B100.
6. Для второй выборки постройте гистограмму, расположите ее вместе с таблицей распределения частот в диапазоне G21:N36 и приведите к виду, указанному ниже. Щелкните на кнопке Сохранить.
Сравнение этих двух гистограмм показывает, насколько случайной может быть форма распределения при ограниченном объеме выборки. Значительное уменьшение объема выборки приводит к увеличению случайности и может быть недостаточно для представления полной картины распределения.
Задание 3. | Построить гистограммы для двух различных выборок объемом по 15 значений каждая из нормально распределенного набора данных. |
1. В файле Гистограммы.xls выделите Лист3.
2. Используя статистический пакет Анализ данных, получите две выборки объемом по 15 значений каждая из нормально распределенных данных с параметрами, указанными в Задании 2. Постройте гистограммы и сравните форму распределения. Щелкните на кнопке Сохранить.
Задание 4. | Построить две гистограммы: гистограмму исходных значений и гистограмму логарифмов значений. Сравнить форму распределения данных на этих гистограммах. |
В таблице 2 содержатся данные об активах коммерческих банков.
Таблица 2. Активы коммерческих банков
Банк | Активы, млрд. дол. | Банк | Активы, млрд. дол. | Банк | Активы, млрд. дол. |
1. В файле Гистограммы.xls добавьте Лист4, выполнив команду Вставка®Лист.
2. На Листе4 в ячейке A1 задайте метку Активы, а в диапазон A2:A51 введите из Таблицы2 значения активов.
3. Постройте гистограмму для исходных значений активов. Гистограмму вместе с таблицей распределения частот расположите на том же листе в диапазоне D1:L19.
4. Введите в ячейку B1 метку Логарифм активов.
5. В ячейку B2 введите формулу =LN(A2). Нажмите [Enter].
6. Выделите ячейку B2 и дважды щелкните на маркере заполнения. Формула будет скопирована в диапазон B3:B51.
7. Постройте гистограмму для логарифмированных значений активов. Расположите гистограмму вместе с таблицей распределения частот в диапазоне D22:L40. Щелкните на кнопке Сохранить.
8. Сравните форму распределения данных на построенных гистограммах. Можно ли считать, что преобразованная гистограмма логарифмов активов, не считая случайных отклонений, стала симметричной?
Задание 5. | Построить и проанализировать гистограмму стоимости использованного сырья двумя менеджерами. |
В таблице 3 содержатся затраты на сырье двумя менеджерами.
Таблица 3. Стоимость использованного сырья
Менеджер | Стоимость сырья, дол. | Менеджер | Стоимость сырья, дол. | Менеджер | Стоимость сырья, дол. |
1. В файле Гистограммы.xls добавьте Лист5.
2. На Листе5 в ячейке A1 задайте метку Стоимость сырья, а в диапазон A2:A43 введите из Таблицы 3 значения стоимости сырья.
3. Постройте гистограмму и расположите ее на том же листе в диапазоне D1:L20. Щелкните на кнопке Сохранить.
4. Проанализируйте гистограмму и ответьте на следующие вопросы.
Ü Является ли распределение стоимости сырья бимодальным, или эти данные можно рассматривать как одну группу значений?
Ü Если распределение бимодальное, то имеет ли смысл изучить каждую группу отдельно?
Задание 6. | Построить гистограмму процентного изменения общих расходов на телевизионную рекламу. Проанализировать выбросы. |
В таблице 4 приведены данные процентного изменения общих расходов на телевизионную рекламу в 1994 г. по сравнению с 1993 г.
Таблица 4. Изменение общих расходов на телевизионную рекламу
Рекламодатель | Изменение расходов на телерекламу, % | Рекламодатель | Изменение расходов на телерекламу, % |
43,2 | -22,7 | ||
27,5 | 73,5 | ||
77,9 | 14,0 | ||
201,0 | 16,5 | ||
16,7 | 217,3 | ||
54,5 | 31,4 | ||
47,7 | 42,4 | ||
104,4 | 2353,7 | ||
65,7 | 28,5 | ||
66,8 | 16,4 | ||
33,3 | 684,0 | ||
65,9 | 12,7 | ||
44,7 |
1. В файле Гистограммы.xls добавьте Лист6.
2. На Листе6 в ячейке A1 задайте метку Процентное изменение расходов, а в диапазон A2:A26 введите из Таблицы 4 значения процентных изменений расходов на телерекламу.
3. Постройте гистограмму и расположите ее вместе с таблицей распределения частот на том же листе в диапазоне E1:L15. Уменьшите разрядность значений, исключив дробную часть.
Обратите внимание! Наличие выброса на гистограмме справа (для компании №21 увеличение расходов составляет колоссальное число 2353,7%) привело к тому, что почти все компании (22 компании) попали в один столбец гистограммы. Такая гистограмма не очень полезна, т.к. нельзя увидеть подробную картину распределения процентных изменений в других компаниях.
4. Исключите из рассмотрения компанию №21. Для этого выделите строку 22 и удалите ее. Постройте снова гистограмму для диапазона данных A1:A25 (включая метку) и расположите ее вместе с таблицей распределения частот в диапазоне E17:L31. Уменьшите разрядность значений, исключив дробную часть.
Обратите внимание! Как видно из гистограммы, большинство деталей все еще скрыто из-за наличия на этот раз другого выброса, равного 684,0% (компания №24).
5. Исключите из рассмотрения компанию №24. Для этого выделите строку 24 и удалите ее. Постройте снова гистограмму для диапазона данных A1:A24 (включая метку) и расположите ее вместе с таблицей распределения частот в диапазоне E33:L47. Уменьшите разрядность значений, исключив дробную часть.
Обратите внимание! В полученной гистограмме большинство компаний сосредоточено в двух столбцах. Можно картину распределения сделать более наглядной, если построить гистограмму с более узкими столбцами. Для этого надо уменьшить интервал, определяющий ширину столбца. В случае явного задания интервалов для облегчения анализа лучше использовать числа, кратные 2, 5, или 10.
6. В ячейку B33 введите метку Карман. В ячейку B34 введите значение –20 (нижняя граница диапазона входных значений). В ячейку B35 введите значение 0, приняв значение интервала равным 20. Теперь выделите обе ячейки B34:B35 и протащите маркер заполнения до ячейки B46, определив тем самым верхнюю границу диапазона значений, равную 220.
7. Постройте гистограмму, задавая в поле параметра Интервал карманов: диапазон ячеек B33:B46, включая метку. Расположите гистограмму вместе с таблицей распределения частот в диапазоне N33:U47. Щелкните на кнопке Сохранить.
Обратите внимание! Хотя в полученной гистограмме после исключения двух выбросов есть еще два выброса – более 200% (компании №4 и №18), можно, наконец, увидеть, что распределение изменений расходов на телерекламу для оставшихся рекламодателей является приблизительно нормальным, с центром около 40%.
Контрольные вопросы при представлении отчета
1. Какие шесть свойств набора данных можно выявить при визуальном анализе гистограммы?
2. Что такое нормальное распределение? Почему нормальное распределение играет важную роль в статистике?
3. Если реальный набор данных распределен нормально, то можно ли ожидать, что гистограмма будет иметь идеально гладкую форму в виде колокола?
4. Что такое ассиметричное распределение? Как можно во многих случаях решить проблему ассиметрии?
5. Что такое бимодальное распределение? Что следует предпринять в случае бимодального распределения?
6. Что такое выброс? Какие виды выбросов могут наблюдаться?
7. В каких случаях выбросы можно не учитывать и анализировать только остальные данные?
8. Какие действия нужно предпринять, если при анализе необходимо учитывать наличие выбросов?
Контрольные задания по вариантам
Добавьте Лист7 и выполните задание с использованием базы данных служащих (файл База данных служащих.xls находится в папке Мои документы).
Замечание. Для выполнения некоторых заданий потребуется фильтрация списка, т.е. отбор из базы данных отдельных записей по условиям фильтра. В этом случае необходимо установить курсор на любой ячейке списка и включить фильтрацию с помощью команды:Данные®Фильтр®Автофильтр
В строке заголовков таблицы появятся кнопки со стрелкой. При щелчке на стрелке соответствующего заголовка откроется меню, содержащее условия отбора. Например, если необходимо отобрать записи, содержащие данные только для мужчин, то надо щелкнуть на стрелке заголовка Пол и выбрать в меню критерий М. В результате база данных будет отфильтрована, и в списке останутся только записи, соответствующие заданному критерию (записи мужчин). Теперь нужные данные можно скопировать в файл Гистограммы.xls (на Лист7) и провести анализ.
После окончания анализа необходимо в файле База данных служащих.xls отменить действие фильтра. Для этого сначала выполните команду: Данные®Фильтр®Отобразить все, чтобы вывести все записи базы, а затем выключите автофильтр, повторно выполнив команду: Данные®Фильтр®Автофильтр.