Ассиметричное распределение и преобразование данных

В реальной жизни не все наборы данных подчиняются нормальному распределению. В экономике часто можно встретить ассиметрию в наборах данных. Ассиметричное распределение характеризуется тем, что значения данных на одной стороне от вершины кривой (самого высокого столбца гистограммы) затухают быстрее, чем на другой. Реальные ассиметрично распределенные данные, также как и нормально распределенные, имеют некоторые случайные отклонения.

Поскольку наиболее распространенные статистические методы требуют, чтобы данные были хотя бы приблизительно нормально распределенными, то применение методов к ассиметричным данным приводит к неточным или просто неверным результатам. Один из способов устранения ассиметрии заключается в использовании такого преобразования данных, которое переводит ассиметричное распределение в более симметричное. Наиболее распространенным типом преобразования данных в экономике является логарифмирование, которое можно использовать только для положительных значений, сконцентрированных около нуля (при движении по горизонтальной оси гистограммы вправо количество значений постепенно уменьшается). Логарифмирование приводит к «растягиванию» на числовой оси малых значений и, наоборот, «стягивает вместе» большие значения, уменьшая разницу между ними. Для правильной интерпретации результата логарифмирования необходимо учитывать, что равным расстояниям на логарифмической шкале соответствуют на исходной шкале равные процентные увеличения, а не просто равные увеличения значений. В преобразованиях данных можно использовать логарифмы по основанию 10 или натуральные логарифмы. В экономике натуральный логарифм часто используют при вычислении сложных процентов, темпов роста, экономической эластичности.

Задание 4. Построить две гистограммы: гистограмму исходных значений и гистограмму логарифмов значений. Сравнить форму распределения данных на этих гистограммах.

В таблице 2 содержатся данные об активах коммерческих банков.

Таблица 2. Активы коммерческих банков

Банк Активы, млрд. дол. Банк Активы, млрд. дол. Банк Активы, млрд. дол.
   

1. В файле Гистограммы.xls добавьте Лист4, выполнив команду Вставка®Лист.

2. На Листе4 в ячейке A1 задайте метку Активы, а в диапазон A2:A51 введите из Таблицы2 значения активов.

3. Постройте гистограмму для исходных значений активов. Гистограмму вместе с таблицей распределения частот расположите на том же листе в диапазоне D1:L19.

4. Введите в ячейку B1 метку Логарифм активов.

5. В ячейку B2 введите формулу =LN(A2). Нажмите [Enter].

6. Выделите ячейку B2 и дважды щелкните на маркере заполнения. Формула будет скопирована в диапазон B3:B51.

7. Постройте гистограмму для логарифмированных значений активов. Расположите гистограмму вместе с таблицей распределения частот в диапазоне D22:L40. Щелкните на кнопке Сохранить.

8. Сравните форму распределения данных на построенных гистограммах. Можно ли считать, что преобразованная гистограмма логарифмов активов, не считая случайных отклонений, стала симметричной?

Бимодальное распределение

В некоторых ситуациях набор данных может состоять из двух или нескольких отчетливо различающихся между собой групп. На гистограмме таким ситуациям соответствуют разрывы между соседними группами столбцов. Если на гистограмме четко видны две отдельные группы, то это соответствует бимодальному распределению. Наличие бимодального распределения требует серьезного анализа. Прежде всего, следует выявить причины наличия двух групп. Возможно, интерес представляет только одна группа, поэтому другую группу можно исключить из рассмотрения. А может быть, необходимо изучить обе группы отдельно и внести некоторые уточнения, чтобы учесть факт имеющегося различия.

Задание 5. Построить и проанализировать гистограмму стоимости использованного сырья двумя менеджерами.

В таблице 3 содержатся затраты на сырье двумя менеджерами.

Таблица 3. Стоимость использованного сырья

Менеджер Стоимость сырья, дол. Менеджер Стоимость сырья, дол. Менеджер Стоимость сырья, дол.

1. В файле Гистограммы.xls добавьте Лист5.

2. На Листе5 в ячейке A1 задайте метку Стоимость сырья, а в диапазон A2:A43 введите из Таблицы 3 значения стоимости сырья.

3. Постройте гистограмму и расположите ее на том же листе в диапазоне D1:L20. Щелкните на кнопке Сохранить.

4. Проанализируйте гистограмму и ответьте на следующие вопросы.

Ü Является ли распределение стоимости сырья бимодальным, или эти данные можно рассматривать как одну группу значений?

Ü Если распределение бимодальное, то имеет ли смысл изучить каждую группу отдельно?

Выбросы

При анализе гистограмм иногда в данных можно наблюдать выбросы (сильно отклоняющиеся значения), т.е. такие значения, которые либо слишком велики, либо слишком малы. Существуют два вида выбросов: ошибки и корректные, но «отличающиеся» значения данных.

С ошибками справиться легко – нужно просто отредактировать значение. Например, если значение объема продаж $1597,15 записано как $159715 (без десятичной точки), то оно будет сильно отличаться от остальных значений на гистограмме. В этом случае нужно перепроверить данные, найти ошибку и исправить это значение.

Более сложной является проблема выбросов корректных данных. Если есть убедительное подтверждение того, что выбросы не соответствуют изучаемым данным, то их можно просто удалить и анализировать оставшиеся более согласованные между собой данные. Например, в наборе данных относительно доходов денежного рынка могут появиться несколько значений доходов фондов, не облагаемых налогом. Если цель исследования состоит в анализе рыночной ситуации для обычных фондов, облагаемых налогом, то эти выбросы лучше исключить. При отсутствии достаточно обоснованного аргумента для исключения выбросов можно выполнить два различных анализа: один с учетом выбросов, другой – с исключением их. В лучшем случае может оказаться, что наличие выбросов не имеет существенного значения. Если два анализа дадут разные результаты, то выводы могут быть менее определенными и неоднозначными. В современной статистике в настоящее время разрабатываются устойчивые методы, в которых применяется мощный вычислительный аппарат для учета наличия выбросов.

Задание 6. Построить гистограмму процентного изменения общих расходов на телевизионную рекламу. Проанализировать выбросы.

В таблице 4 приведены данные процентного изменения общих расходов на телевизионную рекламу в 1994 г. по сравнению с 1993 г.

Таблица 4. Изменение общих расходов на телевизионную рекламу

Рекламодатель Изменение расходов на телерекламу, % Рекламодатель Изменение расходов на телерекламу, %
43,2 -22,7
27,5 73,5
77,9 14,0
201,0 16,5
16,7 217,3
54,5 31,4
47,7 42,4
104,4 2353,7
65,7 28,5
66,8 16,4
33,3 684,0
65,9 12,7
44,7    

1. В файле Гистограммы.xls добавьте Лист6.

2. На Листе6 в ячейке A1 задайте метку Процентное изменение расходов, а в диапазон A2:A26 введите из Таблицы 4 значения процентных изменений расходов на телерекламу.

3. Постройте гистограмму и расположите ее вместе с таблицей распределения частот на том же листе в диапазоне E1:L15. Уменьшите разрядность значений, исключив дробную часть.

Обратите внимание! Наличие выброса на гистограмме справа (для компании №21 увеличение расходов составляет колоссальное число 2353,7%) привело к тому, что почти все компании (22 компании) попали в один столбец гистограммы. Такая гистограмма не очень полезна, т.к. нельзя увидеть подробную картину распределения процентных изменений в других компаниях.

4. Исключите из рассмотрения компанию №21. Для этого выделите строку 22 и удалите ее. Постройте снова гистограмму для диапазона данных A1:A25 (включая метку) и расположите ее вместе с таблицей распределения частот в диапазоне E17:L31. Уменьшите разрядность значений, исключив дробную часть.

Обратите внимание! Как видно из гистограммы, большинство деталей все еще скрыто из-за наличия на этот раз другого выброса, равного 684,0% (компания №24).

5. Исключите из рассмотрения компанию №24. Для этого выделите строку 24 и удалите ее. Постройте снова гистограмму для диапазона данных A1:A24 (включая метку) и расположите ее вместе с таблицей распределения частот в диапазоне E33:L47. Уменьшите разрядность значений, исключив дробную часть.

Обратите внимание! В полученной гистограмме большинство компаний сосредоточено в двух столбцах. Можно картину распределения сделать более наглядной, если построить гистограмму с более узкими столбцами. Для этого надо уменьшить интервал, определяющий ширину столбца. В случае явного задания интервалов для облегчения анализа лучше использовать числа, кратные 2, 5, или 10.

6. В ячейку B33 введите метку Карман. В ячейку B34 введите значение –20 (нижняя граница диапазона входных значений). В ячейку B35 введите значение 0, приняв значение интервала равным 20. Теперь выделите обе ячейки B34:B35 и протащите маркер заполнения до ячейки B46, определив тем самым верхнюю границу диапазона значений, равную 220.

7. Постройте гистограмму, задавая в поле параметра Интервал карманов: диапазон ячеек B33:B46, включая метку. Расположите гистограмму вместе с таблицей распределения частот в диапазоне N33:U47. Щелкните на кнопке Сохранить.

Обратите внимание! Хотя в полученной гистограмме после исключения двух выбросов есть еще два выброса – более 200% (компании №4 и №18), можно, наконец, увидеть, что распределение изменений расходов на телерекламу для оставшихся рекламодателей является приблизительно нормальным, с центром около 40%.

Контрольные вопросы

1. Какие шесть свойств набора данных можно выявить при визуальном анализе гистограммы?

2. Что такое нормальное распределение? Почему нормальное распределение играет важную роль в статистике?

3. Если реальный набор данных распределен нормально, то можно ли ожидать, что гистограмма будет иметь идеально гладкую форму в виде колокола?

4. Что такое ассиметричное распределение? Как можно во многих случаях решить проблему ассиметрии?

5. Что такое бимодальное распределение? Что следует предпринять в случае бимодального распределения?

6. Что такое выброс? Какие виды выбросов могут наблюдаться?

7. В каких случаях выбросы можно не учитывать и анализировать только остальные данные?

8. Какие действия нужно предпринять, если при анализе необходимо учитывать наличие выбросов?

Контрольные задания

Добавьте Лист7 и выполните задание с использованием базы данных служащих (файл База данных служащих.xls находится в папке Мои документы).

Замечание. Для выполнения некоторых заданий потребуется фильтрация списка, т.е. отбор из базы данных отдельных записей по условиям фильтра. В этом случае необходимо установить курсор на любой ячейке списка и включить фильтрацию с помощью команды:

Данные®Фильтр®Автофильтр

В строке заголовков таблицы появятся кнопки со стрелкой. При щелчке на стрелке соответствующего заголовка откроется меню, содержащее условия отбора. Например, если необходимо отобрать записи, содержащие данные только для мужчин, то надо щелкнуть на стрелке заголовка Пол и выбрать в меню критерий М. В результате база данных будет отфильтрована, и в списке останутся только записи, соответствующие заданному критерию (записи мужчин). Теперь нужные данные можно скопировать в файл Гистограммы.xls (на Лист7) и провести анализ.

После окончания анализа необходимо в файле База данных служащих.xls отменить действие фильтра. Для этого сначала выполните команду: Данные®Фильтр®Отобразить все, чтобы вывести все записи базы, а затем выключите автофильтр, повторно выполнив команду:

Данные®Фильтр®Автофильтр.

Вариант Задание
а) Постройте гистограмму для заработной платы служащих. б) Опишите форму распределения. в) Обобщите информацию о распределении.
а) Постройте гистограмму для возраста служащих. б) Опишите форму распределения. в) Обобщите информацию о распределении.
а) Постройте гистограмму для стажа работы служащих. б) Опишите форму распределения. в) Обобщите информацию о распределении.
а) Постройте гистограмму для заработной платы мужчин. б) Опишите форму распределения. в) Обобщите информацию о распределении.
а) Постройте гистограмму для заработной платы женщин. б) Опишите форму распределения. в) Обобщите информацию о распределении.
а) Постройте гистограмму для заработной платы мужчин. б) Постройте гистограмму для заработной платы женщин. в) Сравните эти два распределения.
а) Постройте гистограмму для заработной платы служащих с уровнем подготовки А. б) Опишите форму распределения. в) Обобщите информацию о распределении.
а) Постройте гистограмму для заработной платы служащих с уровнем подготовки В. б) Опишите форму распределения. в) Обобщите информацию о распределении.
а) Постройте гистограмму для заработной платы служащих с уровнем подготовки С. б) Опишите форму распределения. в) Обобщите информацию о распределении.
а) Постройте гистограмму для заработной платы служащих с уровнем подготовки А. б) Постройте гистограмму для заработной платы служащих с уровнем подготовки С. в) Сравните эти два распределения.
а) Постройте гистограмму для заработной платы служащих со стажем от 5и более лет. б) Опишите форму распределения. в) Обобщите информацию о распределении.
а) Постройте гистограмму для заработной платы служащих со стажем до 5 лет. б) Опишите форму распределения. в) Обобщите информацию о распределении.
а) Постройте гистограмму для заработной платы служащих со стажем от 5и более лет. б) Постройте гистограмму для заработной платы служащих со стажем до 5 лет. в) Сравните эти два распределения.
а) Постройте гистограмму для стажа работы мужчин. б) Постройте гистограмму для стажа работы женщин. в) Сравните эти два распределения.

Наши рекомендации