Форматирование таблицы с выходными данными
Лабораторная работа №2
Обобщающие показатели одномерного набора данных
Статистический пакет Анализ данных включает в себя два инструмента для анализа одномерного набора данных: Описательная статистика и Ранг и персентиль. С помощью инструмента Описательная статистика рассчитываются показатели, характеризующие типические значения, изменчивость и ассиметрию данных. Инструмент Ранг и персентиль создает таблицу исходных данных, упорядоченных в соответствии с порядковыми числами (рангами) и персентилем.
Использование инструмента анализа Описательная статистика
Задание 1. | Определить обобщающие характеристики для анализа цен 15 объектов. |
В таблице 1 представлены цены 15 объектов.
Таблица 1. Цены объектов
Объект | Цена, дол. | Объект | Цена, дол. | Объект | Цена, дол. |
26,0 | 38,0 | 43,6 | |||
31,0 | 39,6 | 44,8 | |||
37,4 | 31,2 | 40,6 | |||
34,8 | 37,2 | 41,8 | |||
39,2 | 38,4 | 45,2 |
1. Откройте программу Excel. Щелкните на кнопке Сохранить на панели инструментов Стандартная. В появившемся диалоговом окне откройте папку Статистика и задайте имя файлу Описательная статистика.xls.
2. На Листе1 в ячейке A1 задайте метку Цена, а в диапазон A2:A16 введите данные из Таблицы 1.
3. Выберите из меню команду: Сервис®Анализ данных®Описательная статистика. Щелкните на кнопке OK.
4. В появившемся диалоговом окне в области Входные данные укажите Входной интервал:, выделяя диапазон данных А1:А16 вместе с меткой. Параметр Группирование: выберите по столбцам. Установите флажок Метки в первой строке, т.к. выбранные ячейки включают в себя подписи.
5. В области Параметры вывода включите параметр Выходной интервал:. Для определения места вывода на листе сначала щелкните в текстовом поле параметра Выходной интервал:, а затем выделите ячейку С1, указывающую адрес левого верхнего угла области вывода данных. Установите следующие флажки:
Итоговая статистика Данная опция управляет выводом выходных данных.
Уровень надежности: Данная опция вычисляет половину длины доверительного интервала для среднего с заданной значимостью (в %). В нашем примере установите значимость равной 90%. Это означает, что вероятность того, что среднее генеральной совокупности данных находится в пределах доверительного интервала, равна 0,9.
К-ый наименьший: Эта опция определяет k-ое наименьшее значение из входных данных. В нашем примере введите Kравным 4.
К-ый наибольший: Эта опция определяет k-ое наибольшее значение из входных данных. В нашем примере введите K равным 4.
6. Щелкните на кнопке OK. Excel вычислит обобщающие показатели и разместит их в виде таблицы в двух столбцах C и D.
Форматирование таблицы с выходными данными
7. Чтобы ширина столбцов была достаточной для отображения самой длинной ячейки, выделите столбцы C и D, а затем выберите команду:
Формат®Столбец ®Автоподбор ширины.
8. Некоторые значения в таблице отображаются с девятью десятичными знаками после запятой. Для удобства чтения выделите одновременно ячейки D4, D7:D10, D18 и уменьшите разрядность значений до двух знаков после запятой, используя соответствующую копку на панели инструментов Форматирование.
9. Измените ширину столбца D, дважды щелкнув на правой границе заголовка этого столбца. Ниже показан полученный вид таблицы выходных данных.
Цена | |
Среднее | 37,92 |
Стандартная ошибка | 1,39 |
Медиана | 38,4 |
Мода | #Н/Д |
Стандартное отклонение | 5,38 |
Дисперсия выборки | 28,94 |
Эксцесс | 0,30 |
Асимметричность | -0,73 |
Интервал | 19,2 |
Минимум | |
Максимум | 45,2 |
Сумма | 568,8 |
Счет | |
Наибольший(4) | 41,8 |
Наименьший(4) | 34,8 |
Уровень надежности(90,0%) | 2,45 |
Интерпретация результатов
10. Выходные данные содержат три обобщающих показателя, которые называются типическими значениями.
Ü Среднее – это средняя цена объектов, равная $37,92. Получается как результат деления суммы цен всех объектов (Сумма $568,8) на количество объектов (Счет 15).
Ü Медиана – значение, расположенное посередине упорядоченного набора данных. В нашем примере значение медианы равно $38,4.
Ü Мода – наиболее часто встречающееся значение. Если встречается несколько часто встречающихся значений, то Excel выводит первое из них. Если каждое значение встречается один раз, то Excel выводит запись #Н/Д. В таком случае надо получить таблицу распределения частот, в которой интервал с наибольшей частотой называется модальным интервалом. Для определения модального интервала рекомендуется использовать гистограммы.
Задание 2. | Определить модальный интервал. |
По данным Таблицы 1 в файле Описательная статистика.xls на Листе1 постройте гистограмму для диапазона данных A1:A16, включая метку. Интервал входных значений задайте явно равным 5. Нижнюю границу диапазона входных значений примите равной 25, а верхнюю границу равной 50. Значения карманов вместе с меткой Карман расположите в ячейках F1:F7. Выведите гистограмму вместе с таблицей распределения частот в область H1:O10. Укажите величину модального интервала.
11. В таблице описательной статистики имеется несколько показателей, характеризующих изменчивость (разброс) данных.
Ü Интервал – размах значений, равный ($19,2). Определяется как разность между Максимумом ($45,2) и Минимумом ($26).
Ü Дисперсия выборки (28,94). Вычисляется как результат деления суммы квадратов отклонений каждого значения от Среднего на n-1. Выражается в единицах в квадрате ($2).
Ü Стандартное отклонение ($5,38) – корень квадратный из Дисперсии выборки. Стандартное отклонение приближенно показывает, насколько отдельные значения выборки отличаются от их Среднего. Измеряется в тех же единицах, что и входные данные.
Ü Стандартная ошибка ($1,39) является характеристикой достоверности Среднего. Вычисляется как Стандартное отклонение, поделенное на . Данная характеристика показывает, насколько Среднее выборки отличается от среднего генеральной совокупности.
Ü Нибольший(4) и Наименьший(4) являются соответственно четвертым наибольшим ($41,8) и четвертым наименьшим ($34,8) значениями входных данных.
Ü Уровень надежности(90,0%), равный $2,45, определяет половину длины 90%-го доверительного интервала для Среднего. Следовательно, 90%-й доверительный интервал равен (37,92-2,45; 37,92+2,45), т.е. (35,47; 40,37).
12. Третья группа показателей характеризует степень симметричности данных.
Ü Эксцесс (0,3) является показателем островершинности симметричных распределений. Если распределение более плоское, чем нормальное (т.е. имеет более «тяжелые» хвосты), то Эксцесс будет положительным. Если же распределение имеет более выраженный пик, чем нормальное (т.е. имеет более «легкие» хвосты), то Эксцесс отрицательный. В нашем примере (см. гистограмму) распределение примерно симметричное с небольшим положительным Эксцессом.
Ü Ассиметричность (К=–0,73) определяет степень симметрии данных. Если большинство экстремальных значений расположено в положительном направлении от центра распределения (скошено вправо), то Ассиметричность положительна. В этом случае Среднее больше Медианы. Если же большинство экстремальных значений расположено в отрицательном направлении от центра распределения (скошено влево), то Ассиметричность отрицательна и Среднее меньше Медианы. Ниже приведена интерпретация показателя Ассиметричности (К) для Excel.
K < –0,5 скошено влево
–1 £ K £ 1 приблизительно симметрично
K > 1 скошено вправо
В нашем примере (см. гистограмму) данные приблизительно симметричны с небольшим отрицательным отклонением (скос влево).