Первичный анализ статистических данных
Шаг 1. В системе Excel в меню откройте модуль Анализ данных (рисунок 4.3).
Рисунок 4.3 – Открытие модуля Анализ данных
Шаг 2. В модуле Анализ данныхвыберитеОписательная статистика,после чего щелкните мышкой OK(рисунок 4.4).
Рисунок 4.4 – Окно Анализа данных – описательная статистика
Шаг 3. В появившемся окне выполните операции и установки, как показано на рисунке 4.5. Щелкните мышкой OK.
Рисунок 4.5 – Стартовая панель
Результат обработки появится в указанном поле (выходной интервал $Е$1 – или любая свободная ячейка). На рисунке 4.6 показаны результаты статистической обработки.
Рисунок 4.6 – Описательная статистика (результат обработки)
Примечание: эта опция позволяет обрабатывать любое количество выборок одновременно.
Следующей процедурой является проверка в выборках выбросов. Из результатов обработки, представленных на рисунке 4.6, обращают на себя внимание высокие значения эксцесса и асимметрии для выборок в столбцах a и с. Поэтому можно предположить, что крайние значения (минимальные или максимальные) являются выбросами. Для выборки столбца а – это значение 4,1, для выборки столбца с – 14,2.
По формуле 4.9 рассчитываем Т – критерий выброса.
– для выборки в столбце а;
– для выборки в столбце с.
Из таблицы 4.1 при n = 9 стандартное значение критерия выброса Tst = 2,2. Так как Т – критерий выброса в выборках больше, чем стандартное значение критерия выброса Tst, то значения 4,1 в выборке а и 14,2 в выборке с имеем полное право удалить.
Таким образом, окончательный вариант трех анализируемых выборок представлен в таблице 4.4.
Таблица 4.4 – Окончательный вариант
a | b | c |
12,6 | 15,3 | 3,9 |
13,2 | 15,6 | 4,2 |
16,3 | 4,4 | |
14,6 | 18,5 | 4,5 |
14,9 | 19,3 | 4,7 |
15,1 | 20,2 | 4,7 |
16,1 | 21,1 | 5,1 |
16,6 | 21,2 | 5,3 |
25,3 |
Теперь необходимо выполнить процедуру обработки данных таблицы 4.4, как это было сделано выше (шаги 1 – 3). Результат обработки представлен на рисунке 4.7.
Рисунок 4.7 – Описательная статистика
(окончательный результат обработки)
Проверка на условие нормальности распределения
Для выполнения этой операции, прежде всего, необходимо по формулам 4.7, 4.8 вычислить ошибки показателей эксцесса и асимметрии.
– для выборок а и с; – для выборки b;
– для выборок а и с; – для выборки b.
Затем найти отношения значений эксцесса и асимметрии по модулю к их ошибкам.
; – для выборки а;
; – для выборки b;
; – для выборки с.
Так как найденные значения меньше критического равного трем, то все три выборки удовлетворяют условию нормальности распределения.
Гистограмма
Для построения гистограммы необходимо определить величину класса (кармана) по формуле:
, ,
где N – число наблюдений.
Число классов n округляется до ближайшего целого вверх (например: для столбца а: n = 4,00006 – до 5, для столбца b: n = 4,32 – до 5, для столбца c: n = 4,00006 – до 5)
Размеры интервалов для приведенных в таблице примеров представлены в таблице 4.5.
Таблица 4.5 – Размер интервалов
a | 14,52 | 15,04 | 15,56 | 16,08 | 16,6 | |
b | 15,3 | 17,3 | 19,3 | 21,3 | 23,3 | 25,3 |
c | 3,9 | 4,18 | 4,46 | 4,74 | 5,02 | 5,3 |
Если не рассчитывать размеры интервалов, то они будут определены автоматически.
Опция гистограмма проводит обработку только по одной выборке. Поэтому в примере покажем порядок обработки только для выборки а. Для остальных двух выборок процедура обработки аналогична.
Шаг 1. Вернитесь в модуль Анализ данныхивыберитеопцию Гистограмма, после чего щелкните мышкой OK(рисунок 4.8).
Рисунок 4.8 – Окно Анализа данных – гистограмма
Шаг 2. В появившемся окне выполните операции и установки, как показано на рисунке 4.9, после чего щелкните мышкой OK.
Рисунок 4.9 – Стартовая панель
Шаг 3. Результат обработки появится в указанном поле (выходной интервал $D$1 – или любая свободная ячейка, рисунок 4.10).
Рисунок 4.10 – Гистограмма
Задания для выполнения
1 Введите в таблицу MS Excel исходные данные из Приложения А, таблица А1.
2 Выполните подготовительные и расчетные процедуры в соответствии с порядком операций, выполненных в настоящем разделе.
Получите результат и сделайте заключение.
Лабораторная работа 5
Разнообразие значений признака (Statistica 6)
Цель работы: научиться выполнять первичную обработку данных в программном продукте Statistica 6.