Инструмент анализа данных Корреляция
Рассмотрим использование данного инструмента на примере.
Имеется смета затрат на дизельное топливо (ДТ) для автомобиля КамАЗ-55111, занятого на перемещении и выгрузке щепы. Данные расчета затрат (рис.6.6)
Рис. 6.6. Смета затрат на ДТ
Требуется определить существует ли какая - либо статистическая зависимости между указанными на рисунке параметрами с целью дальнейших расчетов.
В Excel для определения степени тесноты взаимосвязи между несколькими переменными используется функция Корреляция. Вызвать эту функции можно в окне диалога Анализ данных. Появится диалоговое окно Корреляция (рис. 6.7).
Рис. 6.7. Диалоговое окно Корреляция
В диалоговом окне Корреляция задаются следующие параметры:
1. Входной интервал – вводится диапазон ячеек, содержащих анализируемые данные. (Желательно в данный диапазон включать и заголовок таблицы, с отметкой флажка Метки в первой строке).
2. В поле Группирование указывается расположение входных данных (анализируемые данные представлены в виде строк или столбцов).
3. Флажок Метки в первой строке устанавливают, чтобы результирующая таблица (см. рис. 6.7) отображала названия анализируемых данных.
4.В группе Параметры вывода указывается ячейка, рабочий лист или книга Excel, где будет представлен результат расчета (см. табл.6.1).
Результаты представлены в виде квадратной матрицы, заполненной только наполовину, поскольку значение коэффициента корреляции между двумя случайными величинами не зависит от порядка их обработки. Нетрудно заметить, что эта матрица симметрична относительно главной диагонали, элементы которой равны 1, так как каждая переменная коррелирует сама с собой. Значение коэффициента корреляциимежду исследуемыми переменными находится на их пересечении (между строкой и столбцом). Например, коэффициент корреляциимеждупеременнымиОтработаноиРасход ДТравняется0,97. Величина показателя Расход ДТ напрямую зависит от величины Стоимость ДТ без НДС, поскольку равна 1.
Таблица 6.1
Результаты корреляционного анализа
Отработано, час | Расход ДТ, л | Стоимость ДТ без НДС, руб. | |
Отработано, час | 1,00 | ||
Расход ДТ, л | 0,97 | 1,00 | |
Стоимость ДТ без НДС, руб. | 0,97 | 1,00 | 1,00 |
Статистический анализ данных наблюдений с использованием средств Mathcad
В Mathcad существует набор встроенных функций для вычисления числовых характеристик случайной величины. К ним относятся:
– возвращает среднее значение вектора А.
- возвращает коэффициент корреляции векторов vx vy.
– возвращает корреляционный момент случайных векторов А и В.
– возвращает стандартное (среднеквадратическое) отклонение элементов вектора A.
- возвращает случайное число, равномерно распределенное между и
Рассмотрим применение данных функций на примерах [2].
Генерация случайных чисел.
Для того чтобы сформировать массив случайных чисел, распределенных по равномерному закону распределения можно воспользоваться функцией - возвращает случайное число, равномерно распределенное между и . Для вызова функции необходимо на вкладке меню Вставка (Insert) выбрать Функция (Function). Функция относится к категории случайные числа.
Рассмотрим применение функции на примере.
Необходимо создать массив из случайных чисел, например, сгенерировать 100 чисел в диапазоне от 0 до 10, распределенных по равномерному закону. Зададим необходимые параметры в Matcad:
Наибольшее (максимальное) значение генерируемых случайных чисел
;
Количество генерируемых случайных чисел
;
Нумерацию (счетчик) генерируемых случайных чисел
;
Применим формулу для генерации случайных чисел
.
После этого следует набрать «х =» (знак равно, а не присвоить) и появится столбец со всеми значениями х. Построение диапазона изменения аргумента называется ранжировкой.
Любое выражение с ранжированными переменными после знака равенства инициирует таблицу вывода.
Результат вычисления в виде таблиц вывода представлен на рис. 6.8. Отображение таблицы вывода настраивается на вкладке 2 - (Display Options) в группе Стиль отображения матриц (Matrix display style).Пользователь может настроить следующие стили отображения таблицы вывода:
Автоматическое (Automatic);
В виде матрицы (Matrix);
В виде таблицы (Table).
Рис. 6.8.Таблица вывода результата расчета с использованием функции
Помимо табличного, возможно графическое представление последовательности полученных чисел (рис. 6.9).
Рис. 6.9.Графическое представление задачи генерации случайных чисел, распределенных равномерно
Используя соответствующие функции, рассчитаем среднее значение полученного диапазона чисел и стандартное (среднеквадратическое) отклонение:
,
.
Построение гистограммы
Гистограмма строится для того, чтобы проверить, насколько полученные числа подчиняются тому или иному закону распределения. Продолжим расчет для примера, представленного в предыдущем разделе.
Для построения необходимо определить количество интервалов для группировки данных :
(6.1)
Применительно к нашему примеру зададим количество интервалов, например 5:
Определим координаты границ интервалов:
,
, (6.2)
где – номер интервала.
После возможно инициировать таблицу вывода данных (ранжировка), с полученными координатами точек границ интервалов.
Построение гистограммы в Mathcad реализовано функцией построение гистограммы - . Здесь - вектор границ интервала, - вектор случайных наблюдений. Ответ получаем в виде вектора, в котором помещено количество значений случайной величины, попавшей в каждый интервал.
Подсчитаем, сколько случайных чисел из массива xпопадает в каждый из интервалов :
(6.3)
Результат расчета представлен в виде вектора (обозначен ), в котором помещено количество значений случайной величины, попавшей в каждый интервал (рис. 6.10.). Для более наглядного отображения строится гистограмма (построение по аналогии с двумерным графиком). Внешний вид полученного графика настраивается в окне Форматирование выбранного графика Х-У (появляется на экране путем осуществления двойного щелчка на графике). Данное окно содержит пять вкладок. Для того, чтобы представить график в виде гистограммы, необходимо использовать трассировку (traces) типа столбики (bar).
Рис. 6.10. Матрица и гистограмма, полученные для анализа закона распределения.