OLAP-технология и многомерные модели данных
Хранилища данных
Информацию для принятия решений можно получить из хранилищ данных, являющихся дальнейшим развитием реляционных баз данных. Хранилище данных (ХД) – это предметно-ориентированный, многомерный, неизменяемый и поддерживающий хронологию набор данных. В отличие от баз данных, которые предназначены для обслуживания повседневной деятельности предприятия, ХД содержат собранные за много лет данные, предназначенные для оперативного многомерного анализа данных. Базовыми понятиями ХД являются:
- аналитические измерения (реквизиты-признаки экономических показателей);
- меры измерения (реквизиты-основания экономических показателей).
Рассмотрим их.
Моделью данных в ХД служат гиперкубы, т.е. многомерные кубы данных, в ячейках которых находятся анализируемые данные (числа). Осями многомерной системы координат служат специально отобранные реквизиты экономических показателей, отражающих финансово-экономическое состояние предприятия во времени. Такие реквизиты называются аналитическими измерениями. Например, измеряться могут продажи такими измерителями как код товара, период, регион и т д. Аналитические измерения размещаются по осям гиперкуба. Большинство аналитических измерений можно представить иерархической структурой. Например, измерение “исполнитель” может иметь следующие иерархические уровни: предприятие – подразделение – служащий; время: год, месяц, день; регион: Москва, Тула, Брянск и т д.
На пересечениях осей - измерений - находятся данные, количественно характеризующие процесс, с помощью установленной меры измерений (реквизиты-основания показателей). Это могут быть суммы оплат, объемы продаж в штуках или в денежном выражении, коэффициенты, проценты, остатки товаров на складах, прибыль, затраты и т. п.
Многомерные кубы позволяют сделать многомерный анализ, под которым понимается техника рассмотрения данных с различных точек зрения (измерений). Это возможно, так как каждое измерение содержит направления консолидации данных (агрегирования). Консолидация предполагает уровни обобщения, где каждый вышестоящий уровень соответствует большей степени агрегации по соответствующему измерению. Это обеспечивает многомерный анализ данных.
Для анализа данных используется операция среза гиперкуба, позволяющая выделение из него тех данных, которые соответствуют зафиксированному (указанному) значению одного или нескольких измерений. Из одного куба можно создать множество срезов.
На рис. 4.37б с помощью «вырезанной» части показан тот срез, который характеризует объемы продаж в г. Туле в 2003 году по всем товарным группам. Такой срез позволяет подготовить информацию для принятия решений о том, какие товарные группы следует сворачивать, а какие развивать в регионах.
Рис. 4.37. 3-х мерное хранилище данных с аналитическими измерениями «товар», «регион», «время»
Для построения хранилища данных, прежде всего, необходимо определить иерархию в измерении реквизитов-признаков. Например, для показателя "объем продаж" иерархия может быть следующей:
1-й уровень
1. Время: год- квартал- месяц- неделя- день;
2. Товар: группа товаров (ТГ) - подгруппа - наименование товара;
3. Регион: 1-й уровень (Центральный, Уральский, Поволжье);
2-й уровень (Москва, Тула, Орел);
3-й уровень (Магазин-1, Магазин-2) .
Для принятия решений данные из хранилища необходимо визуализировать, однако даже трехмерный куб сложно представить на экране компьютера, так чтобы были видны значения показателей. Если же хранилище данных имеет больше трех измерений, многомерная визуализация возможна, если в двухмерных таблицах использовать отображения нескольких аналитических измерений, представленных в виде иерархически расположенных названий граф и строк.
Двухмерное представление данных можно получить, «разрезав» хранилище по нескольким осям (аналитическим измерениям). Для этого фиксируя необходимые значения аналитических измерений получают двухмерную таблицу. Как правило, по горизонтальной оси одно измерение, по вертикальной - другое.
Следует подчеркнуть, что меры измерения фактически также играют роль измерений. Если необходимо показать одну меру, то можно разместить в заголовках строк и столбцов два измерения. Если же необходимо показать несколько мер, тогда одну из осей таблицы займут названия мер, а другую значения единственного «неразрезанного» измерения.
Рассмотрим основное правило с помощью которого можно визуализировать данные манипулируя аналитическими измерениями, используемыми для выдачи затребованной информации для принятия решений. Воспользуемся примером хранилища данных, предназначенного для подготовки аналитической информации по продажам. Объем продаж будет характеризоваться тремя измерениями: регион, время, товарная группа (ТГ).
Правило следующее: двухмерное представление данных можно получить из хранилища данных, зафиксировав значения аналитических измерений кроме одного или двух: как правило, по горизонтальной оси – одно, а по вертикальной - другое. В ячейках таблицы находятся количественные значения мер.
Пример 1. Определить как изменялся объем продаж по всем товарным группам в течении 2007 года в г. Туле.
Визуализация осуществляется следующим образом:
1. На оси «регион» зафиксировать значение « Тула».
2. На оси «время» зафиксировать значение « 2007».
3. Ось «товарная группа» не разрезается.
4. Для показа результатов выбрать меру измерения «объем продаж».
На основе указанных значений будет вырезана часть хранилища, данные из которой могут быть представлены в виде таблицы и диаграммы (см. рис. 4.38 ).
Аналитический отчет по г. Туле за 2007 г.
Товарная группа | ТГ1 | ТГ2 | ТГ3 | ТГ4 | ТГ5 | Общий объем продаж (руб.) |
Объем продаж |
Рис. 4.38. Результаты манипулирования хранилищем данных
Если требуется получить показатель «Общий объем продаж», то для этого нужно организовать уже другой куб, построенный на тех же измерениях. Для вычислений пользователь задает формулу вида: Общий объем продаж = ТГ1+ ТГ2 + ТГ3 + ТГ4 + ТГ5. Пересчет по данной формуле осуществляется автоматически всякий раз, когда пользователю понадобится данный показатель.
Пример 2. Определить как изменялся объем продаж по всем товарным группам в течении 2007-2008 годов в г. Туле.
Визуализация:
1. На оси «регион» зафиксировать значение « Тула».
2. На оси «время» зафиксировать значения « 2007» и «2008».
3. Ось «товарная группа» не разрезается.
4. Для показа результатов выбрать меру измерения «объем продаж».
На основе указанных значений будет вырезана часть хранилища, данные из которой могут быть представлены в виде таблицы и диаграммы (см. рис. 4.38 ).
Аналитический отчет и диаграмма по г. Туле за 2007- 2008 года
ТГ1 | |||||
ТГ2 | |||||
ТГ3 | |||||
ТГ4 | |||||
ТГ5 | |||||
Всего | |||||
Рис. 4.38. Графическое и табличное представление результатов среза (пример 2)
Пример 3 (для двух мер измерения). Определить каким образом изменился объем продажу и затраты на продажи по всем товарным группам и регионам в 2009 году.
Визуализация:
1. Ось «регион» не разрезается.
2. Ось «товарная группа» не разрезается.
3. На оси «период» зафиксировать значения «2009».
4. Для показа результатов выбрать две меры измерения «затраты на продажу» и «объем продаж».
На основе указанных значений будет вырезана часть хранилища, данные из которой могут быть представлены в виде таблицы и диаграммы (см. рис. 4.39 ).
Аналитический отчет по г.г. Туле и Москве
Тула | Москва | |
Объем продаж | ||
Затраты на продажу |
4. Интеллектуальный анализ данных (Data Mining) в бизнесе. Возможности и
применение программного комплекса MatLab.
Рис. 4.39. Графическое и табличное представление результатов среза (пример 3)
С операциями вращения, консолидации и детализации можно ознакомится в работе [16].
Хранилище данных относится к одному из перспективных направлений развития систем формирования решений. Как правило, современные ERP-системы оснащены средствами их создания. Например, система MS Dynamics Nav полностью поддерживает идею хранилищ данных, что позволяет получить аналитическую информацию для принятия решений.