Понятие и модель данных OLAP

Понятие OLAP

OLAP (Online Analytical Processing) – технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений.

Основное назначение OLAP-систем – поддержка аналитической деятельности, произвольных запросов пользователей – аналитиков. Цель OLAP-анализа – проверка возникающих гипотез.

Категории данных в ХД

Все данные в ХД делятся на три категории (Рисунок 5):

Понятие и модель данных OLAP - student2.ru

Рисунок 5. Архитектура ХД

  1. детальные данные – данные, переносимые непосредственно из OLTP-подсистем. Соответствуют элементарным событиям, фиксируемым в OLTP-системах. Подразделяются на:
    • измерения – наборы данных, необходимые для описания событий (товар, продавец, покупатель, магазин, … );
    • факты – данные, отражающие сущность события (количество проданного товара, сумма продаж, …);
  2. агрегированные (обобщенные) данные – данные, получаемые на основании детальных путем суммирования по определенным измерениям;
  3. метаданные – данные о данных, содержащихся в ХД. Могут описывать:
    • объекты предметной области, информация о которых содержится в ХД;
    • категории пользователей, использующих данные в ХД;
    • места и способы хранения данных;
    • действия, выполняемые над данными;
    • время выполнения различных действий над данными;
    • причины выполнения различных действий над данными.

Информационные потоки в ХД

Данные в ХД образуют следующие информационные потоки (Рисунок 5):

  • входной поток – образуется данными, копируемыми из OLTP-систем в ХД; данные при этом часто очищаются и обогащаются путем добавления новых атрибутов;
  • поток обобщения – образуется агрегированием детальных данных и их сохранением в ХД;
  • архивный поток – образуется перемещением детальных данных, количество обращений к которым снизилось;
  • поток метаданных – образуется потоком информации о данных в репозиторий данных;
  • выходной поток – образуется данными, извлекаемыми пользователями;
  • обратный поток – образуется очищенными данными, записываемыми обратно в OLTP-системы.

Структура OLAP-куба

В процессе анализа данных часто возникает необходимость построения зависимостей между различными параметрами, число которых может быть значительным.

Под измерением будем понимать последовательность значений одного из анализируемых параметров. Например, для параметра «время» это – последовательность дней, месяцев, кварталов, лет.

Возможность анализа зависимостей между различными параметрами предполагает возможность представления данных в виде многомерной модели – гиперкуба (Рисунок 6), или OLAP-куба.

Понятие и модель данных OLAP - student2.ru

Рисунок 6. Гиперкуб

Оси куба представляют собой измерения, по которым откладывают параметры, относящиеся к анализируемой предметной области, например, названия товаров и названия месяцев года.

На пересечении осей измерений располагаются данные, количественно характеризующие анализируемые факты – меры, например, объемы продаж, выраженные в единицах продукции.

В простейшем случае двумерного куба получается таблица, показывающая значения уровней продаж по товарам и месяцам.

Дальнейшее усложнение модели данных возможно по нескольким направлениям:

  1. увеличение числа измерений ‑ данные о продажах не только по месяцам и товарам, но и по регионам. В этом случае куб становится трехмерным;
  2. усложнение содержимого ячейки ‑ например, нас может интересовать не только уровень продаж, но и чистая прибыль или остаток на складе. В этом случае в ячейке будет несколько значений;
  3. введение иерархии в пределах одного измерения ‑ общее понятие «время» связано с иерархией значений: год состоит из кварталов, квартал из месяцев и т.д.

Наши рекомендации