Проектирование систем оперативного анализа данных
Современные системы поддержки принятия решений и информационные системы руководителей основаны на применении специализированных информационных хранилищ (ИХ) и технологий оперативного анализа данных (OLAP) .
ИХ представляет собой базу обобщенной информации, формируемую из множества внешних и внутренних источников, на основе которой выполняются статистические группировки и интеллектуальный анализ данных.
По сравнению с базами данных для оперативной обработки транзакций (транзакционных БД) ИХ обеспечивают более гибкое и простое формирование произвольных справочно-аналитических запросов, а также применение специализированных методов статистического и интеллектуального анализа данных.
В основе информационного хранилища лежит понятие многомерного информационного пространства или гиперкуба (рис. 12.7).
Рис. 12.7. Многомерная организация информационного хранилища.
В его ячейках которого хранятся анализируемые числовые показатели (например, объемы оборота, издержек, инвестиций и т.д.). Измерениями (осями) гиперкуба являются признаки анализа (например, время, группа продукции, регион, тип процесса, тип клиента и др.). При хранении признаки анализа отделяются от фактических данных, образуя так называемую инвертированную организацию хранения данных или структуру данных типа «звезда».
К особенностям хранимой информации в ИХ относятся:
· интеграция или обобщение данных в ИХ из транзакционных баз данных по всем бизнес-процессам и структурным подразделениям предприятия в виде единого многомерного информационного пространства. Например, организуется хранение показателей объемов производства, сбыта, сервиса и т.д. в продуктовом, территориальном, отраслевом, временном и других разрезах;
· произвольность агрегации данных на основе отделения от фактических данных независимых и равноправных измерений информационного пространства (признаков анализа информации, разрезов) в виде иерархий агрегации. Например, региональный признак анализа представляется в виде иерархии агрегации: «область - район - город - село», временной признак «год - квартал - месяц - день» и т.д.;
· обязательное хранение временного признака в данных, дающего возможность отслеживать динамику изменения показателей в течение длительного периода времени;
· непротиворечивость данных во всех используемых источниках в течение определенного периода времени (например, дня), которая позволяет обеспечить единую точку зрения всех пользователей на экономическую систему;
· обеспечение множества представлений структуры информационного хранилища для различных категорий пользователей: руководителей, аналитиков, менеджеров направлений деятельности. Отбор набора показателей и признаков анализа определяет предметную ориентированность информационного хранилища или организацию витрин данных.
С технологической точки зрения к архитектуре ИХ предъявляются общие требования [104].
· Единообразно определенная структура многомерных данных с равноправными измерениями информационного пространства.
· Пользователь не должен знать о том, где хранятся данные, как они организованы и как обрабатываются.
· Поддержка многопользовательского режима оперативного анализа в среде «клиент-сервер».
· Легкая адаптация к новым информационным потребностям путем добавления новых показателей и измерений.
· Автоматическое обновление информации из оперативных баз данных.
· Выполнение запросов без ограничений на количество измерений и уровней их агрегации примерно с одинаковым временем реакции на запрос.
· Удобный, «интуитивный» интерфейс пользователя, обеспечивающий простоту манипулирования данными. Архитектура системы оперативного анализа данных представлена на рис. 12.8.
Рассмотрим состав основных подсистем информационного хранилища.
Подсистема хранения данных
Многомерное хранилище данных может быть организовано в виде одной из следующих структур:
· физической структуры, называемой MOLAP (Multidimensional OLAP), в которую с определенной периодичностью загружаются данные из файлов-источников, принадлежащих базам оперативных данных (например, один раз в день). Типичным инструментальным средством, поддерживающим MOLAP, являются Oracle Express (Oracle), Power Play (Cognos Corp), DataDirect (INTERSOLV);
· виртуальной структуры, называемой ROLAP (Relational OLAP), которая динамически используется при запросах, вызывающих физическое манипулирование с файлами-источниками из реляционных баз оперативных данных (формирование ответа на запрос к ИХ «на лету»). ROLAP-система рассматривается просто как надстройка над реляционными базами данных, обеспечивающая удобный интерфейс пользователя. Типичными инструментальными средствами, поддерживающими ROLAP, являются MetaCube (Informix), Business-Objects (BusniessObjects) и др.;
· гибридной структуры, называемой HOLAP (Hybrid OLAP), которая используется при построении многоуровневых информационных хранилищ, применяемых на разных уровнях управления больших корпораций. Типичным инструментальным средством, поддерживающим HOLAP, является SAS System (SAS Institute).
Рис. 12.8. Архитектура информационного хранилища (ИХ)
Сравнительный анализ применения MOLAP и ROLAP хранилищ представлен в табл. 12.4.
Таблица 124. Сравнительный анализ применения MOLAP и ROLAP ИХ
Параметры | MOLAP | ROLAP |
Объем хранилища | 10-50 Гбайт | Неограничен |
Требования к серверу | Специализированный OLAP-сервер с высоким быстродействием | SQL-сервер |
Скорость доступа к хранилищу | Не зависит от транзакций оперативной обработки данных | Зависит от транзакций оперативной обработки данных |
Скорость ответа на запрос | Не зависит от структуры данных | Зависит от числа обрабатываемых таблиц |
Кроссмерные функции над показателями (формульные вычисления) | Встроены | Ограничены |
Обновление данных | С определенной периодичностью | По мере возникновения |
Реорганизация (модификация состава показателей и измерений) | Пересоздание и перезагрузка хранилища | Реструктуризация отдельных таблиц |
Специализация измерений для показателей | Разреженный для всех измерений гиперкуб или специализированные поликубы | Динамическое представление размерности |
Анализ параметров использования MOLAP и ROLAP информационных хранилищ показывает, что внедрение и эксплуатация ROLAP-систем являются более простыми и дешевыми по сравнению с MOLAP-системами, но уступают последним в эффективности оперативного анализа данных.