Источники дине- данных
ние
Прикладные и Опера- СППР/
Системы очистка цион- ИСР
данных ная системы
Накоплен. БД Корпора-
Данные тивное
ХД Средства
Internet ИАД
Intranet
Исходные данные Преобразование Хранилища
Данных
Рис.1. Информационная структура хранилища данных
Цель концепции Хранилищ данных:
c зафиксировать отличия в характеристиках данных в оперативных и аналитических системах (табл.1);
c определить требования к данным, помещаемым в целевую БД Хранилища данных;
c определить общие принципы и этапы ее построения, основные источники данных;
c предложить рекомендации по решению потенциальных проблем возникающих при выгрузке, очистке, согласовании, транспортировке и загрузке данных в целевую БД.
Таблица 1
Сравнение характеристик данных в информационных системах ориентированных на операционную и аналитическую обработку данных
Характеристика | Операционные | Аналитические |
Частота обновления Источники данных Объемы хранимых данных Возраст данных Назначение | Высокая частота, маленькими порциями В основном – внутренние Сотни мегабайт, гигабайты Текущие (за период от нескольких месяцев до одного года) Фиксация, оперативный поиск и преобразование данных | Малая частота, большими порциями В основном – внешние Гигабайты и терабайты Текущие и исторические (за период в несколько лет, десятки лет) Хранение детализированных и агрегированных исторических данных, аналитическая обработка, прогнозирование и моделирование |
Предметом концепции ХД являются сами данные. После того как традиционная система обработки данных реализована и начинает функционировать, она становится таким же самостоятельным объектом, как и любой производственный процесс. В этом смысле данные обладают теми же свойствами и характеристиками, что и любой промышленный продукт: сроком годности, местом складирования (хранения), совместимостью с данными с других производств, рыночной стоимостью, транспортабельностью, компактностью, ремонтопригодностью и т.д. Предметом рассмотрения являются не способы описания и отображения объектов предметной области, а собственно данные, как самостоятельный объект предметной области, порожденной в результате функционирования ранее созданных систем оперативной обработки данных. Для понимания данной концепции необходимо выделить следующие моменты:
Ø концепция Хранилищ данных – это концепция подготовки данных для анализа;
Ø концепция Хранилищ данных не предопределяет архитектуру целевой СППР. Она указывает на то, какие процессы должны выполняться в системе, но не на то, где конкретно и как эти процессы должны выполняться.
Концепция ХД предполагает реализацию единого интегрированного источника данных.
Аналитические системы предъявляют более высокие требования к аппаратному и программному обеспечению, чем традиционные СОД. Реализация аналитической системы невозможна без разрешения таких вопросов, как:
c Неоднородность программной среды;
c Распределенность;
c Защита данных от НСД;
c Построение и ведение многоуровневых справочников метаданных;
c Эффективное хранение и обработка очень больших объемов данных.
Таблица