Обобщенная структурная схема информационной СППР
В основе работы с СППР лежат запросы, с которыми к ней обращается пользователь. При этом запросы, допустимые в традиционных OLTP- системах, очень примитивны. Например, для банка это может быть запрос типа «Сколько денег на счету клиента?» или «Сколько денег клиент потратил за последний месяц?». Очевидно, что ценность информации, полученной с помощью подобного запроса, невелика. В то же время аналитическая система может ответить на гораздо более сложные запросы, например: «Определить среднее время между выставлением и оплатой счета для каждой категории клиентов».
Можно выделить ряд принципиальных отличий СППР и OLTP-систем.
Как видно из табл. 1, требования к СППР и OLTP-системам существенно отличаются. Поэтому в СППР используются специализированные базы данных, которые называются хранилищами данных (ХД). Хранилища данных ориентированы на аналитическую обработку и удовлетворяют требованиям, предъявляемым к системам поддержки принятия решений.
Таблица 1. Сравнение СППР и OLTP-систем
Свойство | OLTP-система | СППР |
Цели использования данных | Быстрый поиск, простейшие алгоритмы обработки Обработка текущих хозяйственных операций, хранение оперативных данных | Аналитическая обработка с целью поиска скрытых закономерностей, построения прогнозов и моделей и т.д. Многомерный анализ, моделирование |
Уровень обобщения (детализации) данных | Детализированные | Как детализированные, так и обобщенные (агрегированные) |
Требования к качеству данных | Возможны некорректные данные (ошибки регистрации, ввода и т.д.) | Ошибки в данных не допускаются, поскольку могут привести к некорректной работе аналитических алгоритмов |
Формат хранения данных | Данные могут храниться в различных форматах в зависимости от приложения, в котором они были созданы | Данные хранятся и обрабатываются в едином формате |
Время хранения данных | Как правило, не более года (в пределах отчетного периода) | Годы, десятилетия |
Изменение данных | Данные могут добавляться, изменяться и удаляться | Допускается только пополнение; ранее добавленные данные изменяться не должны, что позволяет обеспечить их хронологию |
Периодичность обновления | Часто, но в небольших объемах | Редко, но в больших объемах |
Доступ к данным | Должен быть обеспечен доступ ко всем текущим (оперативным) данным | Должен быть обеспечен доступ к историческим (то есть накопленным за достаточно длительный период времени) данным с соблюдением их хронологии |
Характер выполняемых запросов | Стандартные, настроенные заранее | Нерегламентированные, формируемые аналитиком «на лету» в зависимости от требуемого анализа |
Время выполнения запроса | Несколько секунд | До нескольких минут |
Типы запросов | Предсказуемые (регламентированные) | Произвольные |
Типы вопросов | Сколько? Как? Когда? | Почему? Что будет, если? |
Время отклика | Не регламентируется | Секунды |
Типичные операции | Регламентированный отчет, диаграмма | Последовательность интерактивных отчетов, диаграмм, экранных форм; динамическое изменение уровней агрегации и срезов данных |
Хранилища данных
Со временем важность и значимость данных меняется. Значимость большей части создаваемых данных носит краткосрочный характер, и со временем такие данные обесцениваются. Частные лица хранят данные на различных устройствах (HDD, CD/DVD, Flash).
Предприятиям необходимо заниматься сохранением данных и обеспечивать возможность доступа к ним на протяжении длительного периода. При этом данные могут отличаться по степени важности и требовать особого подхода. Например, банки должны обеспечивать сохранность и точность данных клиентских счетов. Некоторые фирмы хранят данные миллионов клиентов. Для этих данных обеспечивается безопасность и целостность в течение длительного периода. Для этого необходимы специальные устройства хранения данных больших объемов с улучшенными характеристиками безопасности и способные хранить данные в течение долгого времени.
Устройства для хранения данных называются хранилищами. Тип используемого хранилища зависит от типа данных и их применения (DVD, HDD, внешние дисковые массивы и ленты, RAID-массивы и т.п.).
Классификация данных в зависимости от способа управления и хранения:
1) Структурированные (20%)
2) Неструктурированные (80%).
Структурированные данные организуют в ряды и колонки строго определенного формата, чтобы приложения могли извлекать данные и эффективно обрабатывать их. Обычно хранятся с применением СУБД.
К неструктурированным данным можно отнести данные клиента (на наклейках, электронных сообщениях, визитках, текстовых файлах). Поскольку данные неструктурированны, то их трудно извлекать посредством приложения, управляющего клиентскими базами.
Неструктурированные данные на предприятии: электронная почта, pdf-файлы, мгновенные сообщения в ICQ, документы, веб-страницы, счета, аудио/видео, чеки, руководства, формы, контракты, картинки и т.п. Они занимают много места и требуют больших усилий для управления ими.
На основе анализа данных предприятие извлекает информацию. Эффективный анализ данных не только приносит прибыль, но и создает новые возможности. Поэтому существует постоянная необходимость в их доступности и защите.
В зависимости от специфики решаемых задач и уровня их сложности архитектура ХД и модели данных, используемых для их построения, могут различаться.
Согласно схеме данные извлекаются из различных источников и загружаются в ХД, которое содержит как собственно данные, представленные в соответствии с некоторой моделью, так и метаданные.