Понятия базы данных, модели данных, системы управления базами данных. Виды моделей данных и способы их представления
База данных – это ориентированное на пользователя-непрограммиста множество взаимосвязанных данных, структурированных таким образом, что достигается их минимальная избыточность и максимальная независимость от прикладных программ.
Данные в базе находятся в памяти в соответствии с некоторой моделью:
1. Иерархическая модель.
Данные организованы в виде древовидной структуры реализуются связи родовидовых отношений или отношений «целое-часть». Графическим способом представления является дерево, где различают корневой узел (находится на верхнем уровне), который не имеет узлов, стоящих выше него и остальные узлы – порожденные, которые связаны между собой следующим образом: каждый узел имеет только один исходный, находящийся на более высоком уровне. Узлы, не имеющие порожденных, называются листьями. К каждому листу существует только один (иерархический) путь от корневого узла (рис.1).
2. Сетевая модель.
В основу организации положены сетевые структуры, где порожденный элемент имеет более одного исходного. Любой элемент в сетевой структуре может быть связан с любым другим элементом (рис.2). Реализуются два типа связей: «один ко многим» и «многие к одному». Эти виды связей существуют и в иерархической модели, при условии, что связь «Один ко многим» существует между исходными и порожденными, а связь «Многие к одному» - между порожденными и исходными узлами. В случае выполнения этого условия мы получим простую сетевую структуру. Если присутствует хотя бы одна связь «Многие ко многим» - сложная сетевая структура. Основной сетевой модели недостаток – ее сложность, что требует от программиста детального знания логической структуры БД. Иерархическая модель данных является частным случаем сетевой.
3. Реляционная модель данных.
Общая структура данных представлена в виде таблицы, в которой каждая строка соответствует логической записи, а заголовки столбцов являются названиями полей в записях. Поля образуют структуру БД, а записи составляют информацию, которая в ней содержится. Каждая запись имеет уникальное имя (первичный ключ), которое в общем случае состоит из значений нескольких полей. В этом случае ключ – составной, иначе, если из одного поля – простой. В отличие от иерархической и сетевой модели, в реляционной модели отсутствуют связи между отдельными элементами, а существуют связи между таблицами по какому - либо полю (рис.3). Таким образом, реляционная БД представляет собой множество двумерных таблиц с различной информацией. Поле, каждое значение которого однозначно определяет соответствующую запись – простой ключ. Если записи определяются значениями нескольких полей, то такая таблица имеет составной ключ.
СУБД – это комплекс программ, предназначенный для создания и хранения базы данных, обеспечения логической и физической целостности данных, предоставления санкционированного доступа конечных пользователей.
Для того чтобы использовать базу данных для решения экономических задач необходимо выполнить ряд этапов, предназначенных для ее создания. Для этого предварительно всю документацию, имеющую непосредственное отношение к данной задаче следует сгруппировать следующим образом:
- выделить входные оперативные документы, содержащие переменную информацию и отражающие текущие производственно-хозяйственные факты или финансовые операции;
- выделить условно-постоянные документы, содержащие нормативно-справочные данные;
- разработать результирующие документы, таблицы, отчеты;
- определить документы, предназначенные для корректировки условно-постоянных данных.
БД должны создаваться таким образом, чтобы выполнялось два условия:
- достигался минимум затрат на корректировку данных;
- достигался минимум затрат на перепрограммирование, необходимое в случае изменения структуры базы данных (добавление новых или сокращение старых атрибутов).
Для удовлетворения этих условий базы данных создаются на основе двух принципов:
- неизбыточность;
- независимость.
Далее осуществляется описание таблиц базы данных средствами СУБД и задание связей между таблицами и разработка форм отчетов, которые также описываются средствами СУБД. При необходимости обеспечивается защита данных, указываются права и ограничения по доступу к данным.
Существует несколько режимов взаимодействия пользователей СУБД:
- режим конечного пользователя с применением конструктора баз данных и запросов;
- программный режим, предполагающий знание пользователем языка СУБД и позволяющий создавать прикладные программы.
С появлением и развитием корпоративных и иных сетей появилась возможность организации доступа к одним и тем же данным из различных структурных подразделений предприятия или из других регионов.
При этом разработаны два вида баз данных:
- централизованные;
- распределенные.
Централизованная база данных характерна тем, что она полностью находится на центральном компьютере (сервер), к которому обращаются пользователи (клиенты) с помощью своих компьютеров за информацией. Управление базой данных (ее корректировка и прочие процедуры, поддерживающие ее целостность, безопасность и пр.) осуществляется централизованно. Недостатки централизованной БД состоят в следующем: требуется передача большого потока данных; низкая надежность; низкая производительность. Преимущества: минимальные затраты на корректировку централизованной БД.
Для снижения остроты перечисленных недостатков создают распределенные базы данных, то есть базы, части которой находятся в различных узлах сети. Предприятия сами по себе имеют распределенную структуру, поэтому данные фактически распределены по структурным подразделениям. Фактически распределенная база данных есть виртуальный объект, составные части которого хранятся в разных узлах сети. Для пользователя они находятся в одной логической модели базы данных.
Полностью распределенная БД создается в тех случаях, когда частота решения всех задач и объемы передаваемых данных для их решения примерно одинаковы.
Главный критерий распределения данных в сети состоит в следующем: данные должны находится там, где существует наибольшая частота обращения к ним.
Для решения экономических задач в средах централизованной или распределенной базы данных можно воспользоваться одним из следующих методов доступа к данным:
1. Доступ на основе архитектуры сети вида "файл-сервер";
2. Доступ на основе архитектуры сети вида "клиент-сервер".
6. Хранилища данных и их применение для формирования экономических решений
Хранилище данных – это предметно-ориентированный, неизменяемый и поддерживающий хронологию набор данных.
Корпоративное хранилище данных – это специальным образом организованный массив данных предприятия (организации), обрабатываемый и хранящийся в едином аппаратно-программном комплексе, который обеспечивает быстрый доступ к оперативной и исторической информации, многомерный анализ данных (KPI по различным измерениям), получение прогнозов и статистики в разрезах согласованной нормативно-справочной информации (НСИ).
В отличие от баз данных, которые предназначены для обслуживания повседневной деятельности предприятия, ХД ориентированы на многолетнийоперативный многомерный анализ данных, результаты которого могут быть использованы для принятия решений.
Моделью данных в ХД служат гиперкубы, т.е. многомерные базы данных, в ячейках которых находятся анализируемые данные. По осям многомерного куба указываются измерители объекта с различных точек зрения.
Аналитические измерения – это набор учетных признаков, которые могут быть присвоены каждой хозяйственной операции. Аналитические отчеты это данные объектов учета и управления, сгруппированные по нескольким измерениям. Например, для параметра “время” это последовательность месяцев, для параметра “регион” – список городов. Большинство измерений можно представить иерархической структурой. Например, измерение “исполнитель” может иметь следующие иерархические уровни: предприятие – подразделение – служащий.
На пересечении осей измерений находятся данные, количественно характеризующие события, факты, процессы (объемы продаж, остатки товаров на складах, прибыль, затраты и т.д.).
Оси измерений позволяют создавать многомерную модель данных (гиперкуб), над которым можно выполнять следующие операции:
- срез;
- вращение;
- консолидация или детализация.
Операция среза позволяет выделить из многомерного куба те данные, которые соответствуют зафиксированному (указанному) значению одного или нескольких элементов измерений. Из одного куба можно создать множество срезов. Пример операции среза представлен на рис. 5.24, который иллюстрирует хранилище данных, предназначенное для подготовки аналитической информации по продажам. Объем продаж характеризуется тремя измерениями: регион, время, товарная группа (ТГ). На рис. 5.24б с помощью заштрихованной части показан тот срез, который характеризует объемы продаж в г. Туле в 2003 году по всем товарным группам. Такой срез позволяет подготовить информацию для принятия решений о том, какие товарные группы следует сворачивать, а какие развивать в регионах.
С помощью информационного куба, получив из него необходимый срез, можно извлечь различную информацию, например:
1. Как изменяется объем продаж по каждой товарной группе в течение 2007 года в Туле.
2. Как изменялся объем продаж в г. Туле по товарной группе ТГ1 за последние три года?
Операция вращения – это изменение расположения измерений в пространстве, что, возможно, облегчит принятие решений. Например, измерение «время», ранее представленное горизонтально, можно повернуть и расположить вертикально, а товар показать горизонтально. Возможно, именно эта операция поможет принять правильное решение.
Операции консолидации и детализации предназначены либо для агрегирования данных (обобщения) либо для их детализации. Осуществить эти операции можно благодаря иерархии, установленной среди измерителей.
Хранилище данных относится к одному из перспективных направлений развития систем формирования решений. Как правило, современные ERP-системы оснащены средствами их создания. Например, система MS Navision полностью поддерживает идею хранилищ данных, что позволяет получить аналитическую информацию для принятия решений.