Проектирование баз данных.
Проектирование базы данных является одним из этапов жизненного цикла ИС. Ввиду сложности этот этап выполняется, как правило, коллективом разработчиков и состоит из:
· анализа предметной области;
· проектирования и непосредственно кодирования (создание запросов и приложений);
· тестирования и сопровождения.
Проектирование баз данных начинается с анализа предметной области, в которой будет работать ИС. Как правило, этот этап выполняется разработчиками ИС совместно с заказчиком. Обычным языком описываются информационные объекты, их свойства, их взаимосвязи, описываются пожелания будущих пользователей. Результатом такой работы является техническое задание на разработку ИС.
В техническом задании более строго указывается список исходных данных, список запросов к ИС, список выходных данных, оговаривается интерфейс, определяющий переход от представления данных в БД к представлению, принятому среди пользователей, и обратно. В общем случае пользователи представляют данные в виде документов различных видов, от произвольных текстов до справок и таблиц фиксированного формата. Затем собственно и начинается проектирование базы данных.
Проектирование баз данных осуществляется на двух уровнях - физическом и логическом. На физическом уровне решаются вопросы размещения данных на внешних носителях. Во многом эта работа выполняется СУБД автоматически без участия разработчика.
На логическом уровне составляется общий список полей, который может насчитывать от единиц до тысяч. Описывают каждое поле по типу данных. Общий список полей разбивается на основные таблицы. Дальнейшее рассмотрение информационной структуры приводит к разбиению - нормализации — основных таблиц на более мелкие с целью избежания многократно повторяющихся данных в записях, что уменьшает объем памяти, занимаемый базой данных на диске, и обеспечивает непротиворечивость данных в БД.
Процесс нормализации имеет итерационный (пошаговый) характер, осуществляется методом нормальных форм. Суть метода состоит в последовательном переводе таблицы из одной нормальной формы в другую, причем каждая последующая устраняет определенный вид функциональной зависимости между полями таблицы. Всего в теории описаны шесть нормальных форм, на практике чаще всего применяются первые три.
Первая нормальная форма. Отношение называется приведенным к первой нормальной форме, если все его атрибуты неделимы. Например, отношение, содержащее поле ФИО, не приведено к первой нормальной форме, если в запросах БД требуется выделить отдельно фамилию или имя. Разработчики БД изначально строят так исходное отношение, чтобы оно было в первой нормальной форме.
Вторая нормальная форма. Для приведения отношений ко второй нормальной форме введем понятие функциональной зависимости.
Функциональная зависимость полей — это зависимость, при которой в строке определенному значению ключевого поля соответствует только одно значение не ключевого поля, функционально не ключевое поле зависит от составного ключа, но не зависит от любого поля, входящего в составной ключ.
Например, в отношении СТУДЕНТ (фамилия, имя, отчество, факультет, курс, группа) первичным ключом является совокупность полей фамилия + имя + отчество. Поля факультет, курс; группа функционально полно зависят от составного ключа.
Отношение находится во второй нормальной форме, если оно находится в первой нормальной форме, и каждое не ключевое поле функционально полно зависит от составного ключа. Например, в отношении УСПЕВАЕМОСТЬ (номер зачетки, фамилия, дисциплина, оценка) составным ключом является совокупность номер зачетки + дисциплина. Это отношение находится в первой нормальной форме, но оно не находится во второй нормальной форме, так как поле фамилия не имеет полной функциональной зависимости от составного ключа Для перевода этого отношения во вторую нормальную форму необходимо исключить из него поле фамилия, так как оно функционально зависит от номера зачетки. Т.е. исходное отношение необходимо разбить на два связанных отношения УСПЕВАЕМОСТЬ (номер зачетки, дисциплина, оценка) и СПИСОК (номер зачетки, фамилия). Связь здесь осуществляется по полю номер зачетки.
Третья нормальная форма. Третья нормальная форма позволяет устранить транзитивную зависимость. Транзитивная зависимость существует в отношении, если существуют два описательных поля в которых первое зависит от ключа, а второе зависит от первого. Отношение находится в третьей нормальной форме, если оно находится во второй нормальной форме, и каждое неключевое поле не транзитивно зависит от ключа.
Например, в отношении СТУДЕНТ (фамилия, факультет, название вуза, адрес) ноле АДРЕС транзитивно (через поле название вуза) зависит от ключа фамилия. При заполнении экземплярами такого отношения поле адрес будет многократно повторяться. Для устранения транзитивной зависимости в классе используется расщепление отношения на несколько Например, отношение СТУДЕНТ расщепляется на два.
СТУДЕНТ (фамилия, факультет; название вуза),
ВУЗ (название вуза, адрес) связь по полю название вуза.
Процесс нормализации заканчивается созданием схемы данных, в которой указываются все нормализованные таблицы с их полями и взаимосвязями между ними. Указываются типы взаимосвязей.
Дальнейшая работа над проектом связана с конкретной СУБД, поэтому, предварительно учитывая требования заказчика и намеченную архитектуру ИС, выбирают СУБД. Мы рассмотрим эту часть на практике на примере СУБД MS Access (разработка Microsoft).