Проектирование реляционной базы данных
Проектирование реляционной базы данных
ПРИМЕР ПРОЕКТИРОВАНИЯ РЕЛЯЦИОННОЙ БАЗЫ ДАННЫХ
В качестве примера возьмем базу данных компании, которая занимается издательской деятельностью.
Инфологическое (концептуальное) проектирование
Анализ предметной области
База данных создаётся для информационного обслуживания редакторов, менеджеров и других сотрудников компании. БД должна содержать данные о сотрудниках компании, книгах, авторах, финансовом состоянии компании и предоставлять возможность получать разнообразные отчёты.
В соответствии с предметной областью система строится с учётом следующих особенностей:
- каждая книга издаётся в рамках контракта;
- книга может быть написана несколькими авторами;
- контракт подписывается одним менеджером и всеми авторами книги;
- каждый автор может написать несколько книг (по разным контрактам);
- порядок, в котором авторы указаны на обложке, влияет на размер гонорара;
- если сотрудник является редактором, то он может работать одновременно над несколькими книгами;
- у каждой книги может быть несколько редакторов, один из них – ответственный редактор;
- каждый заказ оформляется на одного заказчика;
- в заказе на покупку может быть перечислено несколько книг.
Выделим базовые сущности этой предметной области:
- Сотрудники компании. Атрибуты сотрудников – ФИО, табельный номер, пол, дата рождения, паспортные данные, ИНН, должность, оклад, домашний адрес и телефоны. Для редакторов необходимо хранить сведения о редактируемых книгах; для менеджеров – сведения о подписанных контрактах.
- Авторы. Атрибуты авторов – ФИО, ИНН (индивидуальный номер налогоплательщика), паспортные данные, домашний адрес, телефоны. Для авторов необходимо хранить сведения о написанных книгах.
- Книги. Атрибуты книги – авторы, название, тираж, дата выхода, цена одного экземпляра, общие затраты на издание, авторский гонорар.
Контракты будем рассматривать как связь между авторами, книгами и менеджерами. Атрибуты контракта – номер, дата подписания и участники.
Для отражения финансового положения компании в системе нужно учитывать заказы на книги. Для заказа необходимо хранить номер заказа, заказчика, адрес заказчика, дату поступления заказа, дату его выполнения, список заказанных книг с указанием количества экземпляров.
ER–диаграмма издательской компании приведена на рис. 3 (базовые сущности на рисунках выделены полужирным шрифтом).
Рис.3. ER–диаграмма издательской компании
Выбор СУБД и других программных средств
Анализ информационных задач показывает, что для реализации требуемых функций подходят почти все СУБД для ПЭВМ (FoxPro, Clipper, MS Access и др.). Все они поддерживают реляционную модель данных и предоставляют разнообразные возможности для работы с данными.
Объём внешней и оперативной памяти, требующийся для функционирования СУБД, обычно указывается в сопроводительной документации.
Для того чтобы в учебном примере не привязываться к конкретной СУБД, выполним описание логической схемы БД на SQL-92.
Определение дополнительных ограничений целостности
Перечислим ограничения целостности, которые не указаны в табл. 8–17.
- Значения всех числовых атрибутов – больше 0 (или null, если атрибут необязателен).
- Область значений атрибута Sex отношения EMPLOYEES – символы 'м' и 'ж'.
- Отношение ROOMS не имеет первичного ключа, но комбинация значений (R_no, Tel) уникальна.
- В отношении TITLES порядковые номера авторов на обложке одной книги должны идти подряд, начиная с 1.
- В отношении TITLES сумма процентов гонорара по одной книге равна 100.
Ограничения (4,5) нельзя реализовать в схеме отношения. В реальных БД подобные ограничения целостности реализуются программно (через внешнее приложение или специальную процедуру контроля данных).
Примеры нормализации
Основная задача при проектировании реляционных БД -формирование оптимальных отношений. Рассмотрим недостатки, присущие отношениям на примере БД объединения кооперативов. Возьмем отношение ПОСТАВЩИКИ (НАЗВАНИЕ ПОСТАВЩИКА, АДРЕС ПОСТАВЩИКА, ТОВАР, ЦЕНА). В связи с этой схемой возникают следующие проблемы:
1. Избыточность. Адрес поставщика повторяется для каждого повторяемого товара.
2. Потенциальная противоречивость (аномалия обновления). Вследствие избыточности можно обновить адрес поставщика в одном кортеже, оставив его неизменным в другом. При этом может оказаться, что для некоторых поставщиков нет единого адреса.
3. Аномалия удаления. При необходимости удаления всех товаров, поставляемых данным поставщиком, непреднамеренно можно утратить его адрес.
4. Аномалия включения. В БД может быть записан адрес поставщика, который в настоящее время не поставляет товар, можно поместить неопределенные значения компонент ТОВАР И ЦЕНА. Но если он начнет поставлять некоторый товар, можно забыть удалить кортеж с неопределенными значениями. ТОВАР и НАЗВАНИЕ ТОВАРА образуют ключ данного отношения, а поиск кортежей с неопределенными значениями может быть затруднен или невозможен.
Перечисленные проблемы исчезают, если заменить данное отношение двумя схемами отношений: ПА (НАЗВАНИЕ ПОСТАВЩИКА, АДРЕС ПОСТАВЩИКА) ПТЦ (НАЗВАНИЕ ПОСТАВЩИКА, ТОВАР, ЦЕНА).
Однако и в этом случае остаются некоторые недостатки. Например, в случае единственного отношения проще выполнить селекцию и проекцию.
Для формализации процесса построения оптимальной реляционной БД используется теория нормализации, основанная на том, что определенный набор отношений обладает лучшими свойствами при включении, модификации и удалении данных, чем все остальные наборы отношений, с помощью которых могут быть представлены те же данные.
Нормализация осуществляется последовательно с использованием пяти нормальных форм.
Ниже мы рассмотрим формы от первой до пятой, включая нормальную форму Бойса-Кодда. Для обозначения нормальных форм используются сокращения 1НФ, 2НФ, 3НФ, НФБК, 4НФ, 5НФ. Первая (1НФ), вторая (2НФ) и третья (3НФ) нормальные формы ограничивают зависимость непервичных атрибутов от ключей. Нормальная форма Бойса-Кодда (НФБК) ограничивает также зависимость первичных атрибутов. Четвертая нормальная форма (4НФ) формулирует ограничения на виды многозначных зависимостей, обсуждаемых ниже. Пятая нормальная форма (5НФ) вводит другие типы зависимостей, называемых зависимостями соединения.
Уровень нормализации отношения зависит от его семантики и не может быть однозначно определен из данных, содержащихся в текущий момент в базе данных. Это означает, что семантика должна быть задана с помощью функциональных зависимостей.
Первая нормальная форма (1НФ). Отношение находится в первой нормальной форме, если значения всех его атрибутов простые (атомарные), т.е. значение атрибута не должно быть множеством или повторяющейся группой. Ненормализованному отношению соответствует многоуровневая таблица (иерархия) в отличие от однородной табличной структуры нормализованного отношения.
Пример
РЕЙСЫ (НОМЕР, ПУНКТ_ОТПРАВЛЕНИЯ,
ПУНКТ_НАЗНАЧЕНИЯ, РАСПИСАНИЕ)
РАСПИСАНИЕ (ДЕНЬ, ВРЕМЯ_ВЫЛЕТА)
Пусть имеются следующие данные о рейсах:
TW 101 Чикаго Финикс пон 9.40
вт 9.40
пят 10.30
TW 800 Финикс Нью-Йорк пон 7.30
чет 7.30
пят 7.30
Для преобразования этого ненормализованного отношения в 1НФ необходимо в составном отношении РЕЙСЫ заменить отношение РАСПИСАНИЕ соответствующими атрибутами:
РЕЙС (НОМЕР, ПУНКТ_ОТПРАВЛЕНИЯ, ПУНКТ_НАЗНАЧЕНИЯ, ДЕНЬ, ВРЕМЯ_ВЫЛЕТА)
TW101 Чикаго Финикс пон 9.40
TW101 Чикаго Финикс вт 9.40
TW101 Чикаго Финикс пят 10.30
TW800 Финикс Нью-Йорк пон 7.30
TW800 Финикс Нью-Йорк чет 7.30
TW800 Финикс Нью-Йорк пят 7.30
Вторая нормальная форма (2НФ). Пусть имеется отношение ПОСТАВКИ, содержащие данные о поставщиках (идентифицируемых номером П#), поставляемых ими товарах и их ценах:
ПОСТАВКИ (П#, ТОВАР, ЦЕНА)
Предположим, что поставщик может поставлять различные товары, а один и тот же товар могут поставлять разные поставщики. Таким образом, ключ отношения (выделенный полужирным шрифтом) будет состоять из атрибутов П# и ТОВАР. Известно, что цена любого товара зафиксирована (т.е. все поставщики поставляют товар по одной и той же цене). Семантика отношения включает следующие зависимости:
П#, ТОВАР-> ЦЕНА (по определению ключа)
ТОВАР-> ЦЕНА
Можно отметить неполную функциональную зависимость атрибута ЦЕНА от ключа. Это приводит к следующим аномалиям:
Аномалия включения. Если у поставщика появляется новый товар, информация о товаре и его цене не может храниться в базе данных до тех пор, пока поставщик не начнет поставлять его.
Аномалия удаления. Если поставки некоторого товара прекращаются, из базы данных придется удалить сведения о товаре и его цене, даже если он имеется в наличии у поставщиков.
Аномалия обновления. При изменении цены товара необходим полный просмотр отношения с целью найти все поставки товара, чтобы изменение цены было отражено для всех поставщиков. Таким образом, изменение значения атрибута одного объекта влечет необходимость изменений в нескольких кортежах отношения: в противном случае база данных окажется несогласованной.
Причиной этих аномалий является неполная функциональная зависимость атрибута ЦЕНА от ключа, что обусловлено объединением в отношении ПОСТАВКИ двух семантических фактов в одной структуре. Разложение отношения ПОСТАВКИ на два отношения устраняет неполную функциональную зависимость. Отношение находится во второй нормальной форме, если оно находится в 1НФ и каждый непервичный атрибут функционально полно зависит от ключа (ключей). Следующее разложение приводит к отношению в 2НФ:
ПОСТАВКИ (П#, ТОВАР)
ЦЕНА_ТОВАРА (ТОВАР, ЦЕНА)
Цену товара конкретной поставки можно определить путем соединения двух отношений по атрибуту ТОВАР. Изменение цены товара вызовет модификацию лишь одного кортежа второго отношения.
Третья нормальная форма. Рассмотрим транзитивную зависимость следующего типа:
Если А->В, В-/>А (В не является ключом) и В->С, то А->С.
Пусть имеется отношение ХРАНЕНИЕ (ФИРМА, СКЛАД, ОБЪЕМ), которое содержит информацию о фирмах, получающих товары со складов, и объемах этих складов. В отношении имеются функциональные зависимости:
ФИРМА->СКЛАД (фирма получает товары только с одного склада)
СКЛАД->ОБЪЕМ
Аномалии. Если на данный момент отсутствует фирма, получающая товар со склада, то в базу данных нельзя ввести информацию об объеме склада (аномалия включения). Если последняя фирма перестает получать товар со склада, данные о складе и его объеме нельзя сохранить в базе данных (аномалия удаления). Если объем склада изменяется, необходимы просмотр всего отношения и изменение кортежей для фирм, связанных со складом (аномалия обновления). Транзитивная зависимость (аналогично неполной функциональной зависимости в предыдущем примере) вызвана наличием в отношении двух семантических различных фактов.
Преобразование отношения в 3НФ устраняет рассмотренные аномалии. Отношение находится в 3НФ, если оно находится в 2НФ и в нем отсутствуют транзитивные зависимости непервичных атрибутов от ключа (ключей). Следующее разложение приводит к отношениям в 3НФ:
ХРАНЕНИЕ (ФИРМА, СКЛАД)
С_ОБЪЕМ (СКЛАД, ОБЪЕМ)
Нормальная форма Бойса- Кодда (НФБК). Пусть имеется отношение ПРОЕКТ (Д#, ПР#, П#), отражающее использование в проектах деталей, поставляемых поставщиками. В проекте используются несколько деталей, но каждая деталь проекта поставляется только одним поставщиком. Каждый поставщик обслуживает только один проект, но проекты могут обеспечиваться несколькими поставщиками (разных деталей). Детали, проекты, поставщики идентифицируются соответствующими номерами Д#, ПР#, П#. В отношении присутствуют следующие функциональные зависимости:
Д#, ПР#->П# (по определению ключа)
П#->ПР#
Рассматриваемое отношение находится в 3НФ, так как в нем отсутствуют неполные функциональные зависимости и транзитивные зависимости непервичных атрибутов от ключей; при этом, однако, наблюдаются следующие аномалии:
Аномалии. Факт поставки поставщиком деталей для проекта не может быть занесен в базу данных до тех пор, пока в проекте действительно не начнут использоваться эти детали (аномалия включения). Если последний из типов деталей, поставляемых поставщиком для проекта, использован, данные о поставщике будут также удалены из базы данных (аномалия удаления). Если меняется поставщик некоторого типа деталей для проекта, необходим просмотр отношения для изменения всех кортежей, содержащих эти детали (аномалия обновления).
Разложение исходного отношения на отношения в НФБК устраняет перечисленные аномалии. Отношение находится в НФБК, если оно находится в 3НФ и в нем отсутствуют зависимости первичных атрибутов от непервичных. Эквивалентное определение требует, чтобы все детерминанты (т.е. домены функциональных зависимостей) были возможными ключами. Для этого необходимо устранить в данном отношении зависимость П#->ПР#. Следующее разложение приводит к отношениям в НФБК:
ПРОЕКТ_ДЕТАЛЬ (Д#, ПР#)
ПОСТАВКИ (П#, ПР#)
Многозначные зависимости. До сих пор речь шла лишь о функциональных зависимостях. В отношениях существуют и другие зависимости. Одним из видов зависимостей являются многозначные зависимости данного атрибута В от другого атрибута А в отношении R, содержащем и другие атрибуты. Говорят, что А многозначно определяет В и R (или что В многозначно зависит от А), обозначая указанную зависимость А->->В, если каждому значению А соответствует множество (возможно, пустое) значений В, никак не связанных с другими атрибутами R. Это можно проиллюстрировать на примере отношения ПРОФЕССОР (ИД#, ДЕТИ, КУРСЫ, ДОЛЖНОСТЬ), содержащего данные о детях профессора, читаемых им курсах и его должности. Между профессором и курсами связь М:N, если предположить, что некоторые курсы могут читать несколько преподавателей. Пусть экстенсионал отношения имеет следующий вид:
ИД# ДЕТИ КУРСЫ ДОЛЖНОСТЬ
525-111 Джон К410 Адъюнкт
525-111 Кэт К412 Адъюнкт
525-111 Джон К412 Адъюнкт
525-111 Кэт К410 Адъюнкт
340-055 Джек К410 Ассистент
Если объявляется многозначная зависимость атрибутов ДЕТИ или КУРСЫ от атрибута ИД#, каждому значению атрибута ИД# должно соответствовать фиксированное множество значений атрибутов ДЕТИ или КУРСЫ соответственно. Другими словами, возможно изменение значения эти атрибутов в любой строке отношения. Замена значения атрибута КУРСЫ в кортеже <525-111 Кэт К412 Адъюнкт> даст кортеж <525-111 Кэт К410 Адъюнкт>. Замена значения атрибута ДЕТИ на Джон даст кортеж <525-111 Джон К412 Адъюнкт>. (Порядок замены следует порядку предшествующего утверждения.) Оба полученных кортежа уже имеются в отношении. Таким образом, другие значения кортежей никак не связаны со значениями многозначных атрибутов. Следовательно, имеет место ИД#->->ДЕТИ и ИД#->->КУРСЫ. Для наличия в отношении многозначной зависимости необходимо иметь минимум три атрибута: ключ и независимые атрибуты, которых не может быть меньше двух (чтобы быть независимыми друг от друга!).
Аксиомы (правила вывода) для многозначных зависимостей. Введение многозначных зависимостей приводит к расширению рассмотренного выше множества правил вывода. Предположим, что X,Y и Z являются атрибутами отношения R, а U обозначает множество всех атрибутов R. Двумя наиболее важными правилами для многозначных зависимостей являются следующие:
1. Дополнение. Если X->->Y, то X->->U-X-Y. Это правило не имеет аналога для функциональных зависимостей.
2. Транзитивность. Если X->->Y и Y->->Z, то X->->Z-Y. Это более ограниченный вариант транзитивности по сравнению с правилом для функциональных зависимостей.
Более полный перечень дополнительных аксиом и других форм многозначных зависимостей можно найти в работе [228]. Читатель может проверить правило дополнения на рассмотренном нами примере. Если учесть, что функциональная зависимость является многозначной, можно вывести связь между атрибутами ИД# и ДОЛЖНОСТЬ.
Четвертая нормальная форма (4НФ). Отношение находится в 4НФ, если оно находится в НФБК, но в нем отсутствуют многозначные зависимости, которые не являются функциональными. По другому определению 4НФ требуется, чтобы в отношении для любой нетривиальной многозначной зависимости, т.е. X->->Y (X->->0 или X->->U-X-Y являются тривиальными). X обязательно содержал ключ отношения. Следующие отношения находятся в 4НФ:
R1 (ИД#, ДЕТИ)
R2 (ИД#, КУРСЫ)
R3 (ИД#, ДОЛЖНОСТЬ)
Четвертая нормальная форма показывает, что отношение может находиться в НФБК и тем не менее могут существовать некоторые аномалии, особенно при обновлениях. Например, если у профессора появится еще один ребенок, в отношение необходимо добавить не один кортеж, а столько, сколько профессор читает курсов. (Аналогичная ситуация возникает при появлении нового курса, читаемого профессором.) Эти многочисленные модификации необходимы для сохранения независимости между всеми возможными значениями атрибутов.
Пятая нормальная форма 5НФ (проекция/соединение). Тот факт, что отношение может быть восстановлено без потерь соединением некоторых его проекций, известен как зависимость по соединению. Говорят, что отношение находится в 5НФ тогда и только тогда, когда любая зависимость по соединению в R определяется возможными ключами R[81]. Другими словами, каждая проекция R содержит не менее одного возможного ключа и по крайней мере один непервичный атрибут. Различие 5НФ и 4НФ можно показать на примере. Пусть имеются отношения: R1(П#, Д#, ОТД) R2(П#, Д#) R3(Д#, ОТД) R3(П#, ОТД)
П1 Д1 А П1 Д1 Д1 А П1 А
П1 Д1 В П2 Д1 Д1 В П1 В
П2 Д1 А П2 Д2 Д2 А П2 А
П2 Д2 В П3 Д1 Д2 В П2 В
П3 Д1 А П3 Д2 П3 А
П3 Д1 В П3 В
П3 Д2 А
П3 Д2 В
В отношении R1 отсутствуют независимые многозначные зависимости, и оно состоит только из первичных атрибутов (является "полностью ключевым"); следовательно, оно находится в 4НФ. Отношения R2, R3 и R4 находятся в 5НФ, так как R1 удовлетворяет зависимости по соединению R2, R3 и R4. Преимущество схемы с R2, R3 и R4 над R1 состоит в том, что она устраняет избыточность, а вместе с ней аномалии обновления.
Несколько основных правил, которым нужно следовать при нормализации:
- исключайте повторяющиеся группы - для каждого набора связанных атрибутов создайте отдельную таблицу и снабдите ее первичным ключом. Выполнение этого правила автоматически приведет ко второй нормальной форме. Помимо теоретических указаний в этом правиле есть и чисто практический смысл. Представьте, что в вашем списке заказов вы указываете имена ваших клиентов. Клиент "Хитрая лиса" достаточно активен и часто делает заказы. Однако найдется тот, кто его имя напишет как "Хитрый лис", а для СУБД это будет уже другой клиент. Поэтому гораздо лучше вести список своих клиентов в отдельной таблице, а в списке заказов использовать только присвоенные им уникальные идентификаторы;
- исключайте избыточные данные - если атрибут зависит только от части составного ключа, переместите атрибут в отдельную таблицу. Это правило помогает избежать потери одних данных при удалении каких-то других. Везде, где возможно использование идентификаторов вместо описания, выносите в отдельную таблицу список идентификаторов с пояснением к ним;
- исключайте столбцы, которые не зависят от ключа, если атрибуты не вносят свою лепту в описание ключа, переместите их в отдельную таблицу.
Несколько рекомендаций по использованию кодов (идентификаторов) вместо естественных атрибутов:
- в предметной области может наблюдаться синомия, то есть естественный атрибут не обладает отношения не обладает свойством уникальности, например, среди сотрудников фирмы могут быть однофамильцы или даже полные тезки. В этом случае проблему помогает решить уникальный табельный номер;
- если отношение участвует во многих связях, то для их отображения создается несколько таблиц, в каждой из которых повторяется идентификатор отношения. Для того чтобы не использовать во всех таблицах длинный естественный атрибут объекта, можно применять более короткий код. Это также будет способствовать повышению быстродействия системы;
- если естественный атрибут может изменяться во времени (например фамилия), а это может вызвать большие сложности при эксплуатации системы. Использование неизменяемого кода (табельного номера) позволит избежать этих сложностей.
Проектирование реляционной базы данных
ПРИМЕР ПРОЕКТИРОВАНИЯ РЕЛЯЦИОННОЙ БАЗЫ ДАННЫХ
В качестве примера возьмем базу данных компании, которая занимается издательской деятельностью.