Методология организации баз данных

ЛИТЕРАТУРА

1. Мартин Дж. Планирование развития автоматизированных систем. М.: Финансы и статистика, 1984.

2. Мартин Дж. Организация баз данных в вычислительных системах. М.: Мир, 1978.

3. Дейт К. Введение в системы баз данных. М.: Наука. 1980.

4. Артре Ш. Структурный подход к организации баз данных. М.: Финансы и статистика, 1985.

5. Ульиан Дж. Основы систем баз данных. М.: Финансы и статистика, 1983.

6. Хаббард Дж. Автоматизированное проектирование баз данных. М.: Мир, 1984.

7. Грей П. Логика, алгебра и базы данных. М.: Машиностроение, 1984.

8. Цикритзис Д., Лоховски Ф. Модели данных. М.: Финансы и статистика, 1985.

9. Тиори Т., Фрай Дж. Проектирование структур баз данных. М.: Мир, 1985.

10.Озкархан Э. Машины баз данных и управление базами данных М.: Мир, 1989.

11.Четвериков В.Н. Базы и банки данных. М.: Высшая школа, 1987.

12.Советов Б.Я., Цехановский В.В. Автоматизированное управление современным производством. Л.: Машиностроение, 1988.

13.Цехановский В.В., Яковлев С.А. Автоматизированные банки данных. Л.: ЛЭТИ, 1984.

14.Дейт К. Руководство по реляционной СУБД DB2. М.: Финансы и статистика, 1988.

15.Уэйт М., Прата С., Марин П. Язык Си: руководство для начинающих. М.: Мир, 1988.

16.Олле Т.В. Предложения КОДАСИЛ по управлению базами данных. М.:Финансы и статистика, 1991.

17.Калиниченко Л.А., Рывкин В.М. Машины баз данных и знаний. М.: Наука, 1990.

ТЕРМИНОЛОГИЯ

Администратор базы данных - лицо, отвечающее за выработку требований к БД, ее проектирование, реализацию, эффективное использование и сопровождение.

Атрибут - элемент данных, содержащий информацию об объекте.

База данных - совокупность взаимосвязанных данных, используемых одним или несколькими пользователями и хранящихся с регулируемой избыточностью.

Банк данных - система, представляющая определенные услуги по хранению и поиску данных определенной группе пользователей по определенной тематике.

Безопасность - защита данных от преднамеренного или непреднамеренного нарушения секретности, искажения или разрушения.

Внешняя схема - описание данных на концептуальном уровне.

Внутренняя схема - описание данных на физическом уровне.

Время доступа - промежуток времени между выдачей команды записи (считывания) и фактическим получением данных.

Время отклика - промежуток времени от момента запроса к БД и фактическим получением данных.

Данные - вид информационного ресурса, отличающийся высокой степенью форматированности в отличии от более свободных структур, характерных для речевой, текстовой и визуальной информации.

Домен - множество элементов (полей) данных одного и того же типа в отношении.

Доступ - операция поиска, чтения данных или записи их.

Запись логическая - поименованная совокупность данных, рассматриваемая пользователем как одно целое.

Запись физическая - совокупность данных записываемых (считываемых) одним блоком.

Идентификатор - атрибут, значения которого однозначно определяют экземпляры объекта предметной области.

Индекс - совокупность указателей, содержащих информацию о местоположении записи.

Ключ - элемент данных, используемый для идентификации или определения местоположения записи.

Машина баз данных - вспомогательный периферийный процессор, выполняющий функции СУБД.

Модель данных - формально определенная структура, используемая для представления данных на логическом и физическом уровнях.

Метаданные - данные о данных, описание информационных ресурсов, их характеристик, местонахождения, способов использования и т.д.

Концептуальный - определение, относящееся к обобщенному представлению данных, независимому от СУБД.

Логический - определение, относящееся к представлению или описанию данных, не зависящему от запоминающей среды или вычислительной системы.

Независимость данных - возможность изменения логической и физической структуры БД без изменения представлений пользователей.

КОДАСИЛ (CODASIL) - набор стандартов для сетевых баз данных.

Объект - термин, обозначающий факт, лицо, событие, предмет, о котором могут быть собраны данные.

Подсхема - описание логического представления данных группы пользователей.

Распределенная база данных - единая БД, представленная в виде отдельных (возможно, избыточных и перекрывающихся) разделов на разных вычислительных средствах.

Словарь данных - набор обобщенных описаний данных БД, обеспечивает логически централизованное хранение метаданных.

Система управления базой данных (СУБД) - совокупность программных средств, обеспечивающих управление БД на всех уровнях.

Системный журнал - журнал регистрации всех изменений БД.

Схема - описание логической структуры данных, специфицированное на языке описания данных и обрабатываемое СУБД.

Сущность - примитивный объект данных, отображающий элемент предметной области (человек, место, вещь и т.д.).

Связь - ассоциация между экземплярами примитивных или агрегатированных объектов (записей) данных.

Система баз данных - совокупность СУБД, прикладного программного обеспечения, базы данных, операционной системы и технических средств, обеспечивающих информационное обслуживание пользователей.

Транзакция - процесс изменения файла или базы данных, вызванный передачей одного входного сообщения.

Указатель - идентификатор, который ведет к заданной записи из какой-то другой записи в базе данных.

Файл - совокупность аналогично построенных хранимых записей фиксированной или переменной длины одного типа.

Хранимая запись - совокупность связанных элементов данных, соответствующая одной или нескольким логическим записям и содержащая все необходимые служебные данные.

Целостность данных - устойчивость хранимых данных к разрушению и уничтожению, связанных с неисправностями технических средств, системными ошибками и ошибочными действиями пользователей.

Элемент данных - наименьшая единица данных, имеющая смысл при описании информации; наименьшая единица поименованных данных.

Экземпляр - отдельный экземпляр объекта, записи, элемента данных.

Язык базы данных - общий термин, относящийся к классу языков, которые используются для определения и обращения к базам данных.

Язык манипулирования данными - командный язык, обеспечивающий доступ к содержимому БД и его обработку.

Язык описания данных - предназначен для описания данных на концептуальном, логическом и физическом уровнях на основе соответствующих схем.

Язык запросов - высокоуровневый язык манипулирования данными, обеспечивающий взаимодействие пользователей с БД.

Рис.1

Словарь данных представляет собой как бы внутреннюю БД, содержащую централизованные сведения о всех типах данных, их имена, структуру, а также информацию об их использовании. Преимущество словаря данных в эффективном накоплении и управлении информационными ресурсами предметной области. Его применение позволяет уменьшить избыточность и противоречивость данных при их вводе, осуществить простое и эффективное управление при их модификации, упростить процедуру проектирования БД за счет централизации управления данными, установить связи с другими пользователями. Таким образом словарь данных содержит обобщенное представление всех трех уровней: концептуального, логического и физического. По наиболее характерным признакам БД можно классифицировать следующим образом:

1. По способу хранения информации:

· интегрированные;

· распределенные.

2. По типу пользователя:

· монопользовательские;

· многопользовательские.

3. По характеру использования данных:

· прикладные;

· предметные.

Конкретная реализация системы баз данных с одной стороны определяется спецификой данных предметной области, отраженной в концептуальной модели, а с другой стороны типом конкретной СУБД (МБД), устанавливающей логическую и физическую организацию.

Для работы с БД используется специальный обобщенный инструментарий в виде СУБД (МБД), предназначенный для управления БД и обеспечения интерфейса пользователя.

Основные стандарты СУБД:

· независимость данных на концептуальном, логическом, физическом уровнях;

· универсальность (по отношению к концептуальному и логическому уровню, типу ЭВМ);

· совместимость, неизбыточность;

· безопасность и целостность данных;

· актуальность и управляемость.

Существует два основных направления реализации СУБД: программное и аппаратное. Программная реализация (в дальнейшем СУБД) представляет собой набор программных модулей, работает под управлением конкретной ОС и выполняет следующие функции:

· описание данных на концептуальном и логическом уровнях;

· загрузку данных;

· хранение данных;

· поиск и ответ на запрос (транзакцию);

· внесение изменений;

· обеспечение безопасности и целостности.

Обеспечивает пользователя следующими языковыми средствами:

· язык описания данных (ЯОД);

· язык манипулирования данными (ЯМД);

· прикладной (встроенный язык данных (ПЯД, ВЯД).

Аппаратная реализация предусматривает использование так называемых машин баз данных (МБД). Их появление вызвано возросшими объемами информации и требованиями к скорости доступа. Слово “машина” в термине МБД означает вспомогательный периферийный процессор. Термин “компьютер БД” - автономный процессор баз данных или процессор, поддерживающий СУБД. Основные направления МБД:

· параллельная обработка;

· распределенная логика;

· ассоциативные ЗУ;

· конвейерные ЗУ;

· фильтры данных и др.

Использование при обработке информации технологии БД требует централизованного управления на каждом этапе их жизненного цикла (рис.2).

Рис.2

Этапы конвертирования и интеграции связаны с использованием существующих файлов данных и переносом их в создаваемую базу данных. При отсутствии необходимости конвертирования и интеграции существующих данных эти этапы исключаются (штриховая линия).

Централизованное управление на всех этапах существования БД реализует администратор БД со своей группой специалистов, осуществляя эффективную взаимосвязь со всеми группами, участвующими в использовании, эксплуатации и обеспечении БД.

Рис.4

Этап расчленения БД связан с разбиением ее на разделы и синтезом различных приложений на основе модели. Основными факторами, определяющими методику расчленения, помимо указанных на рис.4 являются: размер каждого раздела (допустимые размеры); модели и частоты использования приложений; структурная совместимость; факторы производительности БД. Связь между разделом БД и приложениями характеризуется идентификатором типа приложения, идентификатором узла сети, частотой использования приложения и его моделью.

Модели приложений могут быть классифицированы следующим образом:

1. Приложения, использующие единственный файл.

2. Приложения, использующие несколько файлов, в том числе:

· допускающие независимую параллельную обработку;

· допускающие синхронизированную обработку.

Сложность реализации этапа размещения БД определяется многовариантностью. Поэтому на практике рекомендуется в первую очередь рассмотреть возможность использования определенных допущений, упрощающих функции СУРБД, например, допустимость временного рассогласования БД, осуществление процедуры обновления БД из одного узла и др. Такие допущения оказывают большое влияние на выбор СУРБД и рассматриваемую фазу проектирования.

Средства проектирования и оценочные критерии используются на всех стадиях разработки. Любой метод проектирования (аналитический, эвристический, процедурный), реализованный в виде программы, становятся инструментальным средством проектирования практически не подверженным влиянию стиля проектирования.

В настоящее время неопределенность при выборе критериев являются наиболее слабым местом в проектировании БД. Это связано с трудностью описания и идентификации бесконечного числа альтернативных решений. При этом следует иметь в виду, что существует много признаков оптимальности, являющихся неизмеримыми свойствами, которые трудно выразить в количественном представлении или в виде целевой функции. Поэтому оценочные критерии принято делить на количественные и качественные. Наиболее часто используемые критерии оценки БД, сгруппированные в такие категории, представлены ниже.

Количественные критерии: время ответа на запрос, стоимость модификации, стоимость памяти, время на создание, стоимость на реорганизацию.

Качественные критерии: гибкость, адаптивность, доступность для новых пользователей, совместимость с другими системами, возможность конвертирования в другую вычислительную среду, возможность восстановления, возможность распределения и расширения.

Трудность в оценке проектных решений связана также с различной чувствительностью и временем действия критериев. Например, критерий эффективности обычно является краткосрочным и чрезвычайно чувствительным к проводимыми изменениям, а такие понятия, как адаптируемость и конвертируемость, проявляются на длительных временных интервалах и менее чувствительны к воздействию внешней среды.

Информационные требования оказывают наиболее существенное воздействие на этап концептуального проектирования, хотя проходят через весь процесс разработки БД. Принято разделять информационные требования на информацию, формирующую концептуальное структурное представление и информацию, формирующую концептуальное прикладное представление.

Информация типа описывает естественные концептуальные связи всех данных, не связана с конкретным способом обработки и конкретным приложением. - информация отображает объекты реального мира в сущности и атрибуты, а взаимосвязи между объектами - во взаимосвязи между элементами данных.

Рис.14

Семантические сети - модели данных, созданы исполнителями, работавшими над проблемами искусственного интеллекта. Базовые структуры в этих моделях могут быть представлены графом, множество дуг которого образуют сеть, предназначенную для систематизации знаний общего характера.

методология организации баз данных - student2.ru

Рис.15

Инфологические модели данных - интерпретируют данные в двух исчислениях предикатов (приближенная к естественному языку).

РЕЛЯЦИОННАЯ МОДЕЛЬ ДАННЫХ

В основе реляционной модели лежит математическое понятие теоретико-множественного отношения, которое представляет собой подмножество декартова произведения списка доменов.

Домен -множество значений (например, множество целых чисел). Декартовым произведением доменов D₁, D₂, ...,D_k (обозначается как D₁*D₂* ...*D_k) называется множество всех кортежей (V₁, V₂, ...,V_k) длины k, таких, что V₁ принадлежит D₁, V₂ принадлежит D₂ и т.д.

Например, если k=2, D₁={0,1} и D₂={a,b,c}, то D₁*D₂ есть{(0,a), (0,b), (0,c), (1,a), (1,b),(1,c)}. Отношением называется некоторое подмножество декартова произведения одного или более доменов. Например, {(0,a), (0,c), (1,b)} есть отношение, подмножество определенного выше D₁*D₂.

Элементы отношения называются кортежами. О каждом отношении, являющемся подмножеством декартова произведения D₁*D₂*...*D_k , говорят, что оно имеет арность k. Кортеж (V₁,V₂,...,V_k) имеет k компонентов, причем i-м компонентом является Vi. Отношение удобно представлять таблицей, где каждая строка есть кортеж и каждый столбец соответствует одному компоненту. Столбцы называются атрибутами, и им часто присваиваются имена. Список имен атрибутов отношения называется схемой отношения. Если отношение называется ИГРОКИ и его схема имеет атрибуты A₁,A₂,...,A_k, то такую схему будем записывать как ИГРОКИ (A₁,A₂,...,A_k).

Совокупность схем отношений называется схемой (реляционной) БД, а текущие значения соответствующих отношений - (реляционной) БД. Данные из диаграммы объектов-связей представляются двумя видами отношений:

Набор объектов может быть представлен отношением, содержащим все атрибуты данного набора объектов. Если объекты набораидентифицируются с помощью связи с другим объектом, то схема отношения содержит дополнительно атрибуты ключа второго набора.

Связь между наборами объектов E₁,E₂,...,E_k представляетсяотношением, схема которого состоит из атрибутов ключей каждого из этих наборов.

В качестве примера представим БД “Футбол” в виде реляционной модели (рис.17). Выберем схемы отношений, которые будут представлять наборы объектов и связи. Отношения для наборов объектов имеют следующий вид:

ИГРОКИ (ИМЯ, МЕСТО РОЖДЕНИЯ, ДАТА РОЖДЕНИЯ)

КОМАНДЫ (СПОРТКЛУБ, ГОРОД, ГОД)

ПОЗИЦИИ (НАЗВАНИЕ ПОЗИЦИИ, НОМЕР ПОЗИЦИИ)

Однокомпонентное (ударное) отношение СРЕДНЯЯ ОЦЕНКА не рассматривается, так как является просто множеством всех средних оценок.

Отношения для связей между объектами содержат ключевые атрибуты:

ИГРЫ (ИМЯ, НАЗВАНИЕ ПОЗИЦИИ)

СЕЗОН (ИМЯ, СПОРТКЛУБ, ГОД, ЗНАЧЕНИЕ ОЦЕНКИ)

Отношение ИГРОКИ

Имя	Место рождения	Дата рождения
Иванов Владимир Петрович	Остров, Псковская область	18.1.1955
Смирнов Виктор Павлович	Валдай, Новгородская область	12.01.1957
Тимофеев Юрий Иванович	Рудня, Смоленская область	12.06.1960
. . .	. . .	. . .

Отношение КОМАНДЫ

Спортклуб	Город	Год
Звезда	Каменск
Торпедо	Новогорск
Трактор	Холмск
. . .	. . .	. . .

Отношение ПОЗИЦИИ

Название позиции	Номер позиции
Вратарь
Правый защитник
Центральный защитник
. . .	. . .

Отношение ИГРЫ

Имя	Название позиции
Петров Сергей Юрьевич	Центральный нападающий
Смирнов Виктор Павлович	Правый полузащитник
Смирнов Виктор Павлович	Правый защитник
. . .	. . .

Отношение СЕЗОН

Имя	Спортклуб	Год	Значение оценки
Иванов Владимир Петрович	Сокол		3,83
Петров Сергей Юрьевич	Торпедо		4,12
Смирнов Виктор павлович	Трактор		4,27
Тимофеев Юрий Иванович	Звезда		3,67
. . .	. . .	. . .	. . .

Рис.17

Основная задача при проектировании реляционных БД -формирование оптимальных отношений. Рассмотрим недостатки, присущие отношениям на примере БД объединения кооперативов. Возьмем отношение ПОСТАВЩИКИ (НАЗВАНИЕ ПОСТАВЩИКА, АДРЕС ПОСТАВЩИКА, ТОВАР, ЦЕНА). В связи с этой схемой возникают следующие проблемы:

Избыточность. Адрес поставщика повторяется для каждого повторяемого товара.

Потенциальная противоречивость (аномалия обновления). Вследствие избыточности можно обновить адрес поставщика в одном кортеже, оставив его неизменным в другом. При этом может оказаться, что для некоторых поставщиков нет единого адреса.

Аномалия удаления. При необходимости удаления всех товаров, поставляемых данным поставщиком, непреднамеренно можно утратить его адрес.

Аномалия включения. В БД может быть записан адрес поставщика, который в настоящее время не поставляет товар, можно поместить неопределенные значения компонент ТОВАР И ЦЕНА. Но если он начнет поставлять некоторый товар, можно забыть удалить кортеж с неопределенными значениями. ТОВАР и НАЗВАНИЕ ТОВАРА образуют ключ данного отношения, а поиск кортежей с неопределенными значениями может быть затруднен или невозможен.

Перечисленные проблемы исчезают, если заменить данное отношение двумя схемами отношений: ПА (НАЗВАНИЕ ПОСТАВЩИКА, АДРЕС ПОСТАВЩИКА) ПТЦ (НАЗВАНИЕ ПОСТАВЩИКА, ТОВАР, ЦЕНА).

Однако и в этом случае остаются некоторые недостатки. Например, в случае единственного отношения проще выполнить селекцию и проекцию.

Для формализации процесса построения оптимальной реляционной БД используется теория нормализации, основанная на том, что определенный набор отношений обладает лучшими свойствами при включении, модификации и удалении данных, чем все остальные наборы отношений, с помощью которых могут быть представлены те же данные.

Нормализация осуществляется последовательно с использованием пяти нормальных форм.

Ниже мы рассмотрим формы от первой до пятой, включая нормальную форму Бойса-Кодда. Для обозначения нормальных форм используются сокращения 1НФ, 2НФ, 3НФ, НФБК, 4НФ, 5НФ. Первая (1НФ), вторая (2НФ) и третья (3НФ) нормальные формы ограничивают зависимость непервичных атрибутов от ключей. Нормальная форма Бойса-Кодда (НФБК) ограничивает также зависимость первичных атрибутов. Четвертая нормальная форма (4НФ) формулирует ограничения на виды многозначных зависимостей, обсуждаемых ниже. Пятая нормальная форма (5НФ) вводит другие типы зависимостей, называемых зависимостями соединения.

Уровень нормализации отношения зависит от его семантики и не может быть однозначно определен из данных, содержащихся в текущий момент в базе данных. Это означает, что семантика должна быть задана с помощью функциональных зависимостей.

Первая нормальная форма (1НФ). Отношение находится в первой нормальной форме, если значения всех его атрибутов простые (атомарные), т.е. значение атрибута не должно быть множеством или повторяющейся группой. Ненормализованному отношению соответствует многоуровневая таблица (иерархия) в отличие от однородной табличной структуры нормализованного отношения.

Пример:

РЕЙСЫ (НОМЕР, ПУНКТ_ОТПРАВЛЕНИЯ, ПУНКТ_НАЗНАЧЕНИЯ, РАСПИСАНИЕ)

РАСПИСАНИЕ (ДЕНЬ, ВРЕМЯ_ВЫЛЕТА)

Пусть имеются следующие данные о рейсах:

TW 101 Чикаго Финикс пон 9.40

вт 9.40

пят 10.30

TW 800 Финикс Нью-Йорк пон 7.30

чет 7.30

пят 7.30

Для преобразования этого ненормализованного отношения в 1НФ необходимо в составном отношении РЕЙСЫ заменить отношение РАСПИСАНИЕ соответствующими атрибутами:

РЕЙС(НОМЕР,ПУНКТ_ОТПРАВЛЕНИЯ,ПУНКТ_НАЗНАЧЕНИЯ, ДЕНЬ, ВРЕМЯ_ВЫЛЕТА)

TW101 Чикаго Финикс пон 9.40

TW101 Чикаго Финикс вт 9.40

TW101 Чикаго Финикс пят 10.30

TW800 Финикс Нью-Йорк пон 7.30

TW800 Финикс Нью-Йорк чет 7.30

TW800 Финикс Нью-Йорк пят 7.30

Вторая нормальная форма (2НФ). Пусть имеется отношение ПОСТАВКИ, содержащие данные о поставщиках (идентифицируемых номером П#), поставляемых ими товарах и их ценах:

ПОСТАВКИ (П#, ТОВАР, ЦЕНА) Предположим, что поставщик может поставлять различные товары, а один и тот же товар могут поставлять разные поставщики. Таким образом, ключ отношения (выделенный полужирным шрифтом) будет состоять из атрибутов П# и ТОВАР. Известно, что цена любого товара зафиксирована (т.е. все поставщики поставляют товар по одной и той же цене). Семантика отношения включает следующие зависимости:

П#, ТОВАР-> ЦЕНА (по определению ключа)

ТОВАР-> ЦЕНА

Можно отметить неполную функциональную зависимость атрибута ЦЕНА от ключа. Это приводит к следующим аномалиям:

* Аномалия включения. Если у поставщика появляется новый товар, информация о товаре и его цене не может храниться в базе данных до тех пор, пока поставщик не начнет поставлять его.

* Аномалия удаления. Если поставки некоторого товара прекращаются, из базы данных придется удалить сведения о товаре и его цене, даже если он имеется в наличии у поставщиков.

* Аномалия обновления. При изменении цены товара необходим полный просмотр отношения с целью найти все поставки товара, чтобы изменение цены было отражено для всех поставщиков. Таким образом, изменение значения атрибута одного объекта влечет необходимость изменений в нескольких кортежах отношения: в противном случае база данных окажется несогласованной.

Причиной этих аномалий является неполная функциональная зависимость атрибута ЦЕНА от ключа, что обусловлено объединением в отношении ПОСТАВКИ двух семантических фактов в одной структуре. Разложение отношения ПОСТАВКИ на два отношения устраняет неполную функциональную зависимость. Отношение находится во второй нормальной форме, если оно находится в 1НФ и каждый непервичный атрибут функционально полно зависит от ключа (ключей). Следующее разложение приводит к отношению в 2НФ:

ПОСТАВКИ (П#, ТОВАР) ЦЕНА_ТОВАРА (ТОВАР, ЦЕНА)

Цену товара конкретной поставки можно определить путем соединения двух отношений по атрибуту ТОВАР. Изменение цены товара вызовет модификацию лишь одного кортежа второго отношения.

Третья нормальная форма. Рассмотрим транзитивную зависимость следующего типа:

Если А->В, В-/>А (В не является ключом) и В->С, то А->С. Пусть имеется отношение ХРАНЕНИЕ (ФИРМА, СКЛАД, ОБЪЕМ), которое содержит информацию о фирмах, получающих товары со складов, и объемах этих складов. В отношении имеются функциональные зависимости:

ФИРМА->СКЛАД (фирма получает товары только с одного склада)

СКЛАД->ОБЪЕМ

Аномалии. Если на данный момент отсутствует фирма, получающая товар со склада, то в базу данных нельзя ввести информацию об объеме склада (аномалия включения). Если последняя фирма перестает получать товар со склада, данные о складе и его объеме нельзя сохранить в базе данных (аномалия удаления). Если объем склада изменяется, необходимы просмотр всего отношения и изменение кортежей для фирм, связанных со складом (аномалия обновления). Транзитивная зависимость (аналогично неполной функциональной зависимости в предыдущем примере) вызвана наличием в отношении двух семантических различных фактов.

Преобразование отношения в 3НФ устраняет рассмотренные аномалии.

Отношение находится в 3НФ, если оно находится в 2НФ и в нем отсутствуют транзитивные зависимости непервичных атрибутов от ключа (ключей). Следующее разложение приводит к отношениям в 3НФ:

ХРАНЕНИЕ (ФИРМА, СКЛАД) С_ОБЪЕМ (СКЛАД, ОБЪЕМ)

Нормальная форма Бойса- Кодда (НФБК). Пусть имеется отношение

ПРОЕКТ (Д#, ПР#, П#), отражающее использование в проектах деталей, поставляемых поставщиками. В проекте используются несколько деталей, но каждая деталь проекта поставляется только одним поставщиком. Каждый поставщик обслуживает только один проект, но проекты могут обеспечиваться несколькими поставщиками (разных деталей). Детали, проекты, поставщики идентифицируются соответствующими номерами Д#, ПР#, П#. В отношении присутствуют следующие функциональные зависимости:

Д#, ПР#->П# (по определению ключа) П#->ПР#

Рассматриваемое отношение находится в 3НФ, так как в нем отсутствуют неполные функциональные зависимости и транзитивные зависимости непервичных атрибутов от ключей; при этом, однако, наблюдаются следующие аномалии:

Аномалии. Факт поставки поставщиком деталей для проекта не может быть занесен в базу данных до тех пор, пока в проекте действительно не начнут использоваться эти детали (аномалия включения). Если последний из типов деталей, поставляемых поставщиком для проекта, использован, данные о поставщике будут также удалены из базы данных (аномалия удаления). Если меняется поставщик некоторого типа деталей для проекта, необходим просмотр отношения для изменения всех кортежей, содержащих эти детали (аномалия обновления).

Разложение исходного отношения на отношения в НФБК устраняет перечисленные аномалии. Отношение находится в НФБК, если оно находится в 3НФ и в нем отсутствуют зависимости первичных атрибутов от непервичных. Эквивалентное определение требует, чтобы все детерминанты (т.е. домены функциональных зависимостей) были возможными ключами. Для этого необходимо устранить в данном отношении зависимость П#->ПР#.

Следующее разложение приводит к отношениям в НФБК:

ПРОЕКТ_ДЕТАЛЬ (Д#, ПР#) ПОСТАВКИ (П#, ПР#)

Многозначные зависимости. До сих пор речь шла лишь о функциональных зависимостях. В отношениях существуют и другие зависимости. Одним из видов зависимостей являются многозначные зависимости данного атрибута В от другого атрибута А в отношении R, содержащем и другие атрибуты. Говорят, что А многозначно определяет В и R (или что В многозначно зависит от А), обозначая указанную зависимость А->->В, если каждому значению А соответствует множество (возможно, пустое) значений В, никак не связанных с другими атрибутами R. Это можно проиллюстрировать на примере отношения ПРОФЕССОР (ИД#, ДЕТИ, КУРСЫ, ДОЛЖНОСТЬ), содержащего данные о детях профессора, читаемых им курсах и его должности. Между профессором и курсами связь М:N, если предположить, что некоторые курсы могут читать несколько преподавателей. Пусть экстенсионал отношения имеет следующий вид:

ИД# ДЕТИ КУРСЫ ДОЛЖНОСТЬ

525-111 Джон К410 Адъюнкт

525-111 Кэт К412 Адъюнкт

525-111 Джон К412 Адъюнкт

525-111 Кэт К410 Адъюнкт

340-055 Джек К410 Ассистент

Если объявляется многозначная зависимость атрибутов ДЕТИ или КУРСЫ от атрибута ИД#, каждому значению атрибута ИД# должно соответствовать фиксированное множество значений атрибутов ДЕТИ или КУРСЫ соответственно. Другими словами, возможно изменение значения эти атрибутов в любой строке отношения. Замена значения атрибута КУРСЫ в кортеже <525-111 Кэт К412 Адъюнкт> даст кортеж <525-111 Кэт К410 Адъюнкт>. Замена значения атрибута ДЕТИ на Джон даст кортеж <525-111 Джон К412 Адъюнкт>. (Порядок замены следует порядку предшествующего утверждения.) Оба полученных кортежа уже имеются в отношении. Таким образом, другие значения кортежей никак не связаны со значениями многозначных атрибутов. Следовательно, имеет место ИД#->->ДЕТИ и ИД#->->КУРСЫ. Для наличия в отношении многозначной зависимости необходимо иметь минимум три атрибута: ключ и независимые атрибуты, которых не может быть меньше двух (чтобы быть независимыми друг от друга!).

Аксиомы (правила вывода) для многозначных зависимостей. Введение многозначных зависимостей приводит к расширению рассмотренного выше множества правил вывода. Предположим, что X,Y и Z являются атрибутами отношения R, а U обозначает множество всех атрибутов R. Двумя наиболее важными правилами для многозначных зависимостей являются следующие:

Дополнение. Если X->->Y, то X->->U-X-Y. Это правило не имеет аналога для функциональных зависимостей.

Транзитивность. Если X->->Y и Y->->Z, то X->->Z-Y. Это более ограниченный вариант транзитивности по сравнению с правилом для функциональных зависимостей.

Более полный перечень дополнительных аксиом и других форм многозначных зависимостей можно найти в работе [228]. Читатель может проверить правило дополнения на рассмотренном нами примере. Если учесть, что функциональная зависимость является многозначной, можно вывести связь между атрибутами ИД# и ДОЛЖНОСТЬ.

Четвертая нормальная форма (4НФ). Отношение находится в 4НФ, если оно находится в НФБК, но в нем отсутствуют многозначные зависимости, которые не являются функциональными. По другому определению 4НФ требуется, чтобы в отношении для любой нетривиальной многозначной зависимости, т.е. X->->Y (X->->0 или X->->U-X-Y являются тривиальными). X обязательно содержал ключ отношения. Следующие отношения находятся в 4НФ:

R1 (ИД#, ДЕТИ)

R2 (ИД#, КУРСЫ)

R3 (ИД#, ДОЛЖНОСТЬ)

Четвертая нормальная форма показывает, что отношение может находиться в НФБК и тем не менее могут существовать некоторые аномалии, особенно при обновлениях. Например, если у профессора появится еще один ребенок, в отношение необходимо добавить не один кортеж, а столько, сколько профессор читает курсов. (Аналогичная ситуация возникает при появлении нового курса, читаемого профессором.)

Эти многочисленные модификации необходимы для сохранения независимости между всеми возможными значениями атрибутов.

Пятая нормальная форма 5НФ (проекция/соединение). Тот факт, что отношение может быть восстановлено без потерь соединением некоторых его проекций, известен как зависимость по соединению. Говорят, что отношение находится в 5НФ тогда и только тогда, когда любая зависимость по соединению в R определяется возможными ключами R[81].

Другими словами, каждая проекция R содержит не менее одного возможного ключа и по крайней мере один непервичный атрибут. Различие 5НФ и 4НФ можно показать на примере. Пусть имеются отношения: R1(П#, Д#, ОТД) R2(П#, Д#) R3(Д#, ОТД) R3(П#, ОТД)

П1 Д1 А П1 Д1 Д1 А П1 А

П1 Д1 В П2 Д1 Д1 В П1 В

П2 Д1 А П2 Д2 Д2 А П2 А

П2 Д2 В П3 Д1 Д2 В П2 В

П3 Д1 А П3 Д2 П3 А

П3 Д1 В П3 В

П3 Д2 А

П3 Д2 В

В отношении R1 отсутствуют независимые многозначные зависимости, и оно состоит только из первичных атрибутов (является “полностью ключевым”); следовательно, оно находится в 4НФ. Отношения R2, R3 и R4 находятся в 5НФ, так как R1 удовлетворяет зависимости по соединению R2, R3 и R4. Преимущество схемы с R2, R3 и R4 над R1 состоит в том, что она устраняет избыточность, а вместе с ней аномалии обновления.

СЕТЕВАЯ МОДЕЛЬ ДАННЫХ

Сетевые модели данных базируются на использовании графовой формы представления данных. Вершины графа используются для интерпретации типов сущностей, а дуги - для интерпретации типов связей между сущностями. При различных способах реализации сетевых моделей наибольшее распространение получила модель КОДАСИЛ (CODASYL - Conference on Data Systems Language - Ассоциация по языкам систем обработки данных), предложенная Рабочей группой по базам данных (DTBG - Data Base Task Group). Эта модель считается наиболее развитой сетевой моделью данных, постоянно развивается, поддерживается и сопровождается, являясь как бы стандартом. Основные типы структур данных модели КОДАСИЛ представлены на рис.18.

Рис.18

Элемент данных - наименьшая поименованная единица данных (аналог поля в файловых системах). Элемент данных - это минимальная единица данных, к которой может СУБД адресоваться непосредственно и с помощью которой осуществляется построение всех остальных структур. Примеры элементов данных: ТАБЕЛЬНЫЙ-НОМЕР, ШИФР-ДЕТАЛИ, ГОД-РОЖДЕНИЯ. Имя элемента данных используется для его идентификации в схеме структуры данных более высокого уровня. Значение элемента данных может быть числовым (целым, вещественным), нечисловым (символьным, логическим. В некоторых приложениях может использоваться “неопределенное” значение элемента данных и говорит о том, что значение соответствующего свойства объекта не определено в БД.

Агрегат данных - поименованная совокупность элементов данных внутри записи, которую можно рассматривать как единое целое. Имя агрегата используется для его идентификации в схеме структуры данного более высокого уровня. Агрегат данных может быть простым (рис19. ),если состоит только из элементов данных, и составным (рис.20. ), если включает в свой состав другие агрегаты.