Реляционный подход к построению баз данных

Лекция №2.

ИНФОРМАЦИОННЫЕ ПРОЦЕССЫ.

ТЕХНОЛОГИИ СБОРА И ХРАНЕНИЯ ИНФОРМАЦИИ

  1. Информационные процессы.
  2. Процесс сбора информации.
  3. Базы данных.
  4. Системы управления базами данных.

Информационные процессы.

Получение и преобразование информации является необходимым условием жизнедеятельности любого организма. Даже простейшие одноклеточные организмы постоянно воспринимают и используют информацию, например, о температуре и химическом составе среды для выбора наиболее благоприятных условий существования. Живые существа способны не только воспринимать информацию из окружающей среды с помощью органов чувств, но и обмениваться ею между собой.

Человек также воспринимает информацию с помощью органов чувств, а для обмена информацией между людьми используются языки. За время развития человеческого общества таких языков возникло очень много. Прежде всего, это родные языки (русский, татарский, английский и др.), на которых говорят многочисленные народы мира. Роль языка для человечества исключительно велика. Без него, без обмена информацией между людьми было бы невозможным возникновение и развитие общества.

Действия, выполняемые с информацией, называются информационными процессами. Выделяют четыре основных информационных процесса:

- сбор (восприятие);

- хранение;

- обработка;

- передача.

Сбор информации.

Сбор информации, как фаза в информационных процессах, имеет место, когда отображение информации от источника выполняет человек.

Сбор информации– это процесс целенаправленного извлечения и анализа информации о предметной области, в роли которой может выступать тот или иной процесс, объект и т.д. Цель сбора - обеспечение готовности информации к дальнейшему продвижению в информационном процессе. Поскольку эта фаза начинает цикл обращения информации, она очень важна, от качества ее исполнения во многом зависит качество информации, которая будет использоваться потребителем при решении целевых задач информационной технологии.

Данная фаза содержит этапы:

1) Первичное восприятие информации. Здесь выполняется анализ источника информации и выявляются те качественные и количественные характеристики, которые используются потребителем информации в решении его задач.

2) Разработка системы классификации и кодирования информации.

Существуют два метода классификации: иерархический и фасетный. Каждый из методов использует выделенное при первичном восприятии информации подмножество первичных качественных и количественных характеристик источника информации и их значения.

При фасетном методе признаки классификации выбираются независимо друг от друга, например, при построении классификатора этим способом не имеет значения, как различается состав экзаменов в зависимости от специальностей. Признаки классификации называют фасетами. Каждый фасет содержит совокупность однородных значений данного классификационного признака.

3) Распознавание и кодирование объектов.

Цель кодирования, которое выполняется при сборе информации, – замена названия объекта на условное обозначение. Выполняется для уменьшения объема регистрируемой информации и упращения ее дальнейшего хранения. Как правило, это кодирование выполняется человеком.

4) Регистрация результатов.

Собранная информация в обязательном порядке регистрируется, или фиксируется, на каком-либо материальном носителе. Это может быть бумага, машинный носитель (например, магнитный диск) и т. д.

Базы данных

Самым совершенным на настоящий момент способом хранения информации являются базы данных. Создавая базу данных, проектировщик стремится упорядочить информацию по различным признакам, чтобы быстро делать выборку данных с произвольным сочетанием признаков. Для этого данные должны быть структурированы.

Таким образом, база данных (БД) – структурированный организованный набор данных, описывающих характеристики каких-либо физических или виртуальных систем.

«Базой данных» часто упрощённо или ошибочно называют системы управления базами данных (СУБД). Нужно различать набор данных (собственно БД) и программное обеспечение, предназначенное для организации и ведения базы данных (СУБД).

Ядром любой базы данных является модель данных. Модель данных – это совокупность структур данных и операций их обработки. С помощью модели данных могут быть представлены объекты предметной области и взаимосвязи между ними.

Таким образом, по модели представления данных БД классифицируются:

- Картотеки – упорядоченное собрание данных, каждая карта является информационной единицей и предоставляет сведения о каком либо объекте базы данных, с целью облегчения поиска этого объекта по определённым признакам.

- Иерархические – состоят из объектов с указателями от родительских объектов к потомкам, соединяя вместе связанную информацию. Иерархические базы данных могут быть представлены как дерево, состоящее из объектов различных уровней. Верхний уровень занимает один объект, второй – объекты второго уровня и т. д.

- Сетевые – подобны иерархическим, за исключением того, что в них имеются указатели в обоих направлениях, которые соединяют родственную информацию. В сетевой структуре каждый элемент может быть связан с любым другим элементом.

- Реляционные – характеризуются простотой структуры данных, ориентированы на организацию данных в виде двумерных таблиц.

- Многомерные – характеризуются тремя основными чертами: многомерное представление данных; сложные вычисления над данными; вычисления, связанные с изменением данных во времени.

- Объектно-ориентированные – базы данных, в которых данные оформлены в виде моделей объектов, включающих прикладные программы, которые управляются внешними событиями.

На уровне физической модели электронная БД представляет собой файл или их набор в формате TXT, CSV, Excel, DBF, XML либо в специализированном формате конкретной СУБД. Также в СУБД в понятие физической модели включают специализированные виртуальные понятия, существующие в её рамках – таблица, табличное пространство, сегмент, куб, кластер и т. д.

Реляционный подход к построению баз данных.

Какие особенности имеет реляционная база данных? Ответ кроется в самом названии – «реляционная». Слово relation имеет несколько значений в английском языке. Основные из которых – «отношение» и «связь». Эти два понятия и являются главными особенностями реляционных баз данных.

Отношение – это двухмерная таблица. Любая таблица состоит из строк и столбцов, а их отношение представляет собой, грубо говоря, информационный массив, хранящийся в этой таблице. В теории реляционных баз данных строки таблиц называют «кортежи», а столбцы – «атрибуты». Но в русском компьютерном языке, как среди программистов, так и среди пользователей баз данных, эти мудреные термины не прижились. Нередко употребляются термины «запись» и «поле». Но чаще всего строки так и называют строками, а столбцы – столбцами.

Поле (столбец) – элементарная единица логической организации данных, которая соответствует неделимой единице информации – реквизиту. Каждый столбец таблицы в реляционной базе данных должен иметь конкретное имя, тип и размер. Соответственно все содержимое поля должно соответствовать выбранному типу и размеру.

Еще одно существенное свойство реляционных баз – использование только простых типов данных. Каждая ячейка таблицы может содержать только число, или строку, или дату, или длинный набор данных (текстовых или бинарных), но не массив и не указатель. Не так давно появились объектно-реляционные базы данных, которые позволяют хранить в ячейках таблиц целые объекты.

Совокупность логически связанных полей является записью (строкой). При этом порядок строк в таблицах реляционных баз данных определяется вовсе не тем, в каком порядке они были записаны в базу или как физически расположены на диске. Большинство реляционных СУБД вообще не поймут, что от них хотят, если, скажем, попытаться найти строку №3, а вот найти строку, в которой одно из полей будет равно искомому значению, – да.

И, наконец, самое главное, что отличает реляционную базу данных от простого набора электронных таблиц. Информация в разных таблицах должна быть взаимосвязана, и база данных предоставляет средства для организации этих взаимосвязей: первичные и внешние ключи.

Единственный способ идентифицировать определенную запись в этой таблице – это указать набор значений одного или нескольких полей, который был бы уникальным для этой записи. Отсюда и происходит понятие первичного ключа – набора полей (атрибутов, столбцов) таблицы, совокупность значений которых определена для любой записи (строки) этой таблицы и различна для любых двух записей.

Внешний ключ – поле таблицы, предназначенное для хранения значения первичного ключа другой таблицы с целью организации связи между этими таблицами.

Важнейший принцип организации информации в реляционной базе данных – так называемая нормализация таблиц. Целью нормализации является устранение недостатков структуры базы данных, приводящих к вредной избыточности в данных, которая в свою очередь потенциально приводит к различным аномалиям и нарушениям целостности данных. И хотя представление данных в нормализованном виде не является обязательным требованием для правильной работы базы, делать его необходимо. Если данные в базе не нормализованы, их ведение превращается в сущее мучение.

Для доступа к информации, хранящейся в реляционной базе данных, используют язык структурированных запросов – SQL (Structured Query Language – язык структурированных запросов) – универсальный компьютерный язык, применяемый для создания, модификации и управления данными в реляционных базах данных. Вопреки существующим заблуждениям, SQL является информационно-логическим языком, а не языком программирования.

Наши рекомендации