Бази даних (БД) і сховища даних. Особливості корпоративних БД в умовах ЗЕД. Розподілені БД
Інформація, подана у формалізованому вигляді, придатному для пересилання, інтерпретування чи оброблення за участю людини або автоматичними засобами, називається даними.
БД складається з двох компонентів: структури та змісту.
Структура бази даних - описання виду даних, що зберігаються, і взаємозв'язків між ними.
На різних рівнях абстракції опису БД її структура зображується по-різному:
- на інфологічному рівні (відношення сутність-зв’язок);
- на датологічному рівні (одна з моделей даних - набір понять, правил і обмежень, за допомогою яких дані структуруються: ієрархічна, мережева, реляційна, об’єктно-орієтована, об’єктно-реляційна, багатовимірна, змішана);
- на фізичному рівні (структура файлів даних і допоміжних файлів). Самі файли даних також складаються з двох компонентів: структури та даних. Структура файлу в реляційній моделі - це ім'я, тип поля, його довжина, точність (для числових полів).
Структура ідеальної БД має бути чіткою, ясною і прозорою. БД має бути вільною від баластної інформації: дублювання даних, синонімів, омонімів, груп даних, що повторюються, обчислювальних елементів.
БД повинна містити мінімальну кількість елементів даних, які несуть максимум інформації про стан проблемної ситуації (ПС). Елементи БД мають бути організовані оптимальним способом, тобто таким чином, щоб забезпечити сталість БД у розумінні семантичної цілісності опису стану ПС при маніпулюванні даними або несуперечливості даних, прийнятної швидкості пошуку елементів даних, надійності зберігання, узгодженості, безпеки, відкритості структури для поповнення та модифікації.
Розробленням структури БД на всіх етапах займається системний аналітик, який забезпечує БД усіма необхідними властивостями.
Зміст бази даних - дані, які фактично зберігаються.
Дані сучасних БД поділяються на:
- алфавітно-цифрові (використовуються практично в усіх IC);
- графічні образи (застосовуються в системах автоматизованого проектування (САПР));
- гіпертекстові, гіпермедійні, мультимедійні (використовуються в ІC на основі технологій Internet/Intranet/Extranet);
- просторові або картографічні (застосовуються в геоінформаційних системах);
- ряди даних (як правило, хронологічні ряди, що використовуються у багатовимірних БД, які становлять основу сховищ даних).
Сучасний рівень розвитку апаратних і програмних засобів зробив можливим повсюдне ведення баз даних оперативної інформації на різних рівнях управління. Для цього використовуються так звані системи оперативної обробки транзакцій (OLTP-системи, Online Transaction Processing). В процесі своєї діяльності промислові підприємства, корпорації, відомчі структури, органи державної влади і управління накопили великі об'єми даних. Вони зберігають в собі великі потенційні можливості по витяганню корисної аналітичної інформації, на основі якої можна виявляти приховані тенденції, будувати стратегію розвитку, знаходити нові рішення.
Останніми роками у світі оформився ряд нових концепцій зберігання, оброблення і аналізу корпоративних даних :
1) сховища даних (СД) або склади даних (Data Warehouse);
2) оперативне аналітичне оброблення (OLAP);
3) інтелектуальний аналіз даних (Data Mining).
Сховище даних (Data Warehouse) – предметно орієнтований, інтегрований, незмінний набір даних, що підтримує хронологію і здатний бути комплексним джерелом достовірної інформації для оперативного аналізу та прийняття рішень.
Сховище даних є способом зберігання великих багатовимірних масивів даних, який дозволяє легко витягати і використовувати інформацію в процедурах аналізу. Технологія сховищ даних має на увазі виділення необхідних даних з декількох OLTP-систем, створення на основі цієї інформації сховища даних, яке може бути використане при побудові систем оперативного аналізу і підтримки прийняття рішень. Основні переваги цього підходу виражаються в наступному:
1. Сховища даних створюються для задоволення потреб споживачів інформації (а не постачальників). Інформація, що міститься в сховищі, може бути представлена кінцевому користувачеві в зручній для нього формі.
2. Дані, записані в сховищі, є "очищеними" в порівнянні з даними що зберігаються в OLTP-системах. Це означає, що в сховище занурюються не усі дані, а лише ті, які представляють інтерес з точки зору аналізу. Наприклад, в сховище може бути занесена відмітка про який-небудь факт, але не про час цього факту з точністю до секунди. Крім того, в сховищі заноситься похідна інформація, яка може спростити і прискорити подальший аналіз, - наприклад, середні значення, суми, апроксимації і так далі. Усе це веде до спрощення процесу аналізу на наступних етапах і, отже, до зменшення тимчасових витрат.
3. В процесі занурення дані "зв'язуються" між собою - унифікуються форми представлення, формалізуються логічні зв'язки, здійснюється прив'язка до одного моменту часу і так далі. В результаті сховище містить не просто набір даних, а дані, взаємозв'язані між собою.
Незважаючи на відмінності в підходах і реалізаціях, усім сховищам даних властиві наступні риси:
1. Предметна орієнтованість. Інформація в сховищі організована відповідно до основних аспектів діяльності підприємства; це відрізняє сховище даних від оперативної БД, де дані організовані відповідно до процесів.
2. Інтегрованість. Початкові дані витягаються з оперативних БД, перевіряються, очищаються, наводяться до єдиного виду, в потрібному ступені агрегуються і завантажуються в сховище.
3. Прив'язка до часу. Дані в сховищі завжди безпосередньо пов'язані з певним періодом часу.
4. Незмінність. Потрапивши в певний "історичний шар" сховища, дані вже ніколи не будуть змінені. Це відрізняє сховище від оперативної БД, в якій дані увесь час міняються, і один і той же запит, виконаний двічі з інтервалом в 10 хвилин, може дати різні результати. Стабільність даних також полегшує їх аналіз.
В результаті розвитку теорії сховищ даних з'явилася нова технологія їх побудови, яка заснована на понятті вітрин даних.
По суті, вітрина даних - це невелике сховище даних, яке обслуговує один з напрямів діяльності підприємства або один його структурний підрозділ. На відміну від корпоративного СД, вітрина доступна тільки невеликому кругу користувачів, діяльність яких вже відносно добре вивчена (наприклад, відділу ЗЕД або службі кадрів). Вартість розробки такої вітрини в десятки і сотні разів нижча вартості корпоративного СД, а результат її впровадження може окупитися дуже швидко. Зараз практично будь-який проект із створення великого сховища даних розпочинається з розробки вітрин. Паралельно з цим може йти опрацювання структури корпоративного сховища.
Вітрини даних забезпечують досить високу гнучкість, оскільки є можливість її індивідуалізувати відповідно до виробничих потреб і можливостей підрозділу, напряму діяльності або додатка.
Головною відмінністю централізованого сховища даних від вітрини даних є зовсім не розмір, а швидше рівень охоплення предмета.
Існує два типи вітрин даних:
- незалежна вітрина даних є повністю окремою системою, яка не має зв'язку з іншими вітринами даних. Система цього типу не вплутується у вирішення багатьох практичних питань "організаційної інтеграції" підрозділів підприємства або відкладає їх. З технічної точки зору вужча область застосовності вітрини даних може обмежувати складність початково необхідних моделей даних. Вітрини такого типу зазвичай використовуються як окремі системи і витягають дані безпосередньо з виробничих систем.
- залежна вітрина даних - це така вітрина, яка, як і незалежна, фокусується на одній предметній області, але отримує дані з центрального сховища даних, яке розподіляє і перетворює дані для усіх вітрин даних. Це означає, що в залежних вітринах даних використовується трирівнева архітектура.