Структура бази даних
Н.М. СИДОРЧУК
ОРГАНІЗАЦІЯ ДАНИХ ТА ФУНКЦІОНАЛЬНА СТРУКТУРА ЛЕКСИКОГРАФІЧНОЇ
СИСТЕМИ «УКРАЇНСЬКИЙ НАЦІОНАЛЬНИЙ ЛІНГВІСТИЧНИЙ КОРПУС»
Abstract: The paper deals with the problems which have emerged in the course of development of the
lexicographical system “Ukrainian National Linguistic Corpus” (UNLC). Peculiarities of the metadata storage
organization in the subsystem “Digital library” are discussed. An overview of concrete data structures defined for
building an access unit to storage objects is presented. The choice of multilevel architecture of the software is
substantiated. Functional decomposition of the application level and distinctive features of the data presentation level
organization are described.
Key words: lexicographical system, linguistic technologies, functional structure, data organization.
Аннотация: В работе очерчен круг проблемных задач, возникших во время разработки
лексикографической системы «Украинский национальный лингвистический корпус» (УНЛК) и рассмотрены
методы их решения. Рассмотрены особенности организации сохранения метаданных подсистемы
«Электронная библиотека», и представлен обзор конкретных структур данных, определённых для
построения модуля доступа к объектам хранения УНЛК. Обоснован выбор многоуровневой архитектуры
программной системы. Представлена функциональная декомпозиция уровня логики приложения и
особенности организации уровня представления данных.
Ключевые слова: лексикографическая система, лингвистические технологии, функциональная
структура, организация данных.
Анотація: У роботі окреслено коло проблемних задач, які постали під час розробки лексикографічної
системи «Український національний лінгвістичний корпус» (УНЛК) та розглянуто методи їх вирішення.
Звернено увагу на особливості організації збереження метаданих підсистеми «Електронна бібліотека» та
представлено огляд конкретних структур даних, визначених для побудови модуля доступу до об’єктів
збереження УНЛК. Обґрунтовано вибір багаторівневої архітектури програмної системи. Представлено
функціональну декомпозицію рівня логіки застосувань та особливості організації рівня представлення
даних.
Ключові слова: лексикографічна система, лінгвістичні технології, функціональна структура, організація
даних.
Вступ
В Українському мовно-інформаційному фонді НАН України ведуться роботи з розробки
фундаментальної лексикографічної системи «Український національний лінгвістичний корпус»
(УНЛК) [1]. При проектуванні та розробці цієї лексикографічної системи стало очевидно, що, за
своєю природою, вона повинна стати інформаційною системою четвертого покоління [2] – мовно-
інформаційною системою, яка є інтелектуально орієнтованою і базується на використанні
механізмів природної мови.
Застосування новітніх лінгвістичних технологій, ефективне опрацювання великих
текстових масивів, паралельне обслуговування великої кількості клієнтів, розподілення функцій
системи за різними групами користувачів, забезпечення масштабованості системи, досягнення
високого рівня відмовостійкості застосувань, забезпечення надійності збереження та обміну
даними, проведення ресурсоємних обчислень та обробки даних, ефективне функціонування
розподілених застосувань у глобальній мережі в онлайновому режимі – це далеко не повний
перелік тих завдань, що постав при розробці зазначеної системи.
2. Декомпозиція програмного комплексу
В інформаційних проектах такого масштабу вибір генеральної лінії є одним із основних питань, що
визначає успіх впровадження та ефективність використання системи. Найпершим аспектом, який
слід проаналізувати на предмет адекватності забезпечення якісних властивостей інформаційної
Page 2 |
ISSN 1028-9763. Математичні машини і системи, 2006, № 2
системи, виступає її архітектура. При аналізі поставлених вимог до системи вибір розподіленої архі-
тектури стає очевидним. Така технологія забезпечує централізоване збереження та обробку даних,
надає можливість розподіленого введення даних, вирішує проблему обмеження доступу до
ресурсів, забезпечує можливість використання потужних обчислювальних можливостей сервера.
Програмний комплекс УНЛК реалізовано за трирівневою схемою, у складі якої виділяють рівень
даних, логіки застосування та рівень представлення даних [3]. При такій архітектурі програмної
системи проміжний рівень (логіки застосувань) перевіряє правильність даних, що передаються від
клієнта, та обробляє їх у відповідності з певними правилами. Ця обробка може включати взаємодію
з рівнем даних або ж виконувати локальні обчислення чи перетворення, результати яких
передаються на рівень даних для збереження, або ж на рівень представлення (клієнтський). Вико-
ристання такої архітектури дає можливість логічного розподілення функцій системи, що, у свою
чергу, забезпечує можливість розподілення роботи між різними розробниками, можливість
розробляти окремо кожний рівень, переносити на інші сервери в залежності від вимог
масштабованості. Зосередження логіки застосування на проміжному рівні дозволяє модифікувати її,
не змінюючи клієнтські системи та інформаційні масиви. І навпаки, з’являється можливість розробки
різних клієнтських програм, що використовують один і той же рівень логіки застосувань.
3. Організація збереження метаданих
Основою для розробки будь-якого корпусу повинна бути, перш за все, колекція електронних
ресурсів. Метою розробки електронної бібліотеки як компонента УНЛК стало створення
спеціального середовища для збору, збереження, моделювання і використання природомовної
інформації в цифровому вигляді. Принципи організації даного програмного комплексу повинні були,
за задумом розробників, представити можливість створення вхідних потоків лінгвістичної інформації
для різноманітних дослідницьких систем, а також забезпечити їх інтеграцію до складу
інструментальних засобів електронної бібліотеки. Отже, електронна бібліотека є невід’ємною
частиною УНЛК – вона виконує роль багатофункціональної інформаційної системи, яка акумулює
інформацію різних видів. У свою чергу, систему „Електронної бібліотеки” можна представити у
вигляді декомпозиції на такі елементи: підсистеми збереження об’єктів, підсистеми збереження
метаданих та модуля доступу до об’єктів через метадані. За функціональним призначенням
система „Електронна бібліотека” покликана забезпечувати реалізацію двох основних завдань: по-
перше, інтеграцію в єдиному середовищі інформаційних ресурсів різних типів та видів, а по-друге,
забезпечення можливості виокремлення масивів необхідної інформації за заданими критеріями. На
наш погляд, ефективність використання електронної бібліотеки можлива лише за умови
використання чіткої та прозорої схеми представлення метаданих об’єктів збереження. Питання
стандартизації опису даних розглядається як в середині кожної організації, так і на державному і
міжнародному рівні. Ми не виключаємо необхідність та актуальність дотримання відповідності уста-
новленим стандартам. Та, як переконує практика, при створенні колекцій об’єктів різнорідної
природи для різних масивів об’єктів використовується різна підмножина відповідного стандарту -
формат опису даних. Звичайно, можна визначити єдиний формат опису всіх об’єктів, але це одразу
знизить інтероперабельність системи. Наведемо приклад, що ілюструє цю різнорідність.
Page 3 |
ISSN 1028-9763. Математичні машини і системи, 2006, № 2
В електронній бібліотеці УМІФ НАН України зберігаються як електронні тексти художньої
літератури, так і тексти законодавчих актів України. Для опису перших використовуються такі поля,
як жанр, стиль, УДК, автор, видавництво, місце видання, ISBN, рік видання і т.д. Для забезпечення
зручної пошукової системи відносно текстів законодавчих актів необхідно зберігати таку
інформацію, як реєстраційний номер документа, відповідний орган державної влади, дату
прийняття документа, стан законодавчого документа. Отже, навіть відносно подібним за природою
інформаційним ресурсам (в одному і другому випадку – це текст), відповідає різний формат опису
метаданих.
Розглянемо це питання з точки зору системотехніки організації електронної бібліотеки. У
випадку, коли внутрішня структура збереження метаданих тісно пов’язана зі встановленим
форматом опису даних, ми наштовхуємося на проблему масштабованості системи. Будь-яка зміна
формату (навіть незначна) викликає лавиноподібну зміну всього програмного комплексу, що, в свою
чергу, призводить до необхідності розробки окремих програмних систем для різних колекцій або
зумовлює
неперервний
процес
розробки
та
супроводження
програмної
системи.
Вирішенням
таких питань стала відмова від
прив’язки структури
бази
даних
збереження
метаданих
об’єктів
електронної бібліотеки до конкретних
даних.
Оперуючи
поняттями
архітектури системи, відповідність
даних до сутностей переноситься з
рівня логіки роботи з даними на рівень
логіки застосувань (рис. 1). Подібний
підхід дозволив спроектувати базу
даних таким чином, щоб вона
слугувала універсальним сховищем
збереження метаданих різної природи, а її структура не залежала від формату опису об’єктів
збереження.
Перш ніж перейти до розгляду структури бази даних, узгодимо деякі поняття:
Об’єкт збереження – це електронний ресурс, який внесений до електронної бібліотеки як
цілісна одиниця.
Характеристика – це одиниця опису об’єкта збереження, яка забезпечує можливість його
ідентифікації та може використовуватися для пошукових цілей.
Профіль – множина характеристик, якими описуються об’єкти збереження спорідненої
природи.
Структура бази даних
Зупинимось на розгляді взаємозв’язків між таблицями та структурі кожної з них.
Рис. 1. Зміна підходу організації збереження метаданих
Page 4 |
ISSN 1028-9763. Математичні машини і системи, 2006, № 2