Фактографические базы данных

Особенности фактографических БД. Фактографи­ческие системы регистрируют и хранят факты — конк­ретные значения данных об объектах реальной пред­метной области, представленные в виде специальным образом организованных совокупностей записей дан­ных определенного формата. Таким образом, в факто­графических БД единицей хранения является факт, т. е. некоторый элемент содержательной информации. Ин­формация, с которой работает фактографическая ИС, имеет четкую структуру, позволяющую машине отли­чать одно данное от другого, — например, фамилию от должности человека, вес товара от его цены и т. п. По­этому фактографическая система способна давать од­нозначные ответы на поставленные вопросы, например:

"Сколько товара артикула А продал магазин в I квар­тале 2003г.?"

Аналогом такой системы является любой справоч­ник, например, телефонный. В такой БД может быть собрана информация о характеристиках производимо­го или закупаемого товара или продукции, о реальных или потенциальных клиентах, о конкурентах и другие сведения, необходимые для выполнения своей деятель­ности или исследований рынка. Используя такую БД, Можно осуществлять информационное обслуживание всех сотрудников. Для защиты информации от несанк­ционированного влияния (считывания, внесения изме­нений, исправлений, редактирования фактических дан­ных в базе данных) устанавливается пароль на вход, который может быть известен только руководителю, его Доверенным лицам, например секретарю.

БД используются не только для реализации разно­образных справочных функций, но и для решения за­дач обработки данных. Под задачами обработки дан­ных понимают обычно специальный класс решаемых задач, связанных с вводом, хранением, сортировкой, отбором по заданному условию и группировкой записей данных однородной структуры. При этом предусмат­ривается генерация для пользователей различных отче­тов, как правило, в табличной форме, обеспечивающих систематизацию и, по возможности, агрегирование дан­ных с промежуточными итогами по некоторым элемен­там данных для групп записей и с полными итогами по всему отчету. В зависимости от информационных по­требностей фирмы это могут быть, например, отчеты, содержащие сведения о результатах работы отдельного сотрудника фирмы или ее дилеров; сведения о выпла­тах, производимых по частям. Задачи такого типа ши­роко распространены при обработке, например, эконо­мической информации.

Фактографическая БД обеспечивает минимальную избыточность данных (в идеале — однократность запи­си каждого данного), в то время как в документальных БД в разных документах могут быть одни и те же све­дения. Это обеспечивает компактность хранения, спо­собствует обеспечению целостности БД, не допуская рассогласованности значений одной и той же характе­ристики в разных местах. Обеспечение целостности БД — необходимое условие ее успешного функциони­рования. Целостность определяется способностью БД содержать полную и непротиворечивую информацию, необходимую и достаточную для корректного функци­онирования приложений (программ, обеспечивающих автоматизацию обработки информации для прикладной задачи).

Важнейшим достоинством применения БД является независимость данных от прикладных программ. Это позволяет снять с пользователя проблемы представле­ния данных в среде физической реализации. Такую независимость обеспечивают СУБД.

При описании ПО как совокупности фактов наибо­лее остро встает проблема их упорядочения с целью удобного хранения и. использования всеми пользовате­лями БД. Теория и практика И С выработала ряд типо­вых решений этой проблемы. Для организации больших объемов данных можно использовать такие струк­туры, как иерархическая, сетевая, реляционная (таб­личная) и объектно-ориентированная. Каждая СУБД поддерживает определенную структуру — модель дан­ных.

В иерархической модели данные представляются в виде древовидной (иерархической) структуры. Сетевая модель позволяет представить данные в виде графа. Достоинством вышеназванных моделей является воз­можность их эффективной реализации (с точки зрения затрат памяти и оперативности). Недостаток — жест­кость и сложность схемы. Реляционная модель основа­на на табличном представлении данных. Достоинства­ми данной модели является ее простота, удобство реа­лизации, наличие теоретического обоснования. Имен­но простота и понятность для пользователя, привычность работы с таблицами явились причиной их широкого использования. Объектно-ориентированная модель бо­лее близка реальным объектам, ибо позволяет хранить объекты предметной области целиком, не раскладывая отдельные их характеристики по отдельным таблицам. Такая модель оперирует объектами, каждому из кото­рых определен круг допустимых операций над ним. Данная модель позволяет расширить круг операций над данными объектно-ориентированными механизмами; она дает возможность отображать структуры со сложными взаимосвязями объектов, оперировать с мультимедий­ными объектами.

Большинство фактографических БД имеют таблич­ную структуру.

Простейший вариант фактографической БД —од­нотабличная.

В табличной структуре адрес данных определяется пе­ресечением строк и столбцов. В БД строка называется запи­сью. Запись хранит информацию о каком-либо объекте. Она состоит из полей, в которых зафиксированы харак­теристики объекта. Каждый столбец объединяет одно­типные характеристики (атрибуты) различных объектов

Обычно в реальных БД информацию размещают в нескольких взаимосвязанных таблицах. Связь таблиц определяется смысловой связью элементов данных. Ус­тановление связи между таблицами повышает достовер­ность хранимой информации и облегчает доступ к ней. Пример схемы БД приведен ниже.

Наиболее распространеннойСУБД, реализующей технологию реляционной БД, является MS Access-компонент пакета MS Office. Достоинством MS Access является как простота и удобство работы с ней, так и интегрированность данной программы с другими ком­понентами пакета. Последнее позволяет легко импор­тировать и экспортировать данные из одного приложе­ния в другое

Таблицы — основной объект. Между таблицами можно установить связи. В БД обычно имеется сово­купность связанных таблиц. Основными операциями над таблицами являются: просмотр, обновление (ввод, модификация, удаление), сортировка, фильтрация и печать

Запрос — специальные структуры, представляющие собой формализованное требование на отбор или обра­ботку данных. Ниже приведен пример запроса на вы­борку десяти самых дорогих товаров

Форма — объекты, служащие для ввода новых дан­ных или просмотра имеющихся. Наличие форм облег­чает процесс ввода, дает возможность разграничить права доступа разных пользователей к информации, хранящейся в БД. Последняя задача решается путем создания разным пользователям разных форм для вво­да (хотя в конечном счете они могут поступить на хра­нение в одну таблицу).

Отчеты — объекты, позволяющие оформить резуль­таты обработки данных для представления их в удоб­ном и наглядном виде.

Макрос — макрокоманда, предназначенная для ав­томатизации выполнения некоторой совокупности час­то выполняемых операций. Например, нажатие на кла­вишу или комбинацию клавиш обеспечит выполнение операции "открыть таблицу", "печать".

Модуль — это программная процедура, написанная на языке программирования Visual Basic, позволяющая расширить возможности системы в соответствии с тре­бованиями пользователя в случае, если стандартных средств Access не хватает

Документальные базы данных

Особенности документальных БД. Документальные базы (и, соответственно, документальные информационные системы') построены по иному принципу, неже­ли фактографические, и ориентированы на решение принципиально иного класса задач.

Единицей хранения в таких базах является доку­мент, основная часть которого — неструктурированный текст. Документальная база предназначена для созда­ния, хранения и выдачи по запросам документов, со­держащих требуемую информацию. В ответ на запрос выдается не конкретная информация (как в фактогра­фических системах), а список документов, в определен­ной мере содержащих нужную пользователю информа­цию. Мера соответствия выдачи запросу оценивается релевантностью. Характерным для документальных систем является поиск смысловой (семантической) ин­формации. Примером запроса может быть следующий:выдать статьи, посвященные документальным БД (т. е. содержащие термин "документальные БД").

Поиск смысловой (семантической) информации предполагает сравнение смыслового содержания запроса со смысловым содержанием хранящихся в информаци­онной системе документов. Такая операция возможна только в том случае, когда существует некоторый язык представления информации, позволяющий однозначно описывать смысловое содержание документов и запро­сов. Естественный язык для этой цели не подходит в силу своей многозначности (выражающейся, например, синонимией и полисемией), избыточности (например, возможности перефразировки), высокой сложности и других свойств. Поэтому создают специальные языко­вые средства на основе естественного языка (ЕЯ), ко­торые носят названияинформационно-поисковые языки(ИПЯ).

При наличии такого языкапроцесс функциониро­вания ИС состоит в следующем:

— перевод содержания документа и (или) запроса с естественного языка на ИПЯ (процесс индексиро­вания текстов). В результате индексирования пол­ный текст документа (запроса) заменяется некото­рой характеристикой, кратко отражающей его смыс­ловое содержание. Эта характеристика носит назва­ниепоискового образа документа (ПОД) и (или) поискового образа запроса (ПОЗ). Иногда ПОЗ называют поисковым предписанием (ПП);

— представление ПОД и ПОЗ в машинных кодах (ко­дирование). Часто этот этап выполняют совместно с предыдущим. Организация массивов ПОД и ПОЗ. Обработка элементов этих массивов и представле­ние их в виде, наиболее удобном для поиска;

— поиск информации, т. е. выделение из поискового массива тех документов, содержание которых соот­ветствует поисковому предписанию. Эта операция осу­ществляется в соответствии с некоторым критерием смыслового соответствия поискового образа докумен­та поисковому образу запроса (критерий выдачи);

— выдача пользователю информации, соответствующей отобранным ПОД;

— корректировка запросов или ПП и повторение пре дыдущих этапов. Эта операция выполняется в том случае, если потребитель не удовлетворен работой АИПС, и может производиться либо в пакетном ре­жиме, либо в режиме диалога.

2.2.2.6.3.1.Характеристика информационно-поисковых язы­ков

.

Основными элементами ИПЯ являются алфавит, лексика и грамматика.

Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ. Это могут быть буквы русского и (или) английского языка, знаки препина­ния, арабские цифры, любые иные символы.

Лексика, или словарный состав ИПЯ, — совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. В качестве лекси­ческих единиц ИПЯ могут быть использованы— слова, фрагменты слов, словосочетания и выраже­ния любого естественного языка;

— коды и шифры (цифровые, буквенные, буквенно-цифровые) словосочетаний, слов и выражений, вы­ступающие в роли имен соответствующих классов;

— шифры и коды в сочетании со словами, словосоче­таниями и выражениями.

Существуют различные способы задания словарно­го состава ИПЯ, в том числе:

— перечисление всех лексических единиц ИПЯ;

— перечисление части лексических единиц и задание правил формирования из них других лексических единиц;

— задание правил построения лексических единиц, слов и выражений естественного языка.

Грамматика ИПЯ — совокупность средств и спосо­бов построения, изменения и сочетания лексических еди­ниц. Грамматика включает морфологию и синтаксис. Морфология — совокупность средств и способов построе­ния и изменения слов. Синтаксис — совокупность средств и способов соединения слов в выражения и фразы.

С лексикой и грамматикой связаны два различных аспекта ИПЯ —парадигматика и синтагматика. Они обусловлены двумя видами отношений между словами, которые могут возникать при построении выражений на ИПЯ.

Построение выражений ИПЯ связано с решением, по крайней мере, двух проблем.

Первая из них — выбор слов (лексических единиц) из множества лексических единиц ИПЯ, необходимых для построения выражений. Выбор слов определяется их смысловыми значениями, обусловленными отноше­ниями между предметами и явлениями, которые они определяют. Такие отношения называются парадигма­тическими (это отношения, обусловленные наличием не языковых, а логических связей между предметами и явлениями, обозначенными данными словами). Наибо­лее важны следующие парадигматические отношения — "род — вид" (например, "управленческая докумен­тация— приказ"); родовое понятие всегда включает в себя видовое; — "часть— целое", например " текст— документ".

Вторая проблема построения фраз ИПЯ связана с определением последовательности употребления или написания выбранных слов (словосочетаний). Отноше­ния, устанавливаемые при соединении слов в словосо­четания и фразы, носят название синтагматических от­ношений (это совокупность всех отношений, реализуе­мых синтаксисом ИПЯ). С этой точки зрения синтак­сис представляет собой совокупность способов и средств выражения синтагматических отношений. Простейшим видом синтагматических отношений является отноше­ние вхождения нескольких лексических единиц ИПЯ в один и тот же текст, фрагмент текста, фразу и прочее, т. е. отношение координации. Иногда говорят: ИПЯ без грамматики. Но поскольку ни один ИПЯ не может функционировать без синтаксиса, выражающего син­тагматические отношения между его словами, инфор­мационно-поисковые языки без грамматики фактичес­ки не существуют.

Многообразие используемых в ИПЯ парадигмати­ческих и синтагматических отношений определяет смысловыразительную способность, илисемантическую силуИПЯ.

К ИПЯ предъявляют следующие требования:

1. ИПЯ должен располагать лексико-грамматическими средствами для точного выражения основного содержания (центральной темы или предмета) текста. Это связано с необходимостью представления текстов на семантическом уровне и является обязательной пред­посылкой обеспечения смысловыразительной способно­сти ИПЯ.

2. ИПЯ не должен быть двусмысленным. Любое выражение ИПЯ должно пониматься вполне однознач­но, что связано с необходимостью устранения много­значности, присущей естественному языку и недопустимой для ИПЯ в силу того, что приемником текстов ИПЯ является ЭВМ, а не человек.

3. ИПЯ не должен содержать элементов, отобража­ющих волевое побуждение, эмоции и т.д. Выражение ИПЯ, его значение, смысл не должны зависеть от "на­строения" приемника информации.

4. ИПЯ должен быть удобным для алгоритмизации (чтобы упростить сопоставление поисковых образов документа и запроса).

Типология информационно-поисковых языков. По характеру использования грамматических средств раз­личают прекоординированные и посткоординированные ИПЯ.

Прекоординированные ИПЯ

Прекоординированные ИПЯ — это ИПЯ, словарный состав которых жестко связан грамматическими сред­ствами в единую структуру. Лексика и грамматика та­кого языка, а также синтаксис, морфология, все пара­дигматические и синтагматические отношения самосто­ятельно не существуют, а образуют единую жесткую связанную структуру. Индексирование текстов (пере­вод текстов на ИПЯ) выполняется только с использо­ванием элементов такой жесткой структуры. По сути дела, каждый ИПЯ этого типа представляет собой не­которую систему классификации, поэтому языки дан­ного типа называют классификационными. Преимуще­ствами таких языков является логичность и понятность их построения и простота индексирования. К недостат­кам следует отнести сложность их модернизации и не­возможность поиска по любому, заранее не заданному сочетанию признаков. К предкоординированным язы­кам относят:

— перечислительные классификации. Они представля­ют собой перечислительный список рубрик (клас­сов), не связанных друг с другом отношениями под­чинения. Список может быть упорядочен по како­му-либо принципу (например, по алфавиту). При­мерами таких классификаций являются структуры различного рода каталогов и указателей; — иерархические классификации. Термины в них упо­рядочены "от общего к частному" или "от рода к виду", т. е. между ними установлены отношения соподчинения. Такие классификации имеют одну верхнюю рубрику, которой непосредственно или опосредованно подчиняются все остальные рубри­ки. Примером такой классификации является УД К, Десятичная классификация Дьюи, Классификация Библиотеки конгресса США;

— фасетная классификация — многоаспектная класси­фикация. Каждый аспект определяет свою верхнюю рубрику. По сути дела, фасетная классификация есть набор нескольких иерархических классификаций, каждая из которых относится к одному аспекту рас­смотрения объекта. Принципы фасетной классифи­кации широко применяются на практике при пост­роении различных классификаторов (например, в ряде общероссийских классификаторов технико-эко­номической информации).

Посткоординированные ИПЯ

Посткоординированные ИПЯ — ИПЯ, словарный состав которых не связан грамматикой заранее и та­кая связь осуществляется в процессе индексирования и (или) поиска. Типичными представителями ИПЯ данного типа являются дескрипторные ИПЯ. В осно­ве их создания лежит гипотеза о том, что основным носителем содержания в любом тексте являются клю­чевые слова. Под ключевыми словами понимают все члены предложения и части речи, не являющиеся пред­логами, союзами, междометиями и служащие для обо­значений объектов и действий над ними. Ключевые слова, на множестве которых устранена синонимия, называют дескрипторами. Поисковый образ докумен­та/запроса представляет собой, в простейшем виде, перечень дескрипторов (связанных или в простейшем случае несвязанных грамматическими средствами), отражающих наиболее существенные аспекты его темы. Перечень всех дескрипторов ИПЯ, т. е. его лексика, обычно представлена в словаре. Простейшим слова рем является алфавитный дескрипторный словарь, где лексические единицы упорядочены по алфавиту. Наи­более совершенным является словарь типа информа­ционно-поисковый тезаурус. Он содержит не только упорядоченный перечень дескрипторов; в нем зафик­сированы парадигматические связи между терминами, приведены ключевые слова-синонимы. Поэтому каж­дый дескриптор представлен отдельной статьей, вклю­чающей собственно дескриптор (заглавный дескрип­тор), а также дескрипторы и ключевые слова, связан­ные с заглавным дескриптором по смыслу.

В дескрипторной статье лексические единицы рас­полагаются в определенном порядке:

— заглавный дескриптор;

— ключевые слова-синонимы;

— вышестоящие дескрипторы (родовые понятия);

— нижестоящие дескрипторы (видовые понятия);

— дескрипторы, связанные с заглавными ассоциатив­ными отношениями.

Ниже приведен пример дескрипторной статьи (дес­крипторы выделены прописными буквами, а ключевые слова — строчными):

ДОКУМЕНТАЛЬНЫЕ ИПС с документальные информационно-поисковые системы в ИПС н БИБЛИОГРАФИЧЕСКИЕ ИПС

ДОКУМЕНТАЛЬНЫЕ АИПС а ДОКУМЕНТАЛЬНАЯ ИНФОРМАЦИЯ

ДОКУМЕНТАЛЬНЫЙ ПОИСК

Наличие указанной информации в словаре позво­ляет более полно и более точно передать содержание темы, т. е. повысить качество индексирования.

В структуру тезауруса обычно входит, помимо ос­новной лексико-семантической части, ряд дополнитель­ных указателей, которые упрощают работу с основной частью, делают ее более эффективной.

Достоинством посткоординированных ИПЯ являет­ся то, что они обеспечивают возможность поиска документов по любому, заранее не заданному сочетанию признаков.

Объем и форма представления данных о докумен­тах могут быть различными.

Наиболее лаконичная форма присуща библиогра­фическим БД, в которых документ представлен толь­ко его описанием, содержащим некоторый необходи­мый минимум сведений о нем. Заметим, что состав библиографических данных существенно зависит от вида документа. Так, например, для управленческого документа в состав такого описания должны быть вклю­чены те реквизиты заголовочной части документа, ко­торые обеспечивают безошибочную и быструю его иден­тификацию

Наши рекомендации