Фактографические базы данных
Особенности фактографических БД. Фактографические системы регистрируют и хранят факты — конкретные значения данных об объектах реальной предметной области, представленные в виде специальным образом организованных совокупностей записей данных определенного формата. Таким образом, в фактографических БД единицей хранения является факт, т. е. некоторый элемент содержательной информации. Информация, с которой работает фактографическая ИС, имеет четкую структуру, позволяющую машине отличать одно данное от другого, — например, фамилию от должности человека, вес товара от его цены и т. п. Поэтому фактографическая система способна давать однозначные ответы на поставленные вопросы, например:
"Сколько товара артикула А продал магазин в I квартале 2003г.?"
Аналогом такой системы является любой справочник, например, телефонный. В такой БД может быть собрана информация о характеристиках производимого или закупаемого товара или продукции, о реальных или потенциальных клиентах, о конкурентах и другие сведения, необходимые для выполнения своей деятельности или исследований рынка. Используя такую БД, Можно осуществлять информационное обслуживание всех сотрудников. Для защиты информации от несанкционированного влияния (считывания, внесения изменений, исправлений, редактирования фактических данных в базе данных) устанавливается пароль на вход, который может быть известен только руководителю, его Доверенным лицам, например секретарю.
БД используются не только для реализации разнообразных справочных функций, но и для решения задач обработки данных. Под задачами обработки данных понимают обычно специальный класс решаемых задач, связанных с вводом, хранением, сортировкой, отбором по заданному условию и группировкой записей данных однородной структуры. При этом предусматривается генерация для пользователей различных отчетов, как правило, в табличной форме, обеспечивающих систематизацию и, по возможности, агрегирование данных с промежуточными итогами по некоторым элементам данных для групп записей и с полными итогами по всему отчету. В зависимости от информационных потребностей фирмы это могут быть, например, отчеты, содержащие сведения о результатах работы отдельного сотрудника фирмы или ее дилеров; сведения о выплатах, производимых по частям. Задачи такого типа широко распространены при обработке, например, экономической информации.
Фактографическая БД обеспечивает минимальную избыточность данных (в идеале — однократность записи каждого данного), в то время как в документальных БД в разных документах могут быть одни и те же сведения. Это обеспечивает компактность хранения, способствует обеспечению целостности БД, не допуская рассогласованности значений одной и той же характеристики в разных местах. Обеспечение целостности БД — необходимое условие ее успешного функционирования. Целостность определяется способностью БД содержать полную и непротиворечивую информацию, необходимую и достаточную для корректного функционирования приложений (программ, обеспечивающих автоматизацию обработки информации для прикладной задачи).
Важнейшим достоинством применения БД является независимость данных от прикладных программ. Это позволяет снять с пользователя проблемы представления данных в среде физической реализации. Такую независимость обеспечивают СУБД.
При описании ПО как совокупности фактов наиболее остро встает проблема их упорядочения с целью удобного хранения и. использования всеми пользователями БД. Теория и практика И С выработала ряд типовых решений этой проблемы. Для организации больших объемов данных можно использовать такие структуры, как иерархическая, сетевая, реляционная (табличная) и объектно-ориентированная. Каждая СУБД поддерживает определенную структуру — модель данных.
В иерархической модели данные представляются в виде древовидной (иерархической) структуры. Сетевая модель позволяет представить данные в виде графа. Достоинством вышеназванных моделей является возможность их эффективной реализации (с точки зрения затрат памяти и оперативности). Недостаток — жесткость и сложность схемы. Реляционная модель основана на табличном представлении данных. Достоинствами данной модели является ее простота, удобство реализации, наличие теоретического обоснования. Именно простота и понятность для пользователя, привычность работы с таблицами явились причиной их широкого использования. Объектно-ориентированная модель более близка реальным объектам, ибо позволяет хранить объекты предметной области целиком, не раскладывая отдельные их характеристики по отдельным таблицам. Такая модель оперирует объектами, каждому из которых определен круг допустимых операций над ним. Данная модель позволяет расширить круг операций над данными объектно-ориентированными механизмами; она дает возможность отображать структуры со сложными взаимосвязями объектов, оперировать с мультимедийными объектами.
Большинство фактографических БД имеют табличную структуру.
Простейший вариант фактографической БД —однотабличная.
В табличной структуре адрес данных определяется пересечением строк и столбцов. В БД строка называется записью. Запись хранит информацию о каком-либо объекте. Она состоит из полей, в которых зафиксированы характеристики объекта. Каждый столбец объединяет однотипные характеристики (атрибуты) различных объектов
Обычно в реальных БД информацию размещают в нескольких взаимосвязанных таблицах. Связь таблиц определяется смысловой связью элементов данных. Установление связи между таблицами повышает достоверность хранимой информации и облегчает доступ к ней. Пример схемы БД приведен ниже.
Наиболее распространеннойСУБД, реализующей технологию реляционной БД, является MS Access-компонент пакета MS Office. Достоинством MS Access является как простота и удобство работы с ней, так и интегрированность данной программы с другими компонентами пакета. Последнее позволяет легко импортировать и экспортировать данные из одного приложения в другое
Таблицы — основной объект. Между таблицами можно установить связи. В БД обычно имеется совокупность связанных таблиц. Основными операциями над таблицами являются: просмотр, обновление (ввод, модификация, удаление), сортировка, фильтрация и печать
Запрос — специальные структуры, представляющие собой формализованное требование на отбор или обработку данных. Ниже приведен пример запроса на выборку десяти самых дорогих товаров
Форма — объекты, служащие для ввода новых данных или просмотра имеющихся. Наличие форм облегчает процесс ввода, дает возможность разграничить права доступа разных пользователей к информации, хранящейся в БД. Последняя задача решается путем создания разным пользователям разных форм для ввода (хотя в конечном счете они могут поступить на хранение в одну таблицу).
Отчеты — объекты, позволяющие оформить результаты обработки данных для представления их в удобном и наглядном виде.
Макрос — макрокоманда, предназначенная для автоматизации выполнения некоторой совокупности часто выполняемых операций. Например, нажатие на клавишу или комбинацию клавиш обеспечит выполнение операции "открыть таблицу", "печать".
Модуль — это программная процедура, написанная на языке программирования Visual Basic, позволяющая расширить возможности системы в соответствии с требованиями пользователя в случае, если стандартных средств Access не хватает
Документальные базы данных
Особенности документальных БД. Документальные базы (и, соответственно, документальные информационные системы') построены по иному принципу, нежели фактографические, и ориентированы на решение принципиально иного класса задач.
Единицей хранения в таких базах является документ, основная часть которого — неструктурированный текст. Документальная база предназначена для создания, хранения и выдачи по запросам документов, содержащих требуемую информацию. В ответ на запрос выдается не конкретная информация (как в фактографических системах), а список документов, в определенной мере содержащих нужную пользователю информацию. Мера соответствия выдачи запросу оценивается релевантностью. Характерным для документальных систем является поиск смысловой (семантической) информации. Примером запроса может быть следующий:выдать статьи, посвященные документальным БД (т. е. содержащие термин "документальные БД").
Поиск смысловой (семантической) информации предполагает сравнение смыслового содержания запроса со смысловым содержанием хранящихся в информационной системе документов. Такая операция возможна только в том случае, когда существует некоторый язык представления информации, позволяющий однозначно описывать смысловое содержание документов и запросов. Естественный язык для этой цели не подходит в силу своей многозначности (выражающейся, например, синонимией и полисемией), избыточности (например, возможности перефразировки), высокой сложности и других свойств. Поэтому создают специальные языковые средства на основе естественного языка (ЕЯ), которые носят названияинформационно-поисковые языки(ИПЯ).
При наличии такого языкапроцесс функционирования ИС состоит в следующем:
— перевод содержания документа и (или) запроса с естественного языка на ИПЯ (процесс индексирования текстов). В результате индексирования полный текст документа (запроса) заменяется некоторой характеристикой, кратко отражающей его смысловое содержание. Эта характеристика носит названиепоискового образа документа (ПОД) и (или) поискового образа запроса (ПОЗ). Иногда ПОЗ называют поисковым предписанием (ПП);
— представление ПОД и ПОЗ в машинных кодах (кодирование). Часто этот этап выполняют совместно с предыдущим. Организация массивов ПОД и ПОЗ. Обработка элементов этих массивов и представление их в виде, наиболее удобном для поиска;
— поиск информации, т. е. выделение из поискового массива тех документов, содержание которых соответствует поисковому предписанию. Эта операция осуществляется в соответствии с некоторым критерием смыслового соответствия поискового образа документа поисковому образу запроса (критерий выдачи);
— выдача пользователю информации, соответствующей отобранным ПОД;
— корректировка запросов или ПП и повторение пре дыдущих этапов. Эта операция выполняется в том случае, если потребитель не удовлетворен работой АИПС, и может производиться либо в пакетном режиме, либо в режиме диалога.
2.2.2.6.3.1.Характеристика информационно-поисковых языков
.
Основными элементами ИПЯ являются алфавит, лексика и грамматика.
Алфавит ИПЯ — система знаков, используемых для записи слов и выражений ИПЯ. Это могут быть буквы русского и (или) английского языка, знаки препинания, арабские цифры, любые иные символы.
Лексика, или словарный состав ИПЯ, — совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. В качестве лексических единиц ИПЯ могут быть использованы— слова, фрагменты слов, словосочетания и выражения любого естественного языка;
— коды и шифры (цифровые, буквенные, буквенно-цифровые) словосочетаний, слов и выражений, выступающие в роли имен соответствующих классов;
— шифры и коды в сочетании со словами, словосочетаниями и выражениями.
Существуют различные способы задания словарного состава ИПЯ, в том числе:
— перечисление всех лексических единиц ИПЯ;
— перечисление части лексических единиц и задание правил формирования из них других лексических единиц;
— задание правил построения лексических единиц, слов и выражений естественного языка.
Грамматика ИПЯ — совокупность средств и способов построения, изменения и сочетания лексических единиц. Грамматика включает морфологию и синтаксис. Морфология — совокупность средств и способов построения и изменения слов. Синтаксис — совокупность средств и способов соединения слов в выражения и фразы.
С лексикой и грамматикой связаны два различных аспекта ИПЯ —парадигматика и синтагматика. Они обусловлены двумя видами отношений между словами, которые могут возникать при построении выражений на ИПЯ.
Построение выражений ИПЯ связано с решением, по крайней мере, двух проблем.
Первая из них — выбор слов (лексических единиц) из множества лексических единиц ИПЯ, необходимых для построения выражений. Выбор слов определяется их смысловыми значениями, обусловленными отношениями между предметами и явлениями, которые они определяют. Такие отношения называются парадигматическими (это отношения, обусловленные наличием не языковых, а логических связей между предметами и явлениями, обозначенными данными словами). Наиболее важны следующие парадигматические отношения — "род — вид" (например, "управленческая документация— приказ"); родовое понятие всегда включает в себя видовое; — "часть— целое", например " текст— документ".
Вторая проблема построения фраз ИПЯ связана с определением последовательности употребления или написания выбранных слов (словосочетаний). Отношения, устанавливаемые при соединении слов в словосочетания и фразы, носят название синтагматических отношений (это совокупность всех отношений, реализуемых синтаксисом ИПЯ). С этой точки зрения синтаксис представляет собой совокупность способов и средств выражения синтагматических отношений. Простейшим видом синтагматических отношений является отношение вхождения нескольких лексических единиц ИПЯ в один и тот же текст, фрагмент текста, фразу и прочее, т. е. отношение координации. Иногда говорят: ИПЯ без грамматики. Но поскольку ни один ИПЯ не может функционировать без синтаксиса, выражающего синтагматические отношения между его словами, информационно-поисковые языки без грамматики фактически не существуют.
Многообразие используемых в ИПЯ парадигматических и синтагматических отношений определяет смысловыразительную способность, илисемантическую силуИПЯ.
К ИПЯ предъявляют следующие требования:
1. ИПЯ должен располагать лексико-грамматическими средствами для точного выражения основного содержания (центральной темы или предмета) текста. Это связано с необходимостью представления текстов на семантическом уровне и является обязательной предпосылкой обеспечения смысловыразительной способности ИПЯ.
2. ИПЯ не должен быть двусмысленным. Любое выражение ИПЯ должно пониматься вполне однозначно, что связано с необходимостью устранения многозначности, присущей естественному языку и недопустимой для ИПЯ в силу того, что приемником текстов ИПЯ является ЭВМ, а не человек.
3. ИПЯ не должен содержать элементов, отображающих волевое побуждение, эмоции и т.д. Выражение ИПЯ, его значение, смысл не должны зависеть от "настроения" приемника информации.
4. ИПЯ должен быть удобным для алгоритмизации (чтобы упростить сопоставление поисковых образов документа и запроса).
Типология информационно-поисковых языков. По характеру использования грамматических средств различают прекоординированные и посткоординированные ИПЯ.
Прекоординированные ИПЯ
Прекоординированные ИПЯ — это ИПЯ, словарный состав которых жестко связан грамматическими средствами в единую структуру. Лексика и грамматика такого языка, а также синтаксис, морфология, все парадигматические и синтагматические отношения самостоятельно не существуют, а образуют единую жесткую связанную структуру. Индексирование текстов (перевод текстов на ИПЯ) выполняется только с использованием элементов такой жесткой структуры. По сути дела, каждый ИПЯ этого типа представляет собой некоторую систему классификации, поэтому языки данного типа называют классификационными. Преимуществами таких языков является логичность и понятность их построения и простота индексирования. К недостаткам следует отнести сложность их модернизации и невозможность поиска по любому, заранее не заданному сочетанию признаков. К предкоординированным языкам относят:
— перечислительные классификации. Они представляют собой перечислительный список рубрик (классов), не связанных друг с другом отношениями подчинения. Список может быть упорядочен по какому-либо принципу (например, по алфавиту). Примерами таких классификаций являются структуры различного рода каталогов и указателей; — иерархические классификации. Термины в них упорядочены "от общего к частному" или "от рода к виду", т. е. между ними установлены отношения соподчинения. Такие классификации имеют одну верхнюю рубрику, которой непосредственно или опосредованно подчиняются все остальные рубрики. Примером такой классификации является УД К, Десятичная классификация Дьюи, Классификация Библиотеки конгресса США;
— фасетная классификация — многоаспектная классификация. Каждый аспект определяет свою верхнюю рубрику. По сути дела, фасетная классификация есть набор нескольких иерархических классификаций, каждая из которых относится к одному аспекту рассмотрения объекта. Принципы фасетной классификации широко применяются на практике при построении различных классификаторов (например, в ряде общероссийских классификаторов технико-экономической информации).
Посткоординированные ИПЯ
Посткоординированные ИПЯ — ИПЯ, словарный состав которых не связан грамматикой заранее и такая связь осуществляется в процессе индексирования и (или) поиска. Типичными представителями ИПЯ данного типа являются дескрипторные ИПЯ. В основе их создания лежит гипотеза о том, что основным носителем содержания в любом тексте являются ключевые слова. Под ключевыми словами понимают все члены предложения и части речи, не являющиеся предлогами, союзами, междометиями и служащие для обозначений объектов и действий над ними. Ключевые слова, на множестве которых устранена синонимия, называют дескрипторами. Поисковый образ документа/запроса представляет собой, в простейшем виде, перечень дескрипторов (связанных или в простейшем случае несвязанных грамматическими средствами), отражающих наиболее существенные аспекты его темы. Перечень всех дескрипторов ИПЯ, т. е. его лексика, обычно представлена в словаре. Простейшим слова рем является алфавитный дескрипторный словарь, где лексические единицы упорядочены по алфавиту. Наиболее совершенным является словарь типа информационно-поисковый тезаурус. Он содержит не только упорядоченный перечень дескрипторов; в нем зафиксированы парадигматические связи между терминами, приведены ключевые слова-синонимы. Поэтому каждый дескриптор представлен отдельной статьей, включающей собственно дескриптор (заглавный дескриптор), а также дескрипторы и ключевые слова, связанные с заглавным дескриптором по смыслу.
В дескрипторной статье лексические единицы располагаются в определенном порядке:
— заглавный дескриптор;
— ключевые слова-синонимы;
— вышестоящие дескрипторы (родовые понятия);
— нижестоящие дескрипторы (видовые понятия);
— дескрипторы, связанные с заглавными ассоциативными отношениями.
Ниже приведен пример дескрипторной статьи (дескрипторы выделены прописными буквами, а ключевые слова — строчными):
ДОКУМЕНТАЛЬНЫЕ ИПС с документальные информационно-поисковые системы в ИПС н БИБЛИОГРАФИЧЕСКИЕ ИПС
ДОКУМЕНТАЛЬНЫЕ АИПС а ДОКУМЕНТАЛЬНАЯ ИНФОРМАЦИЯ
ДОКУМЕНТАЛЬНЫЙ ПОИСК
Наличие указанной информации в словаре позволяет более полно и более точно передать содержание темы, т. е. повысить качество индексирования.
В структуру тезауруса обычно входит, помимо основной лексико-семантической части, ряд дополнительных указателей, которые упрощают работу с основной частью, делают ее более эффективной.
Достоинством посткоординированных ИПЯ является то, что они обеспечивают возможность поиска документов по любому, заранее не заданному сочетанию признаков.
Объем и форма представления данных о документах могут быть различными.
Наиболее лаконичная форма присуща библиографическим БД, в которых документ представлен только его описанием, содержащим некоторый необходимый минимум сведений о нем. Заметим, что состав библиографических данных существенно зависит от вида документа. Так, например, для управленческого документа в состав такого описания должны быть включены те реквизиты заголовочной части документа, которые обеспечивают безошибочную и быструю его идентификацию