Библиографические базы данных

Документ представлен только описанием (некоторым на­бором реквизитов), содержащим некоторый необходимый ми­нимум сведений о нем. Для создания такой БД может быть использован традиционный набор реквизитов (установленный как минимальный в государственных нормативно-методи­ческих документах, в- частности, в ГСДОУ), фиксируе­мых при регистрации. В состав этих реквизитов вхо­дят: дата поступления документа, входящий порядковый номер (делопроизводственный индекс), корреспон­дент, дата и номер создания документа, вид документа (письмо, договор, акт, счет и др.), краткое содержание (заголовок), исполнитель (структурное подразделение и (или) сотрудник), срок исполнения, номер дела, в которое будет подшит поступивший документ. Созда­ваемая при автоматизации регистрации документов БД позволяет реализовать все три задачи, ради которых регистрация и проводится: учет документов, контроль за их исполнением и создание информационно-справоч­ной системы по документам организации. Эти же зада­чи ставятся перед регистрацией документов и в ручной системе делопроизводства, но решить их в полном объе­ме сложно.

Реквизиты, вносимые в БД при регистрации, необ­ходимы для удовлетворения возможных запросов пользователей системы, работающих с документом. В зависимости от информационных потребностей со­трудников организации состав данных библиографичес­кого описания документов может быть расширен и до­полнен. Например, при регистрации документов сведе­ния о реквизите "корреспондент" обычно состоят толь­ко из названия организации — автора документа; в БД, помимо этого, могут быть внесены сведения уточняю­щего характера, например о его местонахождении, вклю­чая страну, город, регион, населенный пункт.

Библиографическая БД дает возможность поиска только по ограниченному набору характеристик доку­мента, отраженных в библиографическом описании. Соответственно и объем данных, выдаваемых по ре­зультатам поиска, ограничен по тем же соображениям. И если требуются более подробные сведения о доку­менте (например, полный текст или фрагменты текста), то следует обратиться к первоисточнику, т. е. к делу, в котором документ хранится.

В полнотекстовых БД наряду с библиографическим описанием хранится и полный текст документа. Это са­мая расточительная, но в то же время самая удобная

Полнотекстовые базы данных

Полнотекстовые базы данных

Наряду с библиографическим описанием хранится и полный текст документа

форма организации документальной БД. Однако из-за больших размеров информационного массива и недостат­ка памяти компьютера ее не всегда можно реализовать, учитывая, что к этому массиву памяти необходимо обес­печить быстрый доступ. Именно хранение текста (в пол­ном или сокращенном объеме) дает возможность обеспе­чить тематический поиск, т. е. по определенной пробле­ме или определенному вопросу, и в этом важная потре­бительская ценность таких БД. Наличие текста документа и возможность работы с ним выгодно отличает докумен­тальный тип БД, который благодаря указанным особен­ностям часто называют текстовым.

Если отсутствует возможность хранения полного текста, хранят его краткое содержание. Такие БД на­зывают реферативными. Они по объему значительно меньше полнотекстовых БД, и поэтому их легче осуще­ствить. Однако при создании реферативной БД возни­кает трудность — подготовка реферата.

Сфера приложения для технологий БД, ориенти­рованных на обработку документальной информации, чрезвычайно широка. Это и управленческие, законода­тельные, научные документы, печатные издания, рек­ламные издания, справочники и др.

В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективных управленческих решений, и возмож­ностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в раз­личных сферах экономики.

По оценкам американских экспертов (фирма Delphi Consulting), в США ежегодно генерируется более 1 млрд страниц документов, а в архивах хранится уже более 1,3 трлн документов, причем поток деловой ин формации чрезвычайно разнообразен по видам ее пред­ставления: 27% информации этого потока представле­но в электронном виде, хранится и обрабатывается на основе технологий БД (12%- фактографических, 15% — документальных). Оставшиеся около 73% ин­формации традиционно хранятся на бумаге. Органи­зация быстрого и эффективного поиска такой доку­ментальной информации становится все более нераз­решимой проблемой.

Современные ИПС дают возможность:

- ввести документ, отредактировать его, произвести поиск и сформировать отчетные документы по ре­зультатам поиска в формате пользователя;

— хранить в БД документы разного типа (может быть, несколько десятков форматов документов);

— использовать для записи данных поля переменной (нефиксированной) длины;

— обеспечить хранение и работу с несколькими значе­ниями одной характеристики в одном поле;

- реализовать гибкие поисковые функции (при рабо­те с текстом);

- реализовать гибкий генератор отчетов, разработать большое количество форм выходных документов и вносить при необходимости в них изменения. На сегодняшний день на рынке информационных продуктов присутствует множество различного про­граммного обеспечения, предназначенного для работы с текстовой информацией. Можно бесконечно пере­числять названия различных ИПС, разработанных за последнее десятилетие для различных областей челове­ческой деятельности. Это юридические системы — "Кон-сультантПлюс", "Кодекс", "Закон", "Юриус"; медицин­ские - "Medline" и "Clinical Medicine" (ИПС медико-биологического профиля), Poislndex и "Emergslndex" (полнотекстовые ИПС по ядам и лекарственным препаратам); а также ИПС, предназначенные для работы с базами данных конечного пользователя — "Pro-Cite", "Irbis", "Артефакт", "Alesta Library", "ODB-Text" и др. Все они отличаются друг от друга как набором функциональных возможностей, так и физической peaлизацией. Исходя из разнообразия предлагаемых продуктов, можно предложить две системы классификации.

Первая классификация делит ПО на две категории:

системы, открытые для ввода документов пользователем (так называемые "оболочки"), и закрытые системы, обновляемые только разработчиком по мере необходимости. Ко вторым, как правило, относятся различные справочные информационно-поисковые системы. Такие, например, как правовые ИПС "Консультант Плюс", "Кодекс", "Гарант", "Юриус", "Intralex" и др. Почти все подобные ИПС объединяет то, что в этих системах реализованы функции гипертекста, присутствует мощный поисковый аппарат, одним из достоинств которого является возможность поиска по запросам на языке, близком к естественному, также все эти системы способны обрабатывать нетекстовые виды информации. Но в то же время у них есть существенный не достаток — они не могут пополняться без вмешательства разработчика.

Существует и второй способ классификации систем обработки документальной информации. Он основыва­ется на том, что в настоящее время у разработчиков программных средств доступа к документальным ре­сурсам сложились два альтернативных подхода к реа­лизации АИПС. Трудно сказать, какой из них возник первым, но один из них состоит в разработке некото­рой универсальной программной оболочки, настройку которой на приложения может осуществлять админист­ратор системы или пользователь, без дополнительного программирования. Пакеты прикладных программ (ППП) подобного рода используются для текстового поиска и отличаются от других типов программного обеспечения тем, что они работают со слабо структури­руемым и неструктурированным текстом. На этом пути возникли системы типа STAIRS, ISIS и из более совре­менных — Winlrbis. Второй подход состоит в использо­вании СУБД. Изначально с этой целью использовались реляционные СУБД. в которых реализованы средства индексного поиска для написания более или менее уни­версальных открытых оболочек АИПС в таких средах. С этой целью используются такие средства, как Clipper, Paradox, FoxPro, Access, Oracle.

Однако все большее число разработчиков пользова­тельских приложений сталкиваются с тем, что приме­нение реляционных моделей не обеспечивает требова­ния, предъявляемые к скорости обработки запросов, особенно в случае проектирования систем, предназна­ченных для хранения сложных неструктурированных данных. Поэтому крупнейшие разработчики СУБД ста­ли встраивать в свои продукты поддержку объектной ориентации. Не обошло это веяние и рассматриваемое нами направление разработки документальных И С. В настоящее время объектные СУБД рассматриваются как одно из самых перспективных направлений. При­мером такой полнотекстовой документальной системы можно назвать систему ODB-Text, созданную на базе объектной СУБД Jupiter.

Система "ODB Text" — средство коллективной об­работки документов и ведения корпоративного архи­ва. В числе возможных приложений можно назвать автоматизацию учета документооборота современно­го офиса, построение справочно-информационных си­стем (подобных известным юридическим базам дан­ных), ведение сетевых баз данных, учет кадров, биб­лиографиюODB-Text позволяет эффективно решать ряд про­блем, возникающих в современной организации:

— аналитическую обработку данных с целью получе­ния информации для принятия решений;

— интеграцию данных различных форматов и различ­ных программных продуктов;

— доступ к информации из любого места: из локаль­ной сети, посредством удаленного соединения с сер­вером БД, из Интернета;

— невысокие требования к аппаратным ресурсам;

— надежную защиту корпоративной информации;

— оперативное обновление информации;

— простоту освоения и эксплуатации

Наши рекомендации