Глава 6 информационные системы

ВВЕДЕНИЕ

В узком смысле, следуя традиции, под информационными понимают системы, предназначенные для хранения информации в специальным образом организованной форме и обеспечивающие ее ввод и различные манипуляции с ней, включая поиск по некоторым признакам, подготовку сводок (отчетов) и т.д.

Сама идея информационных систем и некоторые принципы их организации возникли задолго до появления ЭВМ. Библиотеки, архивы, адресные бюро, телефонные справочники, словари - все это информационные системы.

В современной информатике рассматриваются такие информационные системы, которые используют для хранения и обработки информации компьютерную технику. Именно компьютеризация придала информационным системам их современный облик, на несколько порядков повысила эффективность и расширила сферу их применения.

К информационным системам относят, в частности,

• информационно-справочные и информационно-поисковые системы;

• системы, обеспечивающие автоматизациюдокументооборота и учета, в томчисле бухгалтерского;

• автоматизированныесистемы управления;

• экспертные системы;

• системы автоматизации научных исследований и автоматизированного проектирования, геоинформационные системы.

В последнее десятилетие большое развитие получил представляющий для нас особый интерес класс программных средств, которые также можно отнести к информационным - обучающие (информационно-обучающие) системы. Они также будут рассмотрены в этой главе.

Общей функцией всех информационных систем является сбор, накопление и хранение информации, ее обработка (в частности, поиск) и выдача в той или иной форме. Важнейшими подсистемами информационных систем являются банки информации. Ведущее направление развития информационных систем - совершенствование их интеллектуальных функций, облегчающих работу с ними, а также их сопровождение и развитие. Такими интеллектуальными функциями являются

• интерфейс с информационной системой на естественном языке (речевой ввод и вывод информации, формирование запросов на естественном языке);

• поддержка принятия решений, решения задач на основе информации, имеющейся в информационной системе.

В предыдущих главах мы остановились на таких аспектах представления и обработки данных с помощью компьютера, как информационное моделирование, базы данных и СУБД, языки управления реляционными базами данных, понятия и системы искусственного интеллекта, а также кибернетические аспекты информатики. Эти вопросы часто относят к единому разделу информатики под названием «Информационные системы»; туда же можно отнести и часть функций локальных и глобальных сетей. Таким образом, ниже внимание будет сосредоточено лишь на тех аспектах информационных систем, которые не обсуждались ранее.

БАНКИ ИНФОРМАЦИИ

БАНКИ ДАННЫХ

Банк данных - наиболее характерный пример информационной системы. В банке данных хранится достаточно универсальная, необходимая для решения разнообразных прикладных задач, информация об определенной предметной области в специальном представлении, чаще всего предполагающем хранение и обработку с помощью компьютеров. При этом сами данные образуют базу данных, а банк, наряду с базой, содержит программные средства обработки данных и реализации запросов, т.е. систему управления базой данных (СУБД). Как правило, банки данных являются системами коллективного пользования. К информации, хранимой в них, часто можно получить доступ по телекоммуникационным сетям.

В современном мире существует огромное число банков данных. В них содержатся сведения коммерческого характера, данные по библиотечным фондам, системам здравоохранения, транспорта и т.д. Быстро развиваются банки, содержащие сведения о системах образования - национальных, региональных (в России они называются «банки педагогической информации»).

Итак, основа банка - база данных. Определение базы данных, основные понятия, связанные с различными моделями данных, уже обсуждались в гл. 2 и это обсуждение будет продолжено ниже в этой главе.

Остановимся на классификации банков информации. Эта классификация может быть проведена с разных точек зрения. Поназначению можно выделить следующие классы банков информации:

• информационно-справочные системы (общего назначения и специализированные);

• банки данных в автоматизированных системах управления (предприятий и организаций, технологическими процессами и т.д.);

• банки данных в системах автоматизации научных исследований.

Однако такая классификация является не вполне строгой и завершенной. Порежиму функционирования можно рассматривать банки информации пакетного, диалогового и смешанного типов, В связи с широким распространением персональных компьютеров, локальных и глобальных сетей ЭВМ подавляющее распространение получили диалоговые системы.

Поархитектуре вычислительной среды различают централизованные и распределенные банки информации.

К настоящему времени сложились следующие три основных типа банков информации: банки документов, банки данных и банки знаний.

Исторически первым типом банков информации явились банки документов или документальные информационно-поисковые системы. Документальные информационно-поисковые системы бурно развивались в 60-е годы, они широко используются в качестве справочного инструмента пользователей научно-технической информацией, в информационном обслуживании управленческих работников, специалистов и др. В настоящее время интерес к этим системам возобновился в связи с развитием глобальных информационных сетей (Internet) и появлением гипертекстовых серверов типа WWW, Gopher и т.д.. которые вместе с соответствующими поисковыми системами {Archie, Whatis и т.д.) можно отнести к распределенным банкам документов.

Объектом хранения в таких системах является документ (научная статья, монография, приказ, циркуляр, письмо и т.д.) или факты, извлеченные из документов. Для обеспечения поиска и доступа к таким документам необходима их предварительная семантическая обработка - индексация. Индексация до настоящего времени остается неавтоматизированной процедурой и выполняется специалистами -людьми, индексирующими документы и запросы.

БАНКИ ДОКУМЕНТОВ

В документальной информационно-поисковой системе выделяют следующие компоненты:

• массив документов (текстов) или фактов, выступающих в качестве объектов хранения и поиска;

• информационно-поисковый язык, предназначенный для отображения содержания документов и операций над ними, в том числе и запросов для поиска документов;

• правила, алгоритмы, методы индексирования и поиска документов, позволяющие описывать документы и операция над ними на информационно-поисковом языке;

• комплекс программных и аппаратных средств, с помощью которых реализуются процессы накопления, хранения и поиска документов;

• обслуживающий персонал, включающий администраторабанка документов, системных аналитиков, программистов и индексаторов. Банки документов работают обычно в двух режимах:

1) избирательного распределения информации, обеспечивающего регулярное текущее информирование пользователей банка о новых поступлениях документов;

2) ретроспективного поиска информации по разовым запросам во всем массиве документов.

Важнейший этап обработки нового документа при поступлении его в хранилище документальной информационно-поисковой системы - индексирование документа -слагается из следующих действий:

1) выявления основного смыслового содержания документа (с учетом точки зрения автора документа и информационных потребностей пользователя системы);

2) описания смыслового содержания документа на информационно-поисковом языке (ИПЯ) и получения соответствующего поискового образа документа (ПОД).

При выполнении ретроспективного поиска производится

1) выявление смыслового содержания запроса;

2) получение поискового обзора запроса (ПОЗ) на информационно-поисковом языке системы.

Результатами индексирования документов и запросов являются их поисковые образы (ПОД и ПОЗ). Поиск документов по запросу означает сопоставление ПОД и ПОЗ. Качество поиска зависит от критериев смыслового соответствия документа запросу (критериев выдачи).

Различают

• теоретико-множественные критерии, основанные на оценкестепени совпадениялексических единиц ИПЯ (слов), используемых в ПОД и в ПОЗ;

• критерии, учитывающие с помощью «весовых коэффициентов» относительную информационную значимость отдельных лексических единиц, входящих в ПОЗ;

• логические критерии, основанныена использовании логических операций (дизъюнкции, конъюнкции, импликации и др.).

Информационно-поисковые языки (ИПЯ), которые используются в настоящее время, можно разделить на три большие группы:

• классификационные языки;

•дескрипторные;

• комбинированные.

Языки классификационного типа, в свою очередь, делятся по структуре:

• ИПЯ иерархической структуры;

• ИПЯ фасетной структуры;

• эмпирические (неиерархические) языки.

Классификационные системы. В иерархических классификационных системах лексические единицы (термины) находятся между собой в отношениях включения. При записи они располагаются в порядке постепенного перехода от общих к более частным. Существуют иерархические системы, в которых рубрики включают по 20 и более подклассов, рубрик и подрубрик в нисходящем порядке. Примером такой иерархической классификационной системы является универсальная десятичная классификация (УДК), широко используемая в библиотечном деле и документальных поисковых системах. УДК охватывает весь спектр знаний.

Шифры УДК, которые можно увидеть на обороте титульного листа всех книг, перед заголовками статей в журналах и сборниках, имеют более чем столетнюю историю. В 1905 г. в Брюсселе на французском языке вышло первое сводное издание таблиц десятичной классификации. Эти таблицы были созданы на основе таблиц десятичной классификации Мельвиля Дьюи, впервые изданных в 1876 г.

Каждый класс (первая ступень деления) в УДК содержит группу более или менее близких наук, например, класс 5 - математику и естественные науки, класс 6 -прикладные науки: технику, в том числе информатику, сельское хозяйство, медицину. Каждая последующая присоединяемая цифра не меняет значения предыдущих, а лишь уточняет их, обозначая более частное понятие. УДК настоящего текста: 681.3:62-52.

В основе фасетной классификации лежит многоаспектное распределение понятий какой-либо отрасли науки или техники по однородным взаимно исключающим друг друга фасетам.

Примером эмпирической (неиерархической) классификации может быть алфавитно-предметная классификация. Словарный запас такой классификации состоит из упорядоченного по алфавиту множества слов, словосочетаний и фраз естественного языка, обозначающих предметы какой-либо отрасли науки или практической деятельности. Каждому предмету или вопросу при этом отводится только один индекс, собирающий всю информацию относительно данного предмета или вопроса независимо от аспекта рассмотрения. В предметных классификациях используются следующие термины:

• предметная рубрика (заголовок) - слово или фраза естественного языка, используемая для обозначения основного предмета документа (или запроса);

• предметный подзаголовок - слово или фраза, обозначающая аспект рассмотрения предмета, указанного в предметном заголовке или в подклассе предметов, входящих в класс, обозначенный предметным заголовком;

•предметный словник - упорядоченное по алфавиту множество предметных заголовков, используемых для построения какого-либо каталога или указателя.

Система предметных заголовков и подзаголовков и более мелких разделов создает сложную предметную классификацию по аспектам рассмотрения предмета, т.е. имеет некоторые черты фасетных классификаций.

Дескрипторные информационно-поисковые языки. Дескрипторные информационно-поисковые языки основаны на методе координатного индексирования, сущность которого сводится к тому, что смысловое содержание документа может быть с достаточной точностью и полнотой выражено списком ключевых слов, содержащихся в тексте.

Ключевое слово - это лексическая единица информационно-поискового языка, являющаяся существительным, прилагательным, глаголом, наречием, числительным или местоимением естественного языка или словосочетанием. Основной критерий отбора ключевых слов из текста - степеньих полезности для индексирования документа или запроса.

Координатное индексирование выполняется с помощью ключевых слов и логических операции конъюнкции и дизъюнкции. Близкие по смыслу ключевые слова образуют классы условной эквивалентности, имена которых также являются единицами поискового языка и называются дескрипторами. Дескрипторы вместе с набором ключевых слов языка и семантических связей между ними образуют тезаурус - систематизированный набор данных об области знания, позволяющий в ней ориентироваться.

В дескрипторной статье тезауруса обычно устанавливаются следующие виды семантических отношений:

• отношение синонимии;

• отношение подчинения;

• отношение ассоциации.

Такие связи служат для увеличения полноты представления содержания документов и позволяют формировать запрос не обязательно в ключевых словах документа.

Пример дескрипторной статьи:

языки алгоритмические синонимы: алгоритмические языки

машинно-ориентированные языки проблемно-ориентированные языки вышестоящие: программное обеспечение

языки формальные нижестоящие: автокоды

алгол паскаль фортран си бейсик ассоциации: алгоритмы

программирование

Целесообразность применения того или иного языка во многом зависит от назначения информационной системы, степени ее автоматизации. Для описания документов в библиотеках, общих и технических архивах обычно применяют классификационные языки. В автоматизированных информационно-поисковых системах используются, главным образом, дескрипторные языки.

Наши рекомендации