Организация данных во внешней памяти ЭВМ
В качестве внешней памяти ЭВМ используются в основном устройства электромагнитной записи сигналов, для которых характерно примерное равенство затрат времени на чтение и запись информации, - магнитные диски. В отличие от оперативной памяти ЭВМ для них перед непосредственно чтением/записью требуется подвод необходимого участка магнитного носителя к механизму чтения/записи (в реальных запоминающих устройствах могут двигаться и носитель данных, и механизм чтения/записи). Поэтому время доступа к данным на внешнем запоминающем устройстве зависит от места расположения данных на диске или ленте, что существенно отличает их от оперативной памяти и определяет специфику организации данных во внешней памяти ЭВМ.
Данные на внешнем запоминающем устройстве хранятся в виде файлов. Файл представляет собой множество логически связанных записей. Запись обычно соответствует одному значению некоторой составной единицы информации. Каждый файл имеет уникальное имя файла. В простейшем случае файл представляет последовательный массив записей на внешнем запоминающем устройстве. Вся внешняя память разделена на блоки или секторы и обмен с оперативной памятью происходит только целыми секторами.
Существуют стандартные методы организации файлов на магнитном диске и методы доступа к ним. Среди них: последовательная, индексно-последовательная, индексно-произвольная и прямая организация файлов. Во всех случаях в записях файла выделяется ключевой атрибут.
Вопросы для самоконтроля к главе 4
1. По каким критериям производится анализ эффективности методов обработки данных?
2.Каково количество вариантов возможных состояний неупорядоченного массива из М записей?
3.Что означает процедура формирования данных?
4.Что означает процедура поиска?
5.Какими методами ускоряется поиск в упорядоченном последовательном массиве?
6.Что означает процедура корректировки данных?
7.Как осуществляется последовательность обработки данных при цепной организации данных?
8.Какими методами можно ускорить поиск при цепной организации данных?
9.Что такое цепной каталог?
10.Почему бинарный метод поиска не эффективен для цепной организации данных?
11.Как осуществляется связь между записями при древовидной организации данных?
12.Как осуществляется упорядоченность записей в бинарном дереве?
13.Как осуществляется поиск данных в бинарном дереве?
14.Какой метод требует минимальный объем памяти?
15.Какой метод считается предпочтительным?
Глава 5 Моделирование предметных областей в экономике. Базы знаний
Семантические модели данных
Средства описания данных ориентируются либо на формы представления информации (это синтаксические модели данных, например, реляционная, сетевая, иерархическая) либо на смысловые характеристики информации (семантические модели).
Семантические модели данных представляют собой средство представления структуры предметной области.
Эталоном семантической полноты является естественный язык. Простейшей конструкцией естественного языка является высказывание, имеющее смысл. Элементами высказываний служат атомарные факты. Атомарный факт представляется тремя компонентами:
(x, y, t), где
x – это один или множество объектов;
y– свойства или связь объектов;
t – время.
Атомарный объект – это любой объект в рамках данной предметной области.
Объекты могут вступать в отношения двух типов – обобщения, когда один объект определяется в виде множества других объектов, и агрегации, когда объект соотносится с именем действия, в котором он может участвовать. Например, объект Личность обобщает такие объекты, как Рабочий, Служащий, Студент; объект Транспорт агрегируется с действием Перевозка.
Информация о том, что объект имеет некоторые свойства, или что несколько объектов взаимосвязаны, представляется в виде высказывания. Существуют правила вывода новых свойств и связей из ранее определенных свойств и связей.
Семантические модели данных обычно предполагают два уровня интерпретации:
- уровень объектов предметной области и
- уровень атрибутов базы данных.
Оба уровня при необходимости можно совместить в одном представлении.
Известно достаточно большое число семантических моделей данных. Наиболее характерные из них – это модель "сущность-связь" и модель «семантическая сеть». Рассмотрим эти две модели.
Модель сущностей и связей
Эта модель использует графическое представление всех компонентов. Базовыми элементами в модели "сущность-связь" служат типы сущностей. Многие сущности, рассматриваемые в этой модели, соответствуют физическим объектам предметной области.
Структура предметной области в модели "сущность-связь" изображается в форме диаграммы (рис. 5.1). Дуги на диаграмме соединяют тип сущности с типом связи.
Варианты соответствий между сущностями и связями
Рисунок 5.1
Представление предметной области с помощью модели "сущность-связь" позволяет:
-однозначно разработать структуру многоуровневой сетевой базы данных;
-обеспечить одинаковое понимание всеми пользователями содержимого базы данных.
Модель "сущность-связь" характеризуется рядом недостатков:
- не содержит организационной иерархии процессов управления;
- принятое в модели правило формирования множества отношений базы данных создает слишком много отношений для объектов и связей. В результате диаграмма быстро становится громоздкой и необозримой.
Модель семантических сетей
Семантические сети представляют собой ориентированные графы с помеченными дугами. Аппарат семантических сетей является естественной формализацией ассоциативных связей, которыми пользуется человек при извлечении каких-то новых фактов из имеющихся. Построение сети способствует осмыслению информации и знаний, поскольку позволяет установить противоречивые ситуации, недостаточность имеющейся информации и т. п.
Обычно в семантической сети предусматриваются четыре категории вершин:
- понятия (объекты),
- события,
- свойства,
- значения.
Понятия представляют собой константы или параметры, которые определяют физические или абстрактные объекты.
События представляют действия, происходящие в реальном мире, и определяются указанием типа действия и ролей, которые играют объекты в этом действии.
Свойства используются для представления состояния или для модификации понятий и событий.
Сведения семантической сети образуют сценарий, который является набором понятий, событий и причинно-следственных связей.
Необходимо различать вершины, обозначающие экземпляры объектов, и вершины, представляющие классы объектов. Например, Новиков - экземпляр типа Студент. В семантической сети экземпляр может принадлежать более чем одному классу (Новиков – и Студент, и Спортсмен).
В других моделях в отличие от семантической сети типы объектов указаны в схеме, а экземпляры объектов представлены значениями в базе данных. В семантической сети один и тотже экземпляр объекта может быть соотнесен с несколькими типами.
В синтаксических моделях (реляционной, сетевой или иерархической) для обеспечения такой связи потребуется дублирование информации об объекте.
Все семантические отношения предметной области можно разделить на следующие отношения:
- лингвистические,
- логические,
- теоретико-множественные,
- квантификационные.
Лингвистические отношения бывают глагольные (время, вид, род, число, залог, наклонение) и атрибутивные (модификация, размер, форма).
Логические отношения подразделяются на конъюнкцию (и), дизъюнкцию (или), отрицание (не) и импликацию (если – то).
Теоретико-множественные отношения - это отношение подмножества, отношение части и целого, отношение множества и элемента.
Квантификационные отношения делятся на логические кванторы общности и существования («каждый», «все»), нелогические кванторы («много», «несколько») и числовые характеристики.
При установлении структуры понятий существуют две обязательные связи
1- связь "есть-нек" (от слов "есть некоторый"). Направлена от частного понятия к более общему и показывает принадлежность элемента к классу;
2- связь "есть-часть". Показывает, что объект содержит в своем составе разнородные компоненты (объекты), не подобные данному объекту.
Пример семантической сети для описания структуры понятия "юридическое лицо" приведен на следующем рисунке 5.2.
Элементы семантической сети
Рисунок 5.2
Связь "есть-нек" обозначается одной линией, связь "есть-часть" – двумя.
Рассмотрим представление событий и действий с помощью семантической сети. Выделяются простые отношения, которые характеризуют основные компоненты события. В первую очередь из события выделяется действие, которое обычно описывается глаголом. Далее необходимо определить объекты, которые действуют, объекты, над которыми эти действия производятся, и т. д. Все эти связи предметов, событий и качеств с глаголом называются падежами. Обычно рассматривают следующие падежи:
1. агент - предмет, являющийся инициатором действия;
2. объект - предмет, подвергающийся действию;
3. источник - размещение предмета перед действием;
4. приемник - размещение предмета после действия;
5. время - указание на то, когда происходит событие;
6. место - указание на то, где происходит событие;
7. цель - указание на цель действия.
Рассмотрим пример: Директор завода "САЛЮТ" остановил 25.03.90 цех № 4, чтобы заменить оборудование (рис.5.3).
Пример семантической сети
Рисунок 5.3
Преимущества семантических сетей:
1) описание объектов и событий на уровне, очень близком к естественному языку;
2) обеспечивается возможность сцепления различных фрагментов сети;
3) возможные отношения между понятиями и событиями образуют достаточно небольшое и хорошо формализованное множество;
4) можно выделить из полной сети, представляющей все знания, некоторый участок семантической сети, который необходим в конкретном запросе.
5.4 Базы знаний
В современных системах управления вопрос о принятии решений информационной системой требует фиксации знаний об управляемом объекте и реализации моделей принятия решений, характерных для человека-специалиста (инженера, технолога, экономиста, бухгалтера). Способность человека накапливать и использовать знания, принимать решения можно назвать естественным интеллектом, соответствующие возможности информационной системы получили название искусственный интеллект.
Система понятий для представления знаний существенно отличается от понятий для представления данных, поэтому отображение знаний производится в базу знаний. Вместе с тем база знаний способна хранить данные как простую разновидность знаний.
Запросы, которые формулируются пользователями информационной системы, реализуются одним из двух возможных способов:
- сообщения, являющиеся ответом на запрос, хранятся в явном виде в БД, и процесс получения ответа представляет собой выделение подмножества значений из файлов БД, удовлетворяющих запросу;
- ответ не существует в явном виде в БД и формируется в процессе логического вывода на основании имеющихся данных.
Последний случай принципиально отличается от рассмотренной ранее технологии использования баз данных и рассматривается в рамках представления знаний, т. е. информации, необходимой в процессе вывода новых фактов. База знаний содержит:
- сведения, которые отражают существующие в предметной области закономерности и позволяют выводить новые факты, справедливые в данном состоянии предметной области, но отсутствующие в БД, а также прогнозировать потенциально возможные состояния предметной области;
- сведения о структуре ЭИС и БД (метаинформация);
- сведения, обеспечивающие понимание входного языка, т. е. перевод входных запросов во внутренний язык.
Принято говорить не о "знаниях вообще", а о знаниях, зафиксированных с помощью той или иной модели знаний.
Принципиальными различиями обладают три модели представления знаний - продукционная модель, модель фреймов и модель семантических сетей.
5.5 Продукционная модель знаний
Продукционная модель состоит из трех основных компонентов:
- набора правил, представляющего собой в продукционной системе базу знаний;
- рабочей памяти, в которой хранятся исходные факты и результаты выводов, полученных из этих фактов;
- механизма логического вывода, использующего правила ц соответствии с содержимым рабочей памяти и формирующего новые факты.
Каждое правило содержит условную и заключительную части. В условной части правила находится одиночный факт либо несколько фактов (условий), соединенных логической операцией "И".
В заключительной части правила находятся факты, которые необходимо дополнительно сформировать в рабочей памяти, если условная часть правила является истинной.
Рассмотрим пример.Предположим, что в рабочей памяти хранятся следующие факты:
- доля выборки записей равна 0,09;
- ЭВМ - PC XT.
Правила логического вывода базы знаний имеют вид:
1) Если метод доступа индексный, то СУБД - dBase 3.
2) Если метод доступа последовательный, то СУБД - dBase 3.
3) Если доля выборки записей < 0,1, то метод доступа - индексный.
4) Если СУБД - dBase 3 и ЭВМ - PC XT, то программист - Иванов.
Механизм вывода сопоставляет факты из условной части каждого правила с фактами, хранящимися в рабочей памяти. В данном примере сопоставление условия правила 3 с фактами из рабочей памяти приводит к добавлению нового факта "Метод доступа - индексный" и исключению правила 3 из списка применяемых правил.
С учетом нового факта становится справедливой условная часть правила 1, и в рабочей памяти появляется факт "СУБД - dBase 3". Далее становится применимым правило 4, что приводит к фиксации в рабочей памяти факта "Программист - Иванов". В этот момент дальнейшее применение правил невозможно, и процесс вывода останавливается.
Новые факты, полученные механизмом вывода:
- метод доступа – индексный;
- СУБД - dBase 3;
- программист - Иванов.
В приведенном примере для получения вывода правила применялись к фактам, записанным в рабочей памяти, и в результате применения правил добавлялись новые факты. Такой способ действий называется прямым выводом. Возможен также обратный вывод целей. В качестве цели выступает подтверждение истинности факта, отсутствующего в рабочей памяти. При обратном выводе исследуется возможность применения правил, подтверждающих цель, необходимые для этого дополнительные факты становятся новыми целями и процесс повторяется.
Предположим, что в нашем примере запрос цели имеет вид:
? "программист - Иванов".
Эта цель подтверждается правилом 4. Необходимые для правила 4 факты - "ЭВМ - PC XT" и "СУБД - dBase 3". Первыйизних присутствует в рабочей памяти, а второй становится новой целью. Для этой цели требуется подтверждение правила 1 или правила 2. Факт-условие правила 2 не содержится в рабочей памяти и не является заключением существующих правил. Поэтому данная ветвь обратного вывода обрывается. Для применения правила 1 необходим факт "Метод доступа - индексный", он является заключением правила 3, а условие правила 3 соблюдается (в рабочей памяти хранится факт "Доля выборки записей равна 0.09"). В итоге первоначальная цель "программист-Иванов" признается истинной.
В случае обратного вывода условием останова системы является окончание списка правил, которые относятся к доказываемым целям. При прямом выводе останов происходит по окончании списка применимых правил. Следует отметить, что на каждом шаге вывода количество одновременно применимых правил может быть любым (в отличие от примеров, приведенных выше). Последовательность выбора подходящих правил не влияет на однозначность получаемого ответа; однако может существенно увеличить требуемое число шагов вывода. В реальных базах знаний с большим числом правил это может существенно снизить быстродействие системы. В системах с обратным выводом есть возможность исключить из рассмотрения правила, не имеющие отношения к выводу требуемых целей, и тем самым несколько ослабить указанный отрицательный эффект. По этой причине системы с обратным выводом целей получили большее распространение.
Представление знаний в виде набора правил имеет следующие преимущества:
- простота создания и понимания отдельных правил;
- простота механизма логического вывода.
К недостаткам этого способа организации базы знаний относятся:
- неясность взаимных отношений правил;
- отличие от человеческой структуры знаний.
5.6 Фреймы
В основе теории фреймов лежит фиксация знаний путем сопоставления новых фактов с рамками, определенными для каждого объекта в сознании человека. Структура в памяти ЭВМ, представляющая эти рамки, называется фреймом. С помощью фреймовмы пытаемся представить процесс систематизации знаний в форме, максимально близкой к принципам систематизации знаний человеком.
Фрейм представляет собой таблицу, структура и принципы организации которой являются развитием понятия отношения в реляционной модели данных. Новизна фреймов определяется двумя условиями:
1) имя атрибута может в ряде случаев занимать во фрейме позицию значения;
2) значением атрибута может служить имя другого фрейма или имя программно реализованной процедуры.
Структура фрейма показана ниже.
Слотом фрейма называется элемент данных, предназначенный для фиксации знаний об объекте, которому отведен данный фрейм. Перечислим параметры слотов.
Имя слота. Каждый слот должен иметь уникальное имя во фрейме, к которому он принадлежит. Имя слота в некоторых случаях может быть служебным. Среди служебных имен отметим: имя пользователя, определяющего фрейм; дату определения или модификации фрейма; комментарий.
Указатель наследования. Он показывает, какую информацию об атрибутах слотов во фрейме верхнего уровня наследуют слоты с теми же именами во фрейме нижнего уровня. Приведем типичные указатели наследования:
S (тот же). Слот наследуется с теми же значениями данных;
U (уникальный). Слот наследуется, но данные могут принимать любые значения;
I (независимый). Слот не наследуется.
Указатель типа данных. К типам данных относятся:
FRAME (указатель) - указывает имя фрейма верхнего уровня;
ATOM (переменная),
TEXT (текстовая информация),
LIST (список),
LISP (присоединенная процедура).
С помощью механизма управления наследованием по отношениям "есть-нек" осуществляются автоматический поиск и определение значений слотов фрейма верхнего уровня и присоединенных процедур.
Рассмотримпример использования системы фреймов. Иерархия фреймов, показанная на рис. 5.4 а, отображает организационную структуру и работы, выполняемые в некотором отделе конструкторского бюро. Она предназначена для фиксации факта окончания отдельных работ исполнителями, группами и отделом в целом. Фрейм ROOT является стандартным фреймом, все другие фреймы должны быть подчинены ему. Слот АКО используется для установления иерархии фреймов.
Работа начинается посредством передачи сообщения в слот фрейма верхнего уровня DEP. При этом запускается присоединенная процедура, которая передает во фреймы нижнего уровня значение текущей даты. Когда происходит заполнение какого-то слота во фрейме, делается попытка дать значения всем слотам этого фрейма, в том числе попытка выполнения присоединенной процедуры.
Имя слота | Указатель наследования | Указатель Типа | Значение слота |
FRAME-NAME: DEP | |||
АКО | (U) ROOT | FRAME ROOT | |
DESINF | (U) ROOT | TEXT | (ОТДЕЛ 23) |
DATE | (U) ROOT | LIST | |
ТЕМА | (I) .TOP. | LIST | (TEMA1 ТЕМА2) |
ТЕМА1 | (I) «TOP» | LIST | NIL |
ТЕМА2 | (I) .TOP. | LIST | NIL |
FLAG1 | (I) «TOP. | ATOM | |
FLAG2 | (I) •TOP. | ATOM | |
LOGIC | (U) «TOP. | LISP | MAIN |
FRAME-NAME: TEMA1 | |||
АКО | (U) ROOT | FRAME DEP | |
DESINF | (U) ROOT | TEXT | (КОНСТРУИРОВАНИЕ ПЛЕЕРА) |
DAE | (U) ROOT | LIST | |
FAM | (I) «TOP. | LIST | (FAM1 FAM2 FAM3) |
FAM1 | (I) •TOP» | LIST | NIL |
FAM2 | (I) «TOP. | LIST | NIL |
FAM3 | (I) •TOP. | LIST | NIL |
FLAG1 | (1) .TOP* | ATOM | |
FLAG2 | (1) «TOP» | ATOM | |
FLAG3 | (1) •TOP» | ATOM | |
LOGIC | (U) •TOP. | LISP | COMP1 |
FRAME-NAME: FAM1 | |||
AKO | (U) ROOT | FRAME TEMA1 | |
DESINF | (U) ROOT | TEXT | (ЛЕНТОПРОТЯЖНЫЙ |
МЕХАНИЗМ) | |||
DATE | (U) ROOT | LIST | |
TODAY | (1) «TOP» | ATOM | |
ENDDATE | (1) .TOP. | ATOM | 02.04.16 |
LOGIC | (U) .TOP» | LISP | COMPDATE |
б |
Пример базы знаний фреймового типа:
а - иерархия фреймов; б - значения слотов
Рисунок 5.4
Фреймовые системы обеспечивают ряд преимуществ по сравнению с продукционной моделью представления знаний:
1)знания организованы на основе концептуальных объектов;
2)допускается комбинация представления декларативных (как устроен объект) и процедурных (как взаимодействует объект) знаний;
3)иерархия фреймов вполне соответствует классификации понятий, привычной для восприятия человеком;
4)система фреймов легко расширяется и модифицируется.
Трудности применения фреймовой модели знаний в основном связаны с программированием присоединенных процедур.
5.7 Семантические сети для представления знаний
Особенность семантической сети как модели знаний состоит в единстве базы знаний и механизма вывода новых фактов. На основании вопроса к базе знаний строится семантическая сеть, отображающая структуру вопроса, и ответ получается в результате сопоставления общей сети для базы знаний в целом и сети для вопроса.
Рассмотримпример семантической сети, отображающий подчиненность сотрудников в отделе учреждения, приведенный на рис. 55, а. Приводятся связи, показывающие подчиненность первого сотрудника. Остальные сотрудники отдела связываются через вершины сети связями типа "руководит 2", "руководит 3" и т. д.
Вопрос "Кто руководит Серовым?" представляется в виде подсети, показанной на рис. 5.5, б. Сопоставление общей сети с сетью запроса начинается с фиксации вершины "руководит", имеющей ветвь "объект", направленную к вершине "Серов". Затем производится переход по ветви "руководит", что и приводит к ответу "Петров"
а - семантической сети; б - сети логического вывода для запроса
Рисунок 5.5
Преимущества семантических сетей состоят в том, что это достаточно понятный способ представления знаний на основе отношений между вершинами и дугами сети. Однако с увеличением размеров сети ухудшается се обозримость и увеличивается время вывода новых фактов с помощью механизма сопоставления.
Сравнение моделей знаний
Модели знаний - продукционная, фреймовая и модель семантических сетей - обладают практически равными возможностями представления знаний, использующих отношения "есть-нек" и "есть-часть". Дополнительно каждая модель знаний содержит средства усиления этой "базовой" конфигурации:
- продукционная модель позволяет легко расширять и усложнять множество правил вывода;
- фреймовая модель позволяет усилить вычислительные аспекты обработки знаний за счет расширения множества присоединенных процедур;
- модель семантических сетей позволяет расширять список отношений между вершинами и дугами сети, приближая выразительные возможности сети к уровню естественного языка.
5.9 Тезаурусы экономической информации
Первоначально идея разработки тезаурусов возникла в словарной практике в связи с составлением толковых словарей, как средство описания семантической структуры естественного языка. Затем они были применены в практике автоматизированных информационно-поисковых систем для обеспечения избыточного индексирования документов и информационных запросов. Под избыточным индексированием понимается дополнение поискового образа документов дополнительными дескрипторами, которые связаны по смыслу с основными дескрипторами.
Тезаурус - это словарь-справочник, в котором перечислены все лексические единицы ИМЯ с синонимичными им словами, а также выражены все важнейшие смысловые (парадигматические) отношения между лексическими единицами.
Тезаурус, как элемент информационного языка, выполняет следующие функции:
- средство формализации лексики;
- средство терминологического контроля;
- средство избыточного индексирования информационных запросов;
- средство выражения парадигматических отношений языка.
Основные этапы разработки тезауруса следующие:
а) Выбор источников лексики и отбор терминов.
б) Составление терминологического словаря.
в) Группировка терминов в тематические классы.
г) Формирование классов условной эквивалентности.
д) Установление парадигматических отношений.
е) Определение структуры тезауруса.
а) Для отбора лексического материала необходимо использовать экономические документы, отражающие характеристики экономического объекта. Кроме того, надо пользоваться такими вспомогательными средствами, как толковые и терминологические словари, справочники по исследуемой тематике, общесоюзные классификаторы.
Отбор терминов определяется специальными правилами:
- узкие термины применять, если в словаре отсутствуют подходящие общие термины;
- многословный термин вводить в том случае, если встречается довольно часто;
- прилагательное следует употреблять в сочетании с существительным и др.
б) Каждому отобранному термину дается определение, соответствующее его экономическому смыслу. Словарь служит пособием при формировании запросов пользователями.
в) Все термины классифицируются в зависимости от функционального назначения в тематические классы. Ниже приведен перечень тематических классов экономической лексики:
1) экономические категории, действия, события;
2) субъекты действия;
3) объекты действия;
4) назначение действия;
5) место действия;
6) источник поступления (финансирования);
7) время действия;
8) функция управления;
9) единица измерения;
10) атрибутивные характеристики действия (разряд работ и т. п.);
11) обоснование действия;
12) причина отклонения.
г) Группировки терминов в классы условной эквивалентности (КУЭ) для устранения многозначности (омонимия, полисемия) и синонимии терминов.
Омонимия - это совпадение в звучании и написании разных слов. Например: лук (растение) и лук (оружие).
Полисемия - это перенос названия одного предмета на другие предметы. Например: звезда (геометрическая фигура) и звезда (небесное тело), матрица (математическая) и матрица (техническая).
Омонимия и полисемия устраняются лексикографически при редактировании терминологического словаря.
Синонимия заключается в том, что одному "означаемому" (предмету, явлению) соответствует одно и более "означающих" (слов, словосочетаний). Например: алфавит - азбука, студенты - студенчество.
В классы условной эквивалентности (КУЭ) объединяются термины, между объемами понятий которых существуют отношения:
- равнозначности (геомагнетизм - земной магнетизм);
- перекрещивания, когда часть объема одного понятия входит в объем другого (книга - монография);
- подчинения, когда объем одного понятия составляет часть объема другого понятия (стол - мебель);
- внеположенности, когда объемы понятий полностью исключают друг друга и при этом не исчерпывают области предметов, о которых ведется рассуждение (стол - стул: общий класс - мебель).
В результате формирования КУЭ термины группируются в синонимические ряды. В каждом синонимическом ряду выделяется доминанта, то есть такой термин, который может заменить любое слово класса. Доминанту принято называть дескриптором. Однако фактически дескриптором является не имя КУЭ, а сам этот класс.
д) Парадигматические отношения в тезаурусах могут выражаться четырьмя способами:
- лексикографически;
- при помощи таблиц;
- аналитически;
- графически.
Лексикографический способ предполагает наличие специальных помет, которые указывают, в каких парадигматических отношениях находится данный дескриптор с заглавным. При этом используются условные обозначения, рекомендуемые ГОСТом, а именно:
н - нижестоящий видовой дескриптор по отношению к заглавному дескриптору;
в - вышестоящий родовой дескриптор по отношению к заглавному дескриптору;
ц - дескриптор находится в отношении - целое к заглавному дескриптору;
ч - дескриптор находится в отношении - часть к заглавному дескриптору;
с - ключевое слово находится в отношении синонимии к заглавному дескриптору;
см - отсылка от ключевого слова к дескриптору.
Табличный способ заключается в том, что под заглавным дескриптором записываются со сдвигом на несколько знаков вправо дескрипторы, находящиеся с ним в определенном отношении. Такой способ применяется в библиотечно-библиографических классификациях.
При аналитическом способе парадигматические отношения выражаются при помощи структуры кодов дескрипторов. Пример - универсальная десятичная классификация.
Графический способ предполагает применение различных графических схем.
Терминам экономических документов присущи отношения "вид-род", обозначающие смысловую соподчиненность терминов, и "целое-часть", дающие математическую взаимосвязь экономических категорий. Поэтому наиболее удобным будет сочетание лексикографического и табличного способов выражения парадигматических отношений.
е) Структура тезауруса влияет на результаты поиска и соответственно на эффективность работы всей системы.
Как правило, тезаурус представляется в виде совокупности расположенных в алфавитном порядке дескрипторных статей (семантических сегментов). Они представляет собой совокупность заглавного дескриптора и всех дескрипторов, связанных с ним какими-либо парадигматическими отношениями, а также ключевых слов-синонимов. Например:
Выпуск
с выпущено
с выработано
с произведено
Кольца уплотнительные круглого сечения
в Кольца уплотнительные
н Кольца резиновые уплотнительные круглого сечения, резина группы О.
н Кольца резиновые уплотнительные круглого сечения, резина группы 1.
Вопросы для самоконтроля к главе 5
1. Для чего служат семантические модели данных?
2. Какие уровни интерпретации имеют семантические модели?
3. Как отображается структура предметной области в модели сущностей и связей?
4. В чем недостатки модели «сущность-связь»?
5. Как отображается структура предметной области в модели семантической сети?
7. Как отображаются связи между понятиями семантической сети? Что означает одинарная или двойная линия?
8. Что такое падежи семантической сети?
9. В чем преимущества семантической сети?
10. Как понимаете понятие искусственный интеллект?
11. В чем принципиальное отличие реализации запросов в базах знаний и базах данных?
12. Какие существуют принципиально различные модели знаний?
13. Что представляет собой продукционная модель знаний?
14. Как получаются новые знания в продукционной модели знаний?
15. Как ускорить процесс получения вывода в продукционной модели знаний?
16. В чем преимущества и недостатки продукционной модели знаний?
17. Что представляет собой фреймовая модель знаний?
18. Что представляет собой фрейм?
19. Что входит в структуру фрейма?
20. Как получаются новые знания в фреймовой модели знаний?
21. В чем преимущества и недостатки фреймовой модели?
22. Какие преимущества имеет та или иная модель знаний?
24. Какие функции выполняет тезаурус?
25. Какие основные этапы разработки тезауруса?
26. В какие тематические классы объединяются все экономические понятия?
28. Что такое дискриптор?
29. Какими способами отображаются парадигматические отношения в тезаурусах?
30. Что представляет собой структура тезауруса?
Глава 6 Моделирование вычислительных процессов в экономических информационных системах
6.1 Параметризация экономических информационных систем
Рассмотрение ЭИС как предметной области, естественно, приводит к выделению компонентов ЭИС, их свойств и взаимосвязей между ними. Полная реализация этого подхода предполагает:
- определение количественных и качественных параметров объектов, входящих в ЭИС, и процессов их взаимодействия на различных стадиях жизненного цикла системы;
- создание систем хранения и обработки метаинформации, которые получили название баз данных проектировщика ЭИС или словарей-справочников данных;
- использование системы параметров ЭИС для моделирования процессов выбора проектных решений при создании ЭИС, процессов ее эксплуатации и развития.
Параметры ЭИС группируются в следующие классы:
1) структура базы данных;
2) структура программного обеспечения ЭИС;
3) ограничения на доступ пользователей к компонентам базы данных и программного обеспечения;
4) поток данных и запросов;
5) вычислительная система ЭИС.
Существующие словари-справочники в основном ориентированы на хранение параметров структуры базы данных, структуры программного обеспечения ЭИС и ограничений на доступ пользователей к компонентам базы данных и программного обеспечения. В базах данных проектировщика дополнительно хранятся некоторые семантические характеристики (метаинформация) информационного отображения предметной области в БД. Содержательная обработка и анализ метаинформации требуют создания методов и программных средств, которые первоначально не обеспечиваются программами словаря-справочника.
Параметры структуры базы данных рассматривались в гл. 3.
Параметры программного обеспечения показывают вхождение программ в задачи и подсистемы. Данные о размерах файлов, хранимых в базе данных, и размерах файлов, содержащих программы, представляют отдельную группу параметров.