Тема 6. проектирование информационного обеспечения ис и ит

Проектирование классификаторов экономической информации

Основные понятия классификации экономической информации

В условиях рыночной экономики возрастает роль информации как одного из наиболее важных ресурсов предприятия, необходимого для принятия эффективных и своевременных управленческих решений. Одной наиболее существенных компонент этого ресурса является экономическая информация, основными особенностями которой являются:

- большие объёмы, ежегодно создаваемой, обрабатываемой и хранимой информации (до нескольких сотен млн. символов в год для среднего предприятия);

- большая часть этой информации имеет символьное представление, слабо приспособленное для логической и арифметической обработки;

- высокий уровень стоимостных и трудовых затрат на поиск и ее обработку.

Для того чтобы приспособить экономическую информацию для эффективного поиска, обработки на ЭВМ и передачи по каналам связи, её необходимо представить в цифровом виде, с этой целью её нужно сначала упорядочить (классифицировать), а затем формализовать (закодировать) с использованием классификатора.

Классификатор– это документ, с помощью которого осуществляется формализованное описание экономической информации в ИС, содержащий наименования объектов, наименования классификационных группировок и их кодовые обозначения.

Экономическая информация существует в двух формах: в форме экономических показателей и документов.

Экономический показатель является составной единицей информации, отражающей количественную характеристику некоторого процесса предметной области – реквизит-основание вместе с однозначно определяющими его качествами реквизитами-признаками Структура показателя представлена на рисунке 34.

Реквизиты - основания подразделяются по типу алгоритмов их получения на количественные, стоимостные, проценты, удельные веса и др. Множество реквизитов- признаков по степени формализации делится на два подмножества:

· справочныереквизиты-признаки, как правило, наименования, предназначенные для понимания показателя пользователем-экономистом;

· группировочные, являющиеся, как правило, закодированными аналогами справочных признаков и предназначенными для логической обработки информации на ЭВМ.

тема 6. проектирование информационного обеспечения ис и ит - student2.ru

Рисунок 34 - Схема структуры экономического показателя.

Основными объектами классификации и кодирования являются процессы, протекающие в экономической системе, место, время выполнения процессов, субъекты и объекты действия, отражаемые в справочных реквизитах-признаках экономических показателей. Например, к числу элементов можно отнести наименования материальных, трудовых, денежных, энергетических ресурсов, основных средств, готовой продукции и услуг. К числу процессов относятся наименования функций управления, деловых процессов, операций поступления сырья и материалов, отпуска их в производство, производства и выпуска готовой продукции или оказания услуг, процессов выполнения заказов, обслуживания клиентов, хранения, реализации готовой продукции, расчетов с поставщиками и покупателями, получения оплаты за реализованную продукцию и т.д.

К числу объектов классификации и кодирования относятся также наименования показателей и документов. Помимо этого к числу объектов классификации и кодирования относят также наименования компонент проекта ИС, в том числе файлов, задач, подсистем, программных модулей и др.

Целью разработки классификаторов является установление соответствия между значениями справочных или описательных признаков какого-либо элемента или процесса и значениями группировочных признаков, например, между значением реквизита «Фамилия И.О. рабочего» и значением «Табельный номер» рабочего или между значениями «Наименование материала» и «Код материала».

Для кодирования объектов необходимо их упорядочить по некоторым признакам. Результат упорядоченного распределения объектов заданного множества носит название классификации, а совокупность правил распределения объектов множества на подмножества носит название системы классификации. Процесс распределения объектов классификации в соответствии с принятой системой классификации носит название процесса классифицирования. То свойство или характеристика объекта классификации, которое позволяет установить его сходство или различие с другими объектами классификации носит название признака классификации. Множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам носит название классификационной группировки.

Основанием классификации называется тот признак, по которому ведётся разбиение множества на подмножества на определенной ступени классификации. Ступень классификации - это результат очередного распределения объектов одной классификационной группировки. Уровень классификации - это совокупность классификационных группировок, расположенных на одних и тех же ступенях классификации. Глубина системы классификации - это количество уровней классификации, допустимое в данной системе.

Каждая система классификации характеризуется следующими свойствами:

· гибкостью системы,

· ёмкостью системы,

· степенью заполненности системы (коэффициент заполненности).

Гибкость системы - это способность допускать включение новых признаков, объектов без разрушения структуры классификатора. Гибкость определяется временем жизни (Тж) системы.

Емкость системы - это наибольшее количество классификационных группировок, допускаемое в данной системе классификации (Р).

Степень заполненности системы определяется с помощью коэффициента заполненности - К зап, который рассчитывается как частное от деления фактического количества группировок (Qф) к величине ёмкости системы (Р):

К зап = тема 6. проектирование информационного обеспечения ис и ит - student2.ru

В настоящее время чаще всего применяются два типа систем классификации: иерархическая и многоаспектная.

Характерными особенностями иерархической системы являются:

- наличие в системе неограниченного количества признаков классификации;

- соподчинённость признаков классификации, что выражается в разбиении каждой классификационной группировки, образованной по одному признаку, на множество классификационных группировок по нижестоящему (подчинённому) признаку.

При построении иерархической системы классификации сначала выделяется некоторое множество объектов, подлежащее классифицированию - (Мо), (где Mо={х1, х2 ,..., хi, ..., хn} – мощность классифицируемого множества),для которого определяется полное множество признаков классификации (R) (где r1, r2,...-признаки классификации) и их соподчиненность друг другу, затем производится разбиение исходного множества объектов на классификационные группировки на каждой ступени классификации (см. рисунок 35).

При использовании иерархической системы классификации необходимо соблюдать следующие ограничения:

- получающиеся на каждом уровне классификационные группировки должны составлять исходное множество объектов - Мо;

- классификационные группировки Хjk на каждой ступени не должны пересекаться;

- классификация на каждой ступени должна проводиться только по одному признаку (R).

К положительным сторонам данной системы следует отнести логичность, простоту ее построения и удобство логической и арифметической обработки.

тема 6. проектирование информационного обеспечения ис и ит - student2.ru

Рисунок 35 - Схема построения иерархической системы классификации.

Однако эта система характеризуется жёсткой структурой классификации, не позволяющей вносить новые признаки или изменять их последовательность. Гибкость этой системы обеспечивается только за счёт ввода большой избыточности в ветвях, что приводит к слабой заполненности структуры классификатора.

Недостатки, отмеченные в иерархической системе, отсутствуют в других системах, которые относятся к классу - многоаспектных систем классификации. Аспект - точка зрения на объект классификации, который характеризуется одним или несколькими признаками. Многоаспектная система - это система классификации, которая использует параллельно несколько независимых признаков (аспектов) в качестве основания классификации. Существует два типа многоаспектных систем: фасетная и дескрипторная. Фасет – это аспект классификации, который используется для образования независимых классификационных группировок. Дескриптор - ключевое слово, определяющее некоторое понятие, которое формирует описание объекта и даёт принадлежность этого объекта к классу, группе и т.д.

Фасетная система характеризуется следующими особенностями построения:

· имеется некоторое множество классифицируемых объектов (Мо);

· это множество можно рассматривать в нескольких аспектах, каждый из которых может характеризоваться одним или несколькими признаками, образующими фасет - Фr;

· устанавливается некоторый порядок следования фасетов с помощью фасетной формулы (при этом последовательность фасетов определяется по частоте обращения к этим фасетам на некотором множестве заданных задач): F = (Ф1, Ф2, ..., Фr, ..., ФR),

· определяется количество подмножеств классификационных группировок, число которых определяется числом задач, обращающихся при своем решении к тем или иным фасетам (см. рисунок 36).

Внутри фасета значения признаков могут просто перечисляться по некоторому порядку или образовывать сложную иерархическую структуру, если существует соподчинённость выделенных признаков.

 
  тема 6. проектирование информационного обеспечения ис и ит - student2.ru

Рисунок 36 - Схема построения фасеткой системы классификации

К преимуществам данной системы следует отнести большую ёмкость системы и высокую степень гибкости, поскольку при необходимости можно вводить дополнительные фасеты и изменять их место в формуле. К числу недостатков, характерных для данной системы можно отнести сложность структуры и низкую степень заполненности системы.

Рассмотренные выше системы классификации хорошо приспособлены для организации поиска с целью последующей логической и арифметической обработки информации на ЭВМ и лишь частично решают проблему содержательного поиска экономической информации при принятии управленческих решений. Это объясняется далеко не полным охватом этими системами всех понятий и терминов, используемых для выражения смысла экономических показателей и документов. Помимо этого, в этих системах не решается проблема обеспечения однозначности используемой терминологии, идентификации роли отдельных терминов в их общей последовательности при формировании наименований экономических показателей. К числу недостатков этих систем классификации можно отнести также и то, что в них не отражаются все отношения между терминами, необходимые для формализации содержания показателей и документов и установления взаимосвязей между показателями и документами, используемых на этапе принятия управленческих решений.

Для поиска показателей и документов по набору содержательных признаков используется информационный язык дескрипторного типа, который характеризуется совокупностью терминов, дескрипторов, или лексикой, и набором отношений между терминами. Эти отношения могут быть двух типов:

· постоянные логические отношения между терминами, вытекающие из отношений между отображаемыми объектами, которые называются парадигматическими отношениями;

· переменные отношения между понятиями, возникающие в процессе построения конкретного высказывания, например, показателя, называемые синтагматическими отношениями.

Парадигматические отношения между терминами отражают статику языка. К числу этих отношений относятся, например, родовидовые отношения. При этом родовым называется термин или понятие, выражающее существенные признаки класса предметов, в состав которого входят предметы, являющиеся видами этого рода. Видовое понятие выражает существенные признаки подкласса предметов, являющегося видом какого-либо другого класса предметов и входящего в состав этого класса. Например, понятие «машинный носитель» является родовым по отношению к понятиям «жесткий магнитный диск», «гибкий диск» и т.д. Отношения этого типа отражаются в классификаторах экономической информации.

Синтагматические отношения составляют грамматику этого языка, т.е. правила построения высказываний из набора терминов или понятий. Такие отношения используются в динамике при вводе данных и формулировании запросов.

В зависимости от того, на каком этапе фиксируются все возможные выражения, языки делятся на предкоординированные и посткоординируемые. Предкоординированными называются языки, в которых на стадии разработки выделяются все высказывания в терминах этих языков и тем самым заранее определяются постоянные отношения между терминами. Для посткоординируемых языков характерна предварительная фиксация лишь постоянных отношений. Все высказывания образуются при использовании лексики данного языка и его грамматики. Языки предкоординированного типа менее гибки при использовании, так как с их помощью можно описывать только те выражения, которые были заранее зафиксированы. Использование посткоординированных языков позволяет образовывать с их помощью значительно большее число высказываний.

Наиболее типичным примером предкоординированных языков являются классификационные языки, основанные на использовании иерархической и многоаспектной систем классификации, преимущества и недостатки которых были рассмотрены ранее. К числу языков классификационного типа можно отнести разрабатываемый ныне общесистемный классификатор технико-экономических показателей (ОКТЭП). Этот классификатор представляет собой способ упорядоченного представления системы показателей и средства их взаимной увязки на основе многоаспектной классификации этих показателей, которая должна отражать наиболее существенные с точки зрения народного хозяйства методологические особенности их расчета, взаимосвязи показателей, наиболее важные признаки группировки показателей и их поиска в ИС.

Общим недостатком информационных языков классификационного типа является их слабая приспособленность к новым, заранее не предусмотренным условиям функционирования систем, возможность составления запросов на этих языках регламентированного содержания. Эти недостатки отсутствуют у языков посткоординированного типа, к числу которых относятся дескрипторные языки, основанные на применении метода «координатного» или ассоциативного индексирования.

Согласно идее координатного индексирования предполагается, что содержание документов или показателей можно достаточно полно и точно отразить с помощью списка ключевых слов - дескрипторов. Дескриптор – это термин естественного языка (слово или словосочетание), используемый при описании документов или показателей, который имеет самостоятельный смысл и неделим без изменения своего значения. Например, показатель «Количество продукции, выработанное фактически цехом за смену», записанный на естественном языке, при использовании метода координатного индексирования будет иметь вид: «Количество, продукция, выработка, фактический, цех, смена».

Для того чтобы обеспечить точность и однозначность поиска с помощью такого языка, необходимо предварительно определить все постоянные отношения между терминами: родовидовые, отношения синонимии, омонимии и полисемии, а также ассоциативные отношения. Характеристика родовидовых отношений была дана выше. Особый вид парадигматических отношений представляют отношения синонимии, омонимии и полисемии, всегда присутствующие в естественных языках.

Синонимия – это отношение между двумя и более различными ключевыми словами, когда они имеют одинаковое значение, обозначают один и тот же предмет или понятие. Можно выделить синонимы с одним корнем, но с различным морфологическим составом (например, «производство» и «произведено»), с различными корнями (например, «издержки» и «расходы»). К синонимам относятся также термины, которые могут существовать как в полном, так и в сокращенном виде, например, «научно-исследовательские работы» и «НИР», «кубические метры» и «куб. м.».

Омонимия – это такое отношение между одинаковыми по звучанию и написанию ключевыми словами, когда они имеют разное значение и обозначают разные предметы и понятия. Можно выделить термины, обозначающие такие разные понятия, объемы которых не пересекаются, и называемые полными омонимами. Например, термин «прокат» используется в двух различных смыслах: «прокат тонкой листовой стали» и «сдача предметов во временное пользование», поэтому он относится к числу полных омонимов. Однако встречаются термины, обозначающие разные понятия, объемы которых пересекаются. Такие термины называются частичными омонимами. Явление частичной омонимии носит название полисемии.

Большое значение для построения дескрипторного языка имеет выявление и фиксирование ассоциативных отношений между терминами, которые позволяют выдавать более точные ответы на запросы пользователей. К числу ассоциативных отношений относят такие, как: отношение части к целому (например, «цех»—«участок»), причинно-следственные отношения (например, «прогул»—«невыполнение»), связи предмета и процесса (например, «план»—«планирование») и др.

Все выделенные отношения явно описываются в систематическом словаре понятий – тезаурусе, который разрабатывается с целью проведения индексирования документов, показателей и информационных запросов.

В свою очередь дескрипторные языки различаются по семантической силе, которая определяется тем, какой объем сведений может индексироваться с их применением. Семантическая сила языка зависит от числа типов постоянных отношений, фиксируемых в тезаурусе, а также от наличия средств грамматики и степени их сложности. В соответствие с этим признаком дескрипторные языки подразделяются на языки без грамматики, языки с неполной грамматикой и языки с развитой грамматикой. При этом языки первого вида содержат только словари используемых ключевых слов и тезаурусы. В языках с неполной грамматикой помимо словарей и тезаурусов имеются правила взаимосвязи только некоторых категорий терминов. Языки с развитой грамматикой позволяют описывать с помощью всех средств сложные высказывания.

В том случае, если объектом поиска в ИС является документ, для этих целей используют информационные языки дескрипторного типа без грамматики. При необходимости хранения и осуществления поиска экономических показателей проектировщики отдают предпочтение языкам второго и третьего типа.

Наши рекомендации