Системы классификации информации
Для кодирования объектов необходимо их упорядочить по некоторым признакам. Результат упорядоченного распределения объектов заданного множества носит название классификации, а совокупность правил распределения объектов множества на подмножества называется системой классификации. Процесс распределения объектов классификации в соответствии с принятой системой классификации носит название процесса классифицирования. То свойство или характеристика объекта классификации, которое позволяет установить его сходство или различие с другими объектами классификации, называется признаком классификации. Множество или подмножество, объединяющее часть объектов классификации по одному или нескольким признакам, носит название классификационной группировки.
Основанием классификации называется признак, по которому ведется разбиение множества на подмножества на определенной ступени классификации. Ступень классификации – это результат очередного распределения объектов одной классификационной группировки. Уровень классификации – это совокупность классификационных группировок, расположенных на одних и тех же ступенях классификации. Глубина системы классификации – это количество уровней классификации, допустимое в данной системе.
Каждая система классификации характеризуется следующими свойствами:
ü гибкостью;
ü емкостью;
ü степенью заполненности (коэффициент заполненности).
Гибкость системы – это способность допускать включение новых признаков, объектов без разрушения структуры классификатора. Гибкость определяется временем жизненного цикла Т системы.
Емкость системы – это наибольшее количество классификационных группировок, допускаемое в данной системе классификации Р.
Степень заполненности системы К определяется как частное от деления фактического количества группировок Q на величину емкости системы (Р):
. (3.1)
В настоящее время чаще всего применяются два типа систем классификации: иерархическая и многоаспектная.
Характерными особенностями иерархической системы являются:
ü наличие в системе неограниченного количества признаков классификации;
ü соподчиненность признаков классификации, что выражается разбиением каждой классификационной группировки, образованной по одному признаку, на множество классификационных группировок по нижестоящему (подчиненному) признаку.
При построении иерархической системы классификации сначала выделяется некоторое множество объектов, подлежащих классифицированию М, для которого определяются полное множество признаков классификации G и их соподчиненность друг другу; затем производится разбиение исходного множества объектов на классификационные группировки на каждой ступени классификации (рис. 3.3).
При использовании иерархической системы классификации необходимо соблюдать следующие ограничения:
ü получающиеся на каждом уровне классификационные группировки должны составлять исходное множество объектов М;
ü классификационные группировки Х на каждой ступени не должны пересекаться;
ü классификация на каждой ступени должна проводиться только по одному признаку G.
К положительным сторонам данной системы следует отнести логичность, простоту ее построения и удобство логической и арифметической обработки.
Однако эта система характеризуется жесткой структурой классификации, не позволяющей вносить новые признаки или изменятьих последовательность. Гибкость этой системы обеспечивается только за счет ввода большой избыточности в ветвях, что приводит к слабой заполненности структуры классификатора.
Рис. 3.3.Схема построения иерархической системы классификации
Недостатки, отмеченные в иерархической системе, отсутствуют в других системах, которые относятся к классу многоаспектных систем классификации.
Многоаспектная система – это система классификации, которая использует параллельно несколько независимых признаков (аспектов) в качестве основания классификации. Существуют два типа многоаспектных систем: фасетная и дескрипторная.
Фасет – это аспект классификации, который используется для образования независимых классификационных группировок.
Дескриптор – это ключевое слово, определяющее некоторое понятие, которое формирует описание объекта и дает принадлежность этого объекта классу, группе и т.д. Дескрипторные системы классификации наибольшее применение находят в документальных информационных
системах.
Фасетная система характеризуется следующими особенностями построения:
ü имеется некоторое множество классифицируемых объектов М;
ü это множество можно рассматривать в нескольких аспектах, каждый из которых может характеризоваться одним или несколькими признаками, образующими фасет Ф;
ü устанавливается некоторый порядок следования фасетов с помощью фасетной формулы (при этом последовательность фасетов определяется по частоте обращения к этим фасетам на некотором множестве заданных задач): F = (Ф1, Ф2, …, ФR);
ü определяется количество подмножеств классификационных группировок, число которых определяется числом задач, обращающихся при своем решении к тем или иным фасетам (рис. 3.4).
Рис. 3.4. Схема построения фасетной системы классификации
Внутри фасета значения признаков могут просто перечисляться по некоторому порядку или образовывать сложную иерархическую структуру, если существует соподчиненность выделенных признаков.
К преимуществам данной системы следует отнести большую емкость системы и высокую степень гибкости, поскольку при необходимости можно вводить дополнительные фасеты и изменять их место.
К недостаткам, характерным для данной системы, можно отнести сложность структуры и большую длину кода при использовании соответствующей системы классификации.
Рассмотренные выше системы классификации хорошо приспособлены для организации поиска с целью последующей логической и арифметической обработки информации на ЭВМ.