Дескрипторная система классификации.
Для организации поиска информации, для внедрения тезаурусов (словарей) эффективно используется дескрипторная (описательная) система классификации, язык которой приближается к естественному языку описания информационных объектов. Особенно широко она используется в библиотечной системе поиска.
Суть дескрипторного метода классификации заключается в следующем:
отбирается совокупность ключевых слов или словосочетаний, описывающих определенную предметную область или совокупность однородных объектов. Причем среди ключевых слов могут находиться синонимы;
выбранные ключевые слова и словосочетания подвергаются нормализации, т.е. из совокупности синонимов выбирается один или несколько наиболее употребимых;
создается словарь дескрипторов (пример), т.е. словарь ключевых слов и словосочетаний, отобранных в результате процедуры нормализации.
Между дескрипторами устанавливаются связи, которые позволяют расширить область поиска информации. Связи могут быть трех видов:
синонимические, указывающие некоторую совокупность ключевых слов как синонимы;
родо-видовые, отражающие включение некоторого класса объектов в более представительный класс;
ассоциативные, соединяющие дескрипторы, обладающие общими свойствами.
Пример. Синонимическая связь: студент - учащийся - обучаемый.
Родо-видовая связь: университет - факультет - кафедра.
Ассоциативная связь: студент - экзамен - профессор - аудитория.
16. Кодирование ─ это процесс присвоения условных обозначений объектам и классификационным группам по соответствующей системе кодирования. Система кодирования ─ это совокупность правил обозначения объектов и группировок с использованием кодов. Код ─ это условное обозначение объектов или группировок в виде знака или группы знаков в соответствии с принятой системой. Код базируется на определенном алфавите (некоторое множество знаков). Число знаков этого множества называется основанием кода. Различают следующие типы алфавитов: цифровой, буквенный и смешанный.
К регистрационным системам относятся порядковая и серийная системы кодирования .
Порядковая система ─ это наиболее простая по своему построению система кодирования, суть использования которой заключается в последовательном присвоении каждому объекту кодируемого множества Мо номера его порядка, т.е. в присвоении цифр натурального ряда в порядке расположения объектов. Этот порядок может быть случайным или определяться после предварительной группировки объектов, например, по алфавиту. Как правило, порядковую систему применяют для кодирования малозначных, устоявшихся и простых множеств объектов, не требующих предварительной классификации.
Серийная (серийно -порядковая ) система кодирования отличается от порядковой тем, что номенклатура кодируемых объектов Мо предварительно должна быть разбита на группировки по одному признаку и каждой группировке должна быть отведена серия кодовых обозначений, в пределах которой каждому элементу присваивается свой код по порядку. Серия обозначений для каждой группировки определяются таким образом, чтобы после присваивания кодов элементам этой группы в ней оставались бы еще свободные номера на случай появления новых объектов.
Классификационные коды используют для отражения классификационных взаимосвязей объектов и группировок и применяются в основном для сложной логической обработки экономической информации на ЭВМ, отсюда вытекают требования: однозначности отображения классификационных взаимосвязей объектов и их группировок и обеспечение максимальной простоты программирования. Группу классификационных систем кодирования можно разделить на две подгруппы в зависимости от того, какую систему классификации используют для упорядочения объектов.
Последовательные системы кодирования характеризуются тем, что они базируются на предварительной классификации по иерархической системе классификации, в результате использования которой коды нижестоящих группировок образуются путём добавления кодов к кодам вышестоящих группировок .
Параллельные системы кодирования характеризуются тем, что они строятся на основе использования фасетной системы классификации, и коды группировок по фасетам формируются независимо друг от друга.
Последовательные и параллельные системы кодирования строятся на базе разрядной или комбинированной систем кодирования .
Разрядная система применяется для кодирования объектов, определяемых несколькими соподчиненными признаками, используемыми для решения экономических задач. Кодируемые объекты систематизируются по классификационным признакам на каждой ступени классификации, каждому признаку отводится определенное число разрядов, в пределах которых кодирование группировок начинается с единицы. При разрядной системе кодирования имеет место так называемое "зависимое " кодирование. Это значит, что классификационные группировки по младшим признакам кодируются в зависимости от кода группировки, образованной по старшему признаку. Запас свободных позиций определяется структурой кода.
Код объекта, построенный по этой системе, состоит из такого числа позиций (или числа групп разрядов), сколько было учтено признаков для объектов, поэтому разрядная система кодирования называется иногда позиционной системой. Конкретное значение признака, характеризующего объект, определяется позицией и значением определенного числа в структуре кода. Длина кода зависит от числа ступеней классификации, от числа классификационных группировок на каждой ступени и от основания кодирования.
Комбинированная система кодирования, обладая всеми преимуществами разрядного кода, применяется для кодирования больших номенклатур (перечней ) объектов, которые характеризуются многими соподчиненными или независимыми признаками. Эта система базируется на сочетании принципов построения таких систем кодирования, как разрядная, серийная, порядковая и кода повторения.
Код повторения (мнемокод) ─ это буквенные или буквенно-цифровые коды, которые характеризуются тем, что в структуру кода переносят часть символьных обозначений объектов с целью повышения мнемоничности кода или для сокращения его длины.
Выбор конкретной системы кодирования зависит от объема кодируемой номенклатуры, ее стабильности, от задач, стоящих перед системой, и от показателей эффективности обработки информации при использовании какой-либо системы.