Дескрипторная система классификации
Для поиска показателей и документов по набору семантическихпризнаков используется дескрипторная, т. е. описательная, системаклассификации, получившая широкое применение в библиотечнойсистеме поиска. Эта система имеет собственный информационный(дескрипторный) язык, очень похожий на естественный язык описания информационных объектов. Он характеризуется совокупностьютерминов (ключевых слов и дескрипторов) и набором отношениймежду этими терминами.
Дескриптор– это термин (слово или словосочетание) естественного языка, используемый при описании объектов (показателей и(или) документов), имеющий конкретный самостоятельный смысли неделимый без изменения этого смысла.
Содержание (семантика) документов или показателей может достаточно полно и точно представляться списком ключевых слови дескрипторов.
Для обеспечения точности и однозначности поиска с помощьюдескрипторного языка необходимо определить постоянные отношения между используемыми терминами. Обязательному определениюподлежат следующие виды отношений:
1) родовидовые отношения, отражающие иерархическую организацию системы терминов;
2) отношение синонимии, выражающее семантическую эквивалентность терминов разных по написанию;
3) отношение омонимии, выражающее семантическое различие одинаковых по написанию терминов; при этом должно быть справедливоутверждение: A∨ (B ∧ C), где A, B, C – следующие утверждения:
A – термины являются разными частями речи (например, этосуществительное и глагол) в естественном языке; B – термины не имеют общих семантических оттенков; C – термины не имеют общего исторически изначальногосмысла;
4) отношение полисемии, выражающее, как и отношение омонимии, семантическое различие одинаковых по написанию терминов, но при этом должно быть справедливо иное утверждение где
5) ассоциативные отношения, объединяющие термины, обладающие общими свойствами, в одну группу (класс).
Помимо перечисленных отношений в современных системах дескрипторной классификации учитываются отношения антонимии, паронимии, гипонимии, гиперонимии и т. д.
Все выделенные отношения явно описываются в систематическомсловаре понятий – тезаурусе, который разрабатывается в целях проведения индексирования документов, показателей и информационных запросов.
В Яндекс-словаре представлены следующие определения.
Тезаурус– в научно-информационной деятельности нормативный словарь ключевых слов и дескрипторов (словарных единиц) в виде слов, словосочетаний или кодов, называющих класс условнойэквивалентности, в который включены эквивалентные и близкиепо смыслу ключевые слова.
Ключевое слово– слово (словосочетание) из текста документа, которое несет в данном тексте существенную смысловую нагрузку и может служить ключом при поиске соответствующей информации.
Дескриптор– лексическая единица языково-поисковой системы, выбираемая при индексировании не из обрабатываемого текста, а из специального словаря; от ключевого слова отличается смысловой однозначностью.
В тезаурусе определены внеконтекстные отношения дескрипторов и ключевых слов. Предназначен он для того, чтобы удовлетворять информационные запросы и выполнять координатное индексирование, т. е. индексировать перечислением ключевых слов илидескрипторов.
Правила разработки, структура, состав и форма представления тезауруса определены в ГОСТ 7.25–2011 (для одноязычного тезауруса[5] и ГОСТ 7.24–2007 (для многоязычного тезауруса.
Дескриптор– это одно из ключевых слов, принадлежащих однойгруппе синонимов, символизирующее некоторую конкретную семантику (некоторый конкретный смысл). Если в запросе на поискинформации размещается некоторый дескриптор, то это вызываетвовлечение в поиск всех синонимов этого дескриптора.
Дескрипторные языки различаются по семантической силе, определяемой объемом сведений, который может индексироваться с применением этих языков. Семантическая сила языка зависит от количества видов постоянных отношений, фиксируемых в тезаурусе, а такжеот наличия средств грамматики и степени их сложности.
По указанным признакам дескрипторные языки подразделяютсяна три группы:
1) языки без грамматики;
2) языки с неполной грамматикой;
3) языки с развитой грамматикой.
Если предметом поиска в ИС являются документы, то для реализации поисковых механизмов используются информационныеязыки первой группы – без грамматики. Для реализации механизмов поиска экономических показателей используются языки второйи третьей групп.