Теория и практика информационно-поисковых систем 203



в информационном компоненте Корпуса текстов по современной россий­ской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста (внутри публицистиче­ского стиля) [Баранов, Михайлов, Сидоров 1998]. Как и в классических вариантах языков классификационного типа, в качестве элементов фа-сетных ИПЯ могут выступать символьные выражения (коды), но часто используются и лексические элементы естественного языка с унифици­рованной морфологической формой. Каждый параметр (аспект) клас­сификации называется фасетом. Совокупность фасетов, используемая для индексирования документа, называется схемой классификации. Впо­исковом образе документа последовательность и состав фасетов строго фиксированы. Они образуют фасетную формулу(см. рис. 1).

Рис. 1.Структура документа в информационном компоненте Корпуса текстов по современной российской публицистике

Теория и практика информационно-поисковых систем 203 - student2.ru

Страсбург кружит им голову. Они ходят по нему, расправив плечи, осво­бодившись от комплексов и раскрепостившись. Иногда даже кажутся симпа­тичными. Плакаты, расклеенные по всему Страсбургу, утверждают, что этот маленький французский город — столица Европы. Впрочем, основания для та­ких утверждений хорошо известны любому здешнему обитателю. Именно здесь, в провинциальном городке с большой судьбой, который в течение нескольких веков служил причиной распрей между Францией и Германией, неоднократно переходил из рук в руки, а в конце второй мировой войны едва не был стерт с лица земли в результате ошибочного налета французской авиации, обитают на протя­жении послевоенного времени самые крупные и авторитетные общеевропейские институты (...).

Большинство российских парламентариев, делегированных фракциями Ду­мы в Парламентскую ассамблею Совета Европы, еще недавно казались принци­пиально необучаемыми и неприспособленными к такого рода деятельности, тре­бовавшей специальных знаний, усидчивости, умения аргументированно и внятно выразить и защитить свою точку зрения, терпимости к мнению оппонента. Они были неисправимо косноязычны, ставя в тупик даже вышколенных здешних переводчиков, они вечно попадали впросак: то выступали невпопад, то их не ока­зывалось на месте, когда приходил черед выступать, потому что они, конечно, не успевали вовремя вернуться с «шопинга» (...).

В приведенном примере представлен довольно простой вариант фа-сетной классификации. В общем случае фасетные ИПЯ предполагают

достаточно разветвленное, подробное описание каждого фасета — иерар­хического дерева понятий. Фасетные классификации довольно сложны и в аспекте индексирования, и в аспекте организации информационного поиска, выборе критериев соответствия.

Иерархические классификации и языки фасетного типа получи­ли наибольшее распространение в ручном информационном поиске. В автоматизированных И ПС чаще используются дескрипторные инфор­мационно-поисковые языки.Тематика документа описывается совокупно­стью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Коли­чество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. Совокупность дескрипторов задает координаты документа в матрице — отсюда термин координатное индек­сирование.Часто в дескрипторном ИПЯналагаются ограничения на со­четаемость дескрипторов в ПОДе и ПП;в этом случае можно говорить о том, что ИПЯ обладает синтаксисом.

Одна из первых систем, работавших с дескрипторным языком, была американская система УНИТЕРМ, созданная М. Таубе. В качестве де­скрипторов в этой системе функционировали ключевые слова докумен­та — унитермы. Особенность этой ИПС заключается в том, что изначаль­но словарь информационного языка не задавался, а возникал в процессе индексирования документа и запроса. Такой способ организации ИПС оказался чрезвычайно гибким, поскольку с помощью унитермов — про­стых понятий проблемной области — можно было достаточно полно опи­сать любой документ. Например, сочетание унитермов «кадры» и «новый» давало возможность получить всю информацию о новых кадровых реше­ниях, а сочетание «мебель», «офис» позволяло получить документацию об офисной мебели. К сожалению, гибкость структуры первых дескрип-торных ИПЯ порождала проблему полноты и точности информационного поиска. Полисемия и синонимия естественного языка в полной мере да­вала себя знать в процессе индексирования документов и запросов: если из нескольких синонимов пользователь выбирал не тот синоним, который был представлен в ПОДе документа, то документ не выдавался ИПС.

На следующем этапе развития ИПЯ дескрипторного типа возни­кла технология лингвистического (другие варианты — лексического или словарного) контроля, заключавшегося в унификации языка индекси­рования запросов и документов. Наиболее удачной формой унифи­кации оказался дескрипторный словарь, в котором в эксплицитной форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем па­радигматическими отношениями получил название информационно-по­искового тезауруса (ИПТ).Объединение дескрипторов в рамках одного таксона в тезаурусе позволяло установить отношения квазисинонимии,

Наши рекомендации