Информационно-поисковый язык. Рубрикатор, его формирование. Дескрипторные ИП языки. Методы обработки входной информации в документальных ИПС.

Информационно-поисковым языком (ИПЯ) называется специализиро ванный искусственный язык, предназначенный для описания основпого смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности последующего их поиска.

ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности. ИПЯ принято разбивать на два основных типа:классификационные языки,

дескрипторные языки.Классификационные языки Принципиальная разница между данными типами языков заключен;! в процедуре построения предложений (фраз) языка. В ряде языков в их лексический состав наряду со словами, выражающими простые пони тия, заранее включены также словосочетания и фразы, выражающие сложные понятия. Для записи смыслового содержания сообщений м таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором соответствую. с помощью таких языков производится классифика­ция сообщений, т.е. отнесение их к классам, обозначенным лексичес­кими единицами (ЛЕ) ИПЯ. Поэтому такие языки получили название классификационных.

Частным случаем классификационного ИПЯ является рубрикатор, лек­сическими единицами которого являются названия тематических рубрик,. В целом подрубрикатором.некоторой предметной области понимается ори­ентированный граф, состоящий из независимых деревьев. Листья деревьев будем называть рубриками — объектами, инкапсулирующими знания о кон­кретных фрагментах данной предметной области. Все нелистовые вершины меяются классификационными родово-видовыми обобщениями листовых нершин и используются лишь при ведении информационного поиска. Обычно рубрикатор формируется группой экспертов, на основании их знаний о предметной области с учетом информационных потребнос­тей пользователей.

В дескрипторных ИПЯ ЛЕ заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции — предложения или фразы — создаются в этих языках путем объединения ЛЕ во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных пони

Фактически из небольшого числа ЛЕ данные языки позволяют строи > предложения, выражающие практически любой смысл. Такие ИПЯ носят также названиепосткоординируемых, поскольку координация между словами предложения возникает во время его записи.

Различают дескрипторные ИПЯ с грамматикой и без грамматики. Первые характеризуются наличием рядажестких правил формировании синтаксических конструкций. В дескрипторных ИПЯ без грамматики такие правила отсутствуют, и порядок следования ЛЕ в ПОД или ПП не играет роли. Кроме того, различают дескрипторные ИПЯ с контролируемой и се свободной лексикой. Лексический состав первых строго ограничен и ia фиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограничений, и он может постоянно пополняться за счет включения новых ЛЕ.

Поскольку документы, поступающие на вход ДИПС, записаны на ЕЯ в ней обязательно должна проводиться операция перевода текстов вход ных документов с ЕЯ на ИПЯ. Тип используемого ИПЯ оказывает сильное влияние на суть процессов обработки информации в конкретных ДИПС. В случае применения ИПЯ дескрипторного типа такая опера­ция перевода называется индексированием, при использовании рубри­катора — рубрицированием.На сегодняшний день среди дескрипторных ИПЯ наибольшее рас­пространение в автоматизированных ДИПС получили языки без грам­матики и без контроля по словарю, При их использовании говорят о полнотекстовом индексировании.

В операции перевода можно выделить два этапа:

1. Анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также от­ношениях между ними. 2. Выражение этих сведений на ИПЯ, т.е. принятие решения о при­писывании данному сообщению выражений на ИПЯ (о включении соответствующих выражений на ИПЯ в ПОД).

Этап анализа смыслового содержания текста связан с необходимос­тью использования лингвистических и экстралингвистических знаний. Лингвистические знания являются общими для одного языка и на се­годняшний день являются достаточно хорошо формализованными, в то время как экстралингвистические сильно зависят от конкретной пред­метной области, а задача их формализации является одной из самых сложных. В этой связи в современных ДИПС этап анализа текста чаще всего сводится к лингвистическому анализу, проводимому с целью нор­мализации слов и словосочетаний. Под нормализацией слов понимается их приведение к канонической форме (например, для существительных — именительному падежу, единственному числу и т.п.)



Наши рекомендации