Информационно-поисковый язык. Рубрикатор, его формирование. Дескрипторные ИП языки. Методы обработки входной информации в документальных ИПС.
Информационно-поисковым языком (ИПЯ) называется специализиро ванный искусственный язык, предназначенный для описания основпого смыслового содержания поступающих в систему сообщений, с целью обеспечения возможности последующего их поиска.
ИПЯ создается на базе ЕЯ, однако отличается от него компактностью, наличием четких грамматических правил и отсутствием семантической неоднозначности. ИПЯ принято разбивать на два основных типа:классификационные языки,
дескрипторные языки.Классификационные языки Принципиальная разница между данными типами языков заключен;! в процедуре построения предложений (фраз) языка. В ряде языков в их лексический состав наряду со словами, выражающими простые пони тия, заранее включены также словосочетания и фразы, выражающие сложные понятия. Для записи смыслового содержания сообщений м таких ИПЯ используются только отдельные элементы из этого набора, в том числе и готовые сложные понятия. Фактически построение сложных синтаксических конструкций заменяется выбором соответствую. с помощью таких языков производится классификация сообщений, т.е. отнесение их к классам, обозначенным лексическими единицами (ЛЕ) ИПЯ. Поэтому такие языки получили название классификационных.
Частным случаем классификационного ИПЯ является рубрикатор, лексическими единицами которого являются названия тематических рубрик,. В целом подрубрикатором.некоторой предметной области понимается ориентированный граф, состоящий из независимых деревьев. Листья деревьев будем называть рубриками — объектами, инкапсулирующими знания о конкретных фрагментах данной предметной области. Все нелистовые вершины меяются классификационными родово-видовыми обобщениями листовых нершин и используются лишь при ведении информационного поиска. Обычно рубрикатор формируется группой экспертов, на основании их знаний о предметной области с учетом информационных потребностей пользователей.
В дескрипторных ИПЯ ЛЕ заранее не связаны никакими текстуальными отношениями. Сложные синтаксические конструкции — предложения или фразы — создаются в этих языках путем объединения ЛЕ во время процедуры представления смыслового содержания документов системы. Готовых предложений или фраз в таких языках нет, поэтому отсутствуют ограничения на составление сложных пони
Фактически из небольшого числа ЛЕ данные языки позволяют строи > предложения, выражающие практически любой смысл. Такие ИПЯ носят также названиепосткоординируемых, поскольку координация между словами предложения возникает во время его записи.
Различают дескрипторные ИПЯ с грамматикой и без грамматики. Первые характеризуются наличием рядажестких правил формировании синтаксических конструкций. В дескрипторных ИПЯ без грамматики такие правила отсутствуют, и порядок следования ЛЕ в ПОД или ПП не играет роли. Кроме того, различают дескрипторные ИПЯ с контролируемой и се свободной лексикой. Лексический состав первых строго ограничен и ia фиксирован в словаре ИПЯ, в то время как на лексический состав вторых не налагается никаких ограничений, и он может постоянно пополняться за счет включения новых ЛЕ.
Поскольку документы, поступающие на вход ДИПС, записаны на ЕЯ в ней обязательно должна проводиться операция перевода текстов вход ных документов с ЕЯ на ИПЯ. Тип используемого ИПЯ оказывает сильное влияние на суть процессов обработки информации в конкретных ДИПС. В случае применения ИПЯ дескрипторного типа такая операция перевода называется индексированием, при использовании рубрикатора — рубрицированием.На сегодняшний день среди дескрипторных ИПЯ наибольшее распространение в автоматизированных ДИПС получили языки без грамматики и без контроля по словарю, При их использовании говорят о полнотекстовом индексировании.
В операции перевода можно выделить два этапа:
1. Анализ смыслового содержания текста с целью выделения из него сведений об известных системе объектах, их свойствах, а также отношениях между ними. 2. Выражение этих сведений на ИПЯ, т.е. принятие решения о приписывании данному сообщению выражений на ИПЯ (о включении соответствующих выражений на ИПЯ в ПОД).
Этап анализа смыслового содержания текста связан с необходимостью использования лингвистических и экстралингвистических знаний. Лингвистические знания являются общими для одного языка и на сегодняшний день являются достаточно хорошо формализованными, в то время как экстралингвистические сильно зависят от конкретной предметной области, а задача их формализации является одной из самых сложных. В этой связи в современных ДИПС этап анализа текста чаще всего сводится к лингвистическому анализу, проводимому с целью нормализации слов и словосочетаний. Под нормализацией слов понимается их приведение к канонической форме (например, для существительных — именительному падежу, единственному числу и т.п.)