Виды информационно-поисковых систем
Для информационно-поисковых систем научно-технической информации разрабатывали различные классификации:
по признаку “в и д ы д о к у м е н т а л ь н ы х И С” (собственно информационно-поисковые системы, информационно-логические системы, информационно-семантические системы);
по в и д а м И П Я ( ИПЯ, а соответственно и ИПС без грамматики и с грамматикой, ИПЯ с различными видами парадигматических и синтагматическим отношениям и т. п.);
по в и д а м с т р у к т у р ИПС (ИПС иерархической структуры, в которых все лексические единицы ИПЯ связаны сильными парадигматическими отношениями подчинения и соподчинения и образуют в совокупности иерархическую классификацию, имеющую вид древовидного графа или дерева понятий; ИПС фасетной структуры, в которых лексические единицы ИПЯ предварительно группируются в фасеты, а иерархические отношения устанавливаются внутри фасетов; ИПС неиерархической структуры, в которых лексические единицы ИПЯ упорядочивают по внешним признакам, например, в алфавитном порядке.
В отличие от документальных, фактографических и документально-фактографических ИПС 1-го вида, которые могут по запросам выдавать только такую информацию, которая была ранее в них введена, информационно-логические системы представляют собой информационные системы более высокого класса: они должны выдавать не только ранее введенную в них информацию, но и производить, если необходимо, логическую переработку этой информации с целью получения новой информации, которая в явном виде не вводилась в ИС.
Понятие о процедуре индексирования.Процедура перевода с естественного языка на ИПЯ называют индексированием. Результатом такого перевода является ПОД (при вводе документов в ИПС) или ПОЗ (при индексировании запроса пользователя).
Процедура индексирования связана с большими затратами труда документалиста-индексатора, и при неалгоритмическом характере весьма трудоемка и ограничивает семантические возможности даже потенциально мощных ИПЯ. Поэтому, естественно, начиная с первых ИПС ведутся исследования возможности автоматизации этого процесса.
Проблема индексирования связана с семантическим анализом текстов документов. Сложность ее связана с тем, что индексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени.
Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или ПОЗ наиболее значимых ключевых слов, дескрипторов, фраз (в зависимости от лексических единиц ИПЯ).
Важность можно определить несколькими признаками:
* статистически, т.е. на основе частоты использования термина в документе;
* на основе высказываний автора (или его мнения, отраженного в заглавии документа или подзаголовках, выделяемых автором в документе);
* с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в контексте;
* по критериям важности, сформулированным пользователем, для чего при индексировании документов могут быть указаны весовые коэффициенты дескрипторов.
Система индексирования конкретной ИПС в основном определяется возможностями ИПЯ, имеющимися в нем лексическими и синтаксическими средствами. Однако есть и некоторые специфические правила и рекомендации, исследование которых позволило выявить некоторые разновидности систем индексирования.
Типы систем индексирования.Существуют различные типы систем индексирования:
1. К первому типу относят системы свободного индексирования.
При этом способе из индексируемого документа выписываются в ПОД слова или словосочетания, которые, отражают содержание индексируемого документа. Кроме этого, элементами ПОД могут быть слова, отсутствующие в этих элементах, но отражающие более точно смысл его текста с точки зрения целей создания ИПС. Выписанные элементы упорядочиваются в алфавитном порядке. Такой упорядоченный набор слов (словосочетаний) представляет собой ПОД при этом типе индексирования. Аналогично - из текста запроса пользователя формируется ПОЗ.
Такой процесс индексирования является принципиально неалгоритмическим, т. е. неавтоматизируемым.
2. При втором методе, который условно называют методом полусвободного индексирования, из документа выписывают слова и словосочетания вначале так же, как и при свободном индексировании.
Однако выписанные элементы сравнивают затем с фиксированным словарем, не найденные в нем - устраняют, а оставшиеся, упорядочиваемые в алфавитном порядке, представляют собой ПОД (или ПОЗ).
3. Третий способ индексирования основан на статистическом подходе.
Выбор слов (выражений) исходного текста, подлежащих включению в ПОД, производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющие семантических значений. При этом предлагались различные статистические критерии, основанные на сопоставлении относительной частоты употребления слова в документе и относительной частоты употребления слова в представительном массиве документов (т. е. в репрезентативной статистической выборке).