Выявление информативных частей документа

Технология АИ должна предусматривать идентификацию и предоставление индексатору или программе индексирования наиболее информативных фрагментов документа из списка, указанных в 5.1. Могут быть предусмотрены алгоритмы выявления информативных фрагментов по другим формальным критериям, а также по решению специалиста-индексатора.

Идентификация слов текста

10.5.1 Процесс идентификации слов текста должен включать в себя отождествление словоформ одного слова и определение ключевых слов текста. При этом может быть необходимо использование интеллектуальных процедур для решения таких задач, как выявление и обработка синтаксических конструкций, выявление и разрешение омонимии.

10.5.2 Для идентификации слов текста используют машинные словари (словари основ, парадигм, словосочетаний и т.д.). Словари должны быть представлены в базе данных системы и обеспечены средствами визуализации и ведения.

Формирование списка ключевых слов текста

10.6.1 В процессе формирования списка ключевых слов текста проводят синтаксический анализ текста с учетом правил сочетаемости грамматических категорий данного естественного языка.

10.6.2 Синтаксический анализ текста решает задачи:

а) разделение текста на фрагменты по заданным критериям;

6) установление синтаксических зависимостей между словоформами текста;

в) отождествление словосочетаний;

г) нормализация выявленных ключевых слов.

Автоматическое формирование ПОД

10.7.1 В процедуре АИ допускается формирование ПОД из свободных ключевых слов или дескрипторов информационно-поискового тезауруса, используемого в данной области.

10.7.2 При АИ дескрипторами информационно-поискового тезауруса на этапе формирования ПОД происходит замена ключевых слов на дескрипторы, указанные в тезаурусе.

10.7.3 При формировании ПОД из дескрипторов рекомендуется обогащать ПОД за счет пополнения вышестоящими терминами информационно-поискового тезауруса.

10.7.4 Процедура АИ должна предусматривать включение в ПОД типовых грамматических средств (см. раздел 8).

10.7.5 К системам АИ предъявляются следующие требования:

- модульность построения (внутренняя организация лингвистического и программного обеспечений системы, при которой процедуры решения отдельных задач АИ реализуются с помощью самостоятельных блоков или модулей);

- ориентация на типовые программные и технические средства;

- соответствие действующим нормативно-методическим документам по координатному индексированию.

Приложение А
(справочное)

Схема индексирования по информационно-поисковому тезаурусу

А.1 Изучить документ и составить перечень существенных для его содержания понятий с учетом специфики ИПС.

А.2 Рассмотреть первое понятие.

А.3 Найти в тезаурусе лексическую единицу, отражающую данное понятие. Если таковой нет, то перейти к А.11.

А.4 Если найденная лексическая единица - аскриптор, то заменить ее указанным в ссылке дескриптором (или комбинацией дескрипторов).

А.5 Рассмотреть ссылки, указанные в тезаурусе для данного дескриптора (дескрипторов).

А.6 Проверить, не являются ли указанные в ссылках дескрипторы более специфичными для выражения данного понятия. Если да, то перейти к А.10.

А.7 Записать найденные лексические единицы в поисковый образ, снабдив их необходимыми грамматическими показателями по правилам данного ИПЯ.

А.8 Проверить, имеются ли еще не отраженные в поисковом образе понятия из документа, и рассмотреть следующее понятие. Перейти к А.3.

А.9 Если список понятий документа исчерпан, то окончить работу.

А.10 Заменить исходный дескриптор более специфичными согласно указанию ссылки в тезаурусе. Перейти к А.7.

А.11 Найти в тезаурусе дескрипторы, совместное включение которых в поисковый образ отражает данное понятие. Если таковых нет, то перейти к А.12, если есть - к А.5.

А.12 Установить термин, выражающий понятие и удовлетворяющий требованиям к дескрипторам по ГОСТ 7.25.

А.13 Направить найденный термин в службу ведения ИПЯ в качестве кандидата на включение в тезаурус. Перейти к выполнению А.7.

Ключевые слова: индексирование, координатное индексирование, информационно-поисковый тезаурус, лексическая единица, информационно-поисковый язык, ключевое слово, дескриптор.

Наши рекомендации