Координатное индексирование

Новая технология пришла в информационный поиск в виде метода координатного индексирования, разработанного в США в 50-е гг. прошлого века математическим логиком М. Таубе и работником службы химической информации К. Муэрсом. Этот метод основан на предположении, что основное смысловое содержание любого документа и информационного запроса можно выразить при помощи набора терминов, по большей части содержащихся в самом индексируемом документе. Эти термины получили название ключевых слов. Если, к примеру, нужно индексировать документ, в котором говорится о защите от коррозии лопаток газовых турбин, то совокупность терминов "турбина", "газ", "лопатки", "коррозия", "защита" и будет служить поисковым образом документа. Эти ключевые слова образуют для данного документа как бы координатную сетку, по которой в дальнейшем ведется информационный поиск по соответствующему запросу.

Преимущества данного метода очевидны. Прежде всего, информационные работники и потребители информации освобождаются от жестких рамок классификационных схем и перечней предметных рубрик. Индексирование новых документов ведется без оглядки на отраженные в них потенциальные и часто уже устаревшие запросы специалистов. С другой стороны, индексирование освобождается от субъективизма - ключевые слова выбираются формально. Эту работу, в принципе, можно поручить автомату. Во многих современных информационно-поисковых системах оператор вводит в машину библиографические данные документа, его реферат (аннотацию, резюме), а иногда и наиболее информативные части текста (например, первый и последний абзацы статьи, которые содержат наибольшее число терминов, относящихся к ее содержанию). Эти элементы текста можно просто отсканировать. При помощи "запретительного" списка служебных и общезначимых слов, введенных в компьютер, осуществляется автоматический отбор ключевых слов, которые программно приводятся к нормальному виду (единственное число именительного падежа существительных и прилагательных, инфинитив глаголов). Это существенный шаг к автоматизации ввода информации в информационно-поисковую систему.

При поиске необходимой информации специалист может формулировать свой запрос в виде цепочки терминов, на пересечении которых и окажется большинство документов, содержащих необходимую информацию. При этом потребитель может произвольно менять стратегию поиска в зависимости от оценки его промежуточных результатов. Если документов по запросу мало или нет в системе, можно снять из запроса какие-либо ключевые слова (в приведенном выше примере "газ" и "защита"). Тогда система выдаст документы более широкого содержания о коррозии лопаток турбин, в которых все же может содержаться нужнаяинформация. В случае если документов по запросу слишком много, можно добавить ключевые слова, ограничивающие поиск, например, определенным классом турбин или же конкретными методами защиты их лопаток от коррозии. В этом уже заключен важный элемент возможности диалога с системой при помощи слов естественного языка.

Основные достоинства этого принципиально нового подхода к раскрытию содержания документов и поиску информации заключаются в том, что он позволяет находить информацию по любому, заранее не предвиденному сочетанию признаков. Кроме того, при появлении совершенно новых направлений исследований можно вести поиск во всем массиве документов, ранее индексированных по этому методу. Традиционные методы таких возможностей не предоставляли.

Было бы несправедливо умолчать о том, что достоинства нового метода приходится оплачивать преодолением дополнительных трудностей. Прежде всего, поиск с использованием естественного языка ограничивает его рамками знакомых пользователю языков. Чтобы расширить этот круг, приходится прибегать к словарям. Затем, каждый естественный язык отличается богатством своего словарного состава - слова, одинаковые по написанию, могут иметь разный смысл (многозначность, омонимия), а одно и то же понятие может выражаться разными терминами (синонимия). Запросив информацию о косах, вы получите сведения не только о сельскохозяйственных орудиях, но и о географических объектах, а может быть, и о прическах. Желая получить документы о транзисторах, следует помнить, что они могут также называться полупроводниками.

Термины находятся в сложных взаимоотношениях между собой, выражают более узкие или более широкие понятия, могут быть связанными по сходству, по контрасту или по другим ассоциациям. Чтобы иметь возможность учитывать это при поиске, приходится составлять на каждом языке специальные понятийные справочники (тезаурусы). В них для каждого понятия (класса условной эквивалентности) выбирается один термин - дескриптор, а для остальных слов указывается их связь с дескриптором.Тезаурусы иногда называют дескрипторными словарями, а сам поиск с их использованием - дескрипторным. Кроме словарей, для поиска по ключевым словам и дескрипторам часто создают специальную грамматику. Необходимость в ней вызывается возникновением ложной координации терминов, ошибочным их сочетанием. В ответ на запрос

можно получить не только необходимую информацию о покрытии медных труб свинцом, но и о покрытии свинцовых труб медью.

Курьеза ради следует упомянуть, что метод координатного индексирования для поиска информации, явившийся принципиальным шагом к новой информационной технологии, на самом деле новшеством не был. В 1915 г. он был реализован на перфокартах американским орнитологом Т. Тейлором при составлении определителя птиц, а у Б. Виккери возникло предположение, что шумерские врачи еще в III тысячелетии до н. э. пользовались диагностическими устройствами, работавшими по этому принципу. На глиняных клинописных плитках записывались симптомы болезней, а под каждым из них - названия болезней, при которых эти симптомы встречаются. Совокупность симптомов составляла координатную сетку, а совпадающие для всех симптомов названия болезней - наиболее вероятные недуги больного.

Из этого понятно, что информационно-поисковые системы, основанные на принципе координатного индексирования, могут быть реализованы простейшими средствами ручного обращения. Система "унитермкарт" самого М. Таубе представляла собой особым образом организованную картотеку, позволявшую легко сличать номера документов, чтобы выявить совпадающие номера для заданных терминов ("унитермов"). Первые информационно-поисковые системы такого типа часто создавались на просветных перфокартах. Однако подлинный размах создание координатных, по большей части дескрипторных систем получило, когда они стали использовать компьютеры второго поколения. В 60-е -70-е годы на базе крупнейших в мире реферативных служб были созданы мощные автоматизированные информационные системы, которые предназначались для ускорения выпуска информационных изданий и расширения спектра информационных услуг, а затем стали основными генераторами документальных баз данных на магнитных лентах.

Наши рекомендации