Документально-информационный поиск и информационно-поисковые системы
Под информационным поиском в таких системах понимается некоторая последовательность операций, выполняемых с целью отыскания документов (статей, научно-технических отчетов, описаний к авторским свидетельствам и патентам, книг и т.д.), содержащих определенную информацию (с последующей выдачей самих документов или их копий), или с целью выдачи фактических данных, представляющих собой ответы на заданные вопросы .
Массив элементов информации, в котором производится информационный поиск, был условно назван поисковым массивом.
Процесс поиска документов может быть формализовано описан в терминах теории множеств следующим образом: D - некоторое множество документов или библиотека (поисковый массив); Q - множество информационных запросов; R -отношение, свойство, при наличии которого любому q Î Q ставится в соответствие подмножество D’ Ì D, называемое ответом на информационный запрос.
Очевидно, что прочитать каждый документ библиотеки, чтобы найти необходимый, практически невозможно. Поэтому на протяжении истории развития информационного поиска разрабатывались и совершенствовались различные методы поиска.
Прежде всего, каждому документу, вводимому в поисковый массив, ставится в соответствие поисковый образ документа (ПОД), который представляет собой характеристику, отражающую основное смысловое содержание документа (этим ПОД отличается от кода, присваиваемого информационному элементу в фактографических информационных системах типа СОД и АИС).
В виде такой же краткой характеристики - поискового предписания или поискового образа запроса (ПОЗ) должен быть сформулирован и информационный запрос. Благодаря этому процедура поиска может быть сведена к простому сопоставлению поисковых образов документов с поисковым предписанием.
Однако такое сопоставление допустимо лишь в случае, если ПОД и ПОЗ описаны в терминах единого языка.
Для реализации процедуры описания и документов и запросов с помощью ПОД и ПОЗ разрабатывают информационно-поисковые языки (ИПЯ), которые имеют различные возможности (разновидности и характеристики ИПЯ будут рассмотрены ниже).
Простейшим ПОД может являться заглавие документа, переписанное в форме перечня входящих в него слов. При этом необходимо установить некоторые правила типа включения в ПОД существительных в единственном числе и именительном падеже, глаголов - в неопределенной форме или в виде отглагольных существительных и т.п. правил, общих для формирования ПОД и ПОЗ.
В более развитых вариантах для уточнения содержания документа можно в качестве ПОД использовать аннотацию или реферат документа, также переписанные в виде перечня входящих в них слов с учетом некоторых правил, общих для формирования ПОД и ПОЗ.
Поскольку в практических условиях реализации ИПС число слов, включаемых в ПОД и ПОЗ, не должно быть слишком большим, вводится понятие ключевые слова, которые являются наиболее значимыми для отображения содержания документа.
Некоторые идеологи информационного поиска (например, Ч.Мидоу) отождествляли понятия ключевое слово и дескриптор. Однако в дальнейшем эти понятия стали использоваться в разном смысле.
В дальнейшем для отображения ПОД и ПОЗ стали разрабатываться информационно-поисковые языки (ИПЯ). Подробнее проблемы формирования ПОД и ПОЗбудут рассмотрены ниже, в разделе “Информационно-поисковые языки”.
Для сопоставления ПОД и ПОЗ - разрабатывают и применяют различные критерии поиска или критерии смыслового соответствия (КСС), также более подробно рассматриваемые ниже.
Точность поиска определяется точностью отображения документов и запросов с помощью их поисковых образов и степенью совпадения ПОД и ПОЗ. Поэтому возможна неполнота выдачи документов, либо, напротив, “поисковый шум”, которые представляют собой своеобразную плату за облегчение процедуры информационного поиска.
Для оценки качества поиска вводят специальные критерии. Обобщенные критерии качества поиска - релевантность и пертинентность.
Под релевантностью понимается соответствие выдачи запросу, т. е. релевантность характеризует качество алгоритма поиска.
Под пертинентностью понимается соответствие выдачи потребностям лица (или лиц), для которого (которых) осуществляется поиск информации, т. е. пертинентность характеризует смысловыражающие возможности ИПЯ, точность отображения с его помощью информационных потребностей.
Под информационно-поисковой системой первоначально понималась некоторая совокупность или комплекс связанных друг с другом отдельных частей, предназначенных для выявления в каком-либо множестве элементов информации (документов, сведений и т. д.), которые отвечают на информационный запрос, предъявляемый к системе.
В соответствии с выделением в ИПС абстрактного и конкретного уровней и с учетом особенностей хранения документальной информации (библиотеки, архивы и т. п. хранилища) процедуру информационного поиска документальной информации было предложено разделить на два контура :
1) семантическое осмысление запроса и выдача адресов (шифров, кодов), соответствующих запросу документов; на рисунке этот контур показан сплошными линиями;
2) отыскание самих документов (вручную или с помощью специализированных технических средств, если ими оборудовано хранилище); на рисунке - штриховые линии.
Второй контур связан с разработкой специализированных технических средств хранения больших массивов документов и работой по переоборудованию хранилищ, а собственно проблемы информационного поиска решаются в первом контуре.
С учетом вышерассмотренного первый контур ИПС состоит из трех основных блоков: информационно-поискового языка, системы перевода (индексирования) на этот язык и логики,обеспечивающей поиск, которые, в свою очередь, могут быть детализированы и реализованы разными способами. Представление ИПС в виде двух контуров является в настоящее время наиболее распространенным.