Информационно-поисковый язык
Понятие об ИПЯ. Применение естественного языка для отображения ПОД и ПОЗ связано со значительными трудностями, обусловленными наличием в языке синонимов, омонимов и т.п. неоднозначностей использования терминов естественного языка. Поэтому на определенном этапе развития теории и практики создания ИПС вместо естественного языка стали применять искусственные информационно-поисковые языки - ИПЯ.
Существуют различные названия и определения специализированного языка, с помощью которого отражают основное содержание документов, вводимых в ИПС.
Такой язык называли вначале информационным языком (ИЯ), предъявляя к нему требование однозначной записи содержания документа; языком индексирования (index language), определяемым как совокупность или система символов или индексных терминов и правил их использования для выражения предметного содержания документов; документальным языком (language documentaire) и т.п.
В окончательном варианте понятийного аппарата теории информационного поиска утвердился термин информационно-поисковый язык (retrieval language).
Client (клиент)на этой схеме - это программа просмотра конкретного информационного ресурса. Наиболее популярны сегодня мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов WWW, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.
User interface (пользовательский интерфейс) - это не просто программа просмотра, в случае информационно-поисковой системы под этим словосочетанием понимают также способ общения пользователя с поисковым аппаратом: системой формирования запросов и просмотров результатов поиска.
Search engine (поисковая машина)- служит для трансляции запроса на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.
Index database (индекс базы данных) - индекс, который является основным массивом данных ИПС и служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.
Queries (запросы пользователя)- сохраняются в его (пользователя) личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно запоминать запросы, на которые система дает хорошие ответы.
Index robot (робот-индексировщик) - служит для сканирования Internet и поддержания базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.
WWW sites - это весь Internet или точнее - информационные ресурсы, просмотр которых обеспечивается программами просмотра.
Реальными носителями информации о ресурсах, которыми располагает Сеть, являются поисковые машины (автоматические индексы) и каталоги. В силу того, что они, хотя и различными средствами, самостоятельно обеспечивают все этапы обработки информации от ее получения с узлов-первоисточников до предоставления пользователю возможности поиска, их часто называют автономными системами.
Автономные поисковые системы могут различаться по принципу отбора информации, который в той или иной степени присутствует и в алгоритме сканирующей программы автоматического индекса, и в регламенте поведения сотрудников каталога, отвечающих за регистрацию. Как правило, сравниваются два основных показателя: пространственный масштаб, в котором работает ИПС, и ее специализация.
При формировании информационного массива поисковая система может следить за обновлением наперед заданного набора документов, каталогов или конечного числа узлов, отобранных по какому-либо принципу. Такие системы, реализованные в Интернете, несколько условно можно назвать локальными. Глобальные поисковые системы в отличие от локальных решают более трудоемкую задачу - по возможности наиболее полный охват ресурсов всего информационного поля Сети (WWW, FTP или другого), которое они обслуживают. Следствием этого становится возрастание роли механизма, который используется глобальной системой для постоянного увеличения числа подконтрольных узлов.
Построение региональных и специализированных поисковых сервисов предполагает активную фильтрацию информации.
Специализация поисковой системы на базе какого-либо профиля или тематики, будь то поиск людей и организаций, компьютерного "железа" или файлов мультимедиа в формате MP3, теоретически может происходить как на глобальной, так и на локальной основе. Разумеется, систему проще построить и сопровождать на ограниченном пространстве обновляемых узлов, что обычно и реализуется на практике.
Региональными поисковыми службами информация фильтруется в основном на основе распознавания домена верхнего уровня сервера, например, ru и su для России. Серьезным недостатком таких систем является неучет ими большого количества ресурсов, размещаемых региональными разработчиками в традиционно популярном домене com. Региональные мотивы нередко привносятся и в сервис глобальных ИПС. Система Lycos, например, ранжирует результаты из списка отклика в зависимости от того, из какого региона поступил запрос.
Организация поисковых сервисов Интернета.
Метапоисковые системы. Метапоисковая система может быть реализована как в самой Сети, например, на Telnet- или Web-доступном узле, так и в виде локальной клиентской программы (www.listsoft.ru, раздел "Программы-Поиск". Не обладая собственной индексной базой данных, метапоисковая система выступает в качестве шлюза, который передает через свой интерфейс запросы на автономные ИПС и возвращает результаты поиска.
Принцип работы метапоисковика заключается в следующем: запрос пользователя преобразуется в запросы, отформатированные синтаксически и логически в конструкции, оптимальные для каждого отдельного, "традиционного" поисковика, т. е. из одного запроса метапоисковый механизм делает ряд запросов, которые адресуются нескольким "обычным" поискам.
Таким образом, метапоисковые системы объединяют для достижения результатов индексы поисковых серверов различных специализаций. Одно из назначений метапоискового сервиса при поиске - тестирование Сети на предмет информации, релевантной запросу. Метасистемы позволяют также оценить результативность применения отдельных ИПС для решения конкретной поисковой задачи. К сожалению, для предметного и тонкого поиска метасистемы пока еще плохо применимы. Проблема заключается в том, что язык запросов мета-шлюза располагает лишь самыми общими для большинства ИПС, и поэтому крайне скромными возможностями. Появление проекта стандарта поисковых систем SESP в этом отношении открывает новые перспективы в развитии метасистем, поскольку стандартизация ИПС существенно расширит возможности шлюзования.