Поиск информации в World Wide Web
Интернет предоставляет оперативный доступ к информации на любую тему, которая находится на сотнях тысяч информационных серверов. Очень часто у пользователя появляется необходимость найти сведения по какой-либо теме. Для этого предназначены специальные поисковые инструменты, которые позволяют найти документы, содержащие какие-либо конкретные слова.
Поисковая система представляет собой специализированный Web-узел. Пользователь сообщает поисковой системе данные о содержании искомой Web-страницы, а поисковая система выдает список гиперссылок на страницы, в которых упоминаются соответствующие сведения. Существует несколько моделей, на которых основана работа поисковых систем, но исторически две модели приобрели наибольшую популярность - это поисковые каталоги и поисковые указатели.
Поисковые каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Обратившись к поисковому каталогу, мы находим на его основной странице сокращенный список крупных тематических категорий, например, такие как, Технологии (Hi-Tech), как показано на примере поискового каталога Yandex (рис. 9.2).
Рис. 9.2. Пример поискового каталога Yandex
Каждая запись в списке категорий - это гиперссылка. Щелчок на ней открывает следующую страницу поискового каталога, на котором данная тема представлена подробнее, например, по предметам: Астрономия, Биология, География, Математика, Физика и многие другие. Щелчок на названии темы (например, Физика) открывает страницу со списком разделов (Астрофизика, Атомная физика, Гидродинамика, Механика и т.д.). Продолжая погружение в тему, можно дойти до списка конкретных Web-страниц и выбрать себе тот ресурс, который лучше подходит для решения задачи.
Работа с поисковыми каталогами интуитивно проста. В них поиск информации практически всегда завершается более или менее плодотворно. Однако за этой простотой скрывается высочайшая сложность создания и ведения каталога. Поисковые каталоги создаются вручную, коллективом высококвалифицированных редакторов. При этом общий объем каталогизированных Web-ресурсов невелик, а степень охвата общего объема ресурсов WWW непрерывно уменьшается.
Несмотря на низкий коэффициент охвата, поисковые каталоги пользуются огромной популярностью. Их принято использовать для первичного, реферативного поиска информации по заданной теме. Если для пользователя тема является совершенно новой и неисследованной, то ему, прежде всего, нужны указатели на классические, наиболее содержательные ресурсы, а именно это и обеспечивают поисковые каталоги. Человеческий фактор, связанный с тем, что над составлением каталога работают люди, а не программы, обеспечивает качественный отбор наиболее важных ресурсов по каждой теме.
Поисковые указатели. Автоматическую каталогизацию Web-ресурсов и удовлетворение запросов клиентов выполняют, так называемые, поисковые указатели. Из процесса наполнения базы данных поисковой системы исключается человеческий фактор. При этом значительно падает качество ссылок, предоставляемых системой по результатам поиска, но одновременно увеличивается их количество.
Основной принцип работы поискового указателя заключается в поиске Web-ресурсов по ключевым словам. Пользователь описывает искомый ресурс с помощью ключевых слов, после чего дает задание на поиск. Поисковая система анализирует данные, хранящиеся в своей базе, и выдает список Web-страниц, соответствующих запросу. Вместе с гиперссылками выдаются краткие сведения о найденных ресурсах, на основании которых пользователь может выбрать нужные ему ресурсы.
Разные поисковые указатели применяют разные информационные технологии обработки запросов пользователей. Чтобы эффективно выполнять поиск информации в WWW, надо хотя бы в общих чертах понимать принципы их работы.
Три этапа работы поискового указателя. Работу поискового указателя можно условно разделить на три этапа. Из них два этапа являются подготовительными, они незаметны для клиента, и лишь на третьем этапе происходит взаимодействие с пользователем, но от каждого из этапов зависят функциональные свойства поисковой системы и эффективность работы с ней.
1. Сбор первичной базы данных. На первом этапе поисковая система занимается сканированием информационного пространства World Wide Web. Для этого используют специальные агентские программы - черви. Не следует путать агентов поисковых систем с разновидностью сетевых компьютерных вирусов, тоже именуемых червями. Черви поисковых систем совершенно безобидны для серверов и клиентов WWW. По своей сути это очень эффективные малоразмерные браузеры. Им не надо выполнять функции просмотра и воспроизведения содержимого - их задача состоит только в том, чтобы автоматически разыскивать Web-ресурсы, следуя по гиперссылкам, и, убедившись, что этот ресурс системе еще не известен, копировать его в свою базу данных. Так же происходит и обновление ранее принятых документов, но измененных за время после предыдущего копирования.
2. Индексация базы данных. Собрать базу данных сетевых Web-ресурсов - еще не значит получить функционирующую поисковую систему. Поиск ключевых слов, введенных пользователем, в обширной базе - это весьма продолжительная операция. Чтобы не задерживать клиента более чем на доли секунды, собранные базы данных проходят предварительную обработку, называемую индексацией. На этапе индексации создаются специализированные документы - поисковые указатели.
3. Рафинирование результирующего списка. Это третий этап работы, в ходе которого осуществляется взаимодействие с пользователем. На этом этапе создается список ссылок, который будет передан пользователю в качестве результирующего. Пользовательское представление о качестве работы поисковой системы напрямую зависит от технологий, использованных на этом этапе.
Рафинирование заключается в фильтрации и ранжировании результатов поиска. Под фильтрацией понимается отсев ссылок, которые выдавать пользователю нецелесообразно. Прежде всего проверяется наличие дубликатов. Если система в одном списке выдает множество ссылок, ведущих к одному и тому же Web-ресурсу, это говорит о том, что ее средства добросовестно отработали два первых этапа, но ничего не сделали на третьем этапе. Дублирующиеся ссылки перегружают результирующий список и затрудняют выбор действительно полезных ресурсов.
Ранжирование заключается в создании специального порядка представления результирующего списка, при котором наиболее «полезные» (с точки зрения поисковой системы) ссылки приводятся в вершине списка, а наименее полезные - в его конце. Понимание критерия «полезности» для клиента той или иной ссылки может быть самым разнообразным. Именно поэтому разные поисковые системы, даже работающие с одинаковыми базами ресурсов, выдают разные результаты поиска.
Язык поисковых запросов на примере поисковой машины Rambler.
Поисковый запрос может состоять из одного или нескольких слов, в нём могут присутствовать знаки препинания. Составлять простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причём на ограниченном расстоянии друг от друга).
Однако знание и правильное применение языка запросов поисковой машины поможет сделать Ваш поиск быстрым и эффективным.
Регистр. В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть компьютер и КОМПЬЮТЕР, Money и money воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.
Например, если запрос состоит из двух, трёх или четырёх слов, каждое из которых написано с большой буквы, то предполагается поиск по имени собственному, и автоматически производится изменение ограничения расстояния между словами запроса со значения по умолчанию на величину (n-1)*2, где n - количество слов запроса. Это позволяет находить группу слов запроса, внутри которой есть не более одного «лишнего» слова или знака препинания, например «Баден-Баден», «А. Пушкин», «Федор Михайлович Достоевский».
Операторы. Запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.
Два запроса, соединённые оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу «монитор AND принтер» найдутся только те документы, которые содержат и слово «монитор», и слово «принтер».
Сложному запросу, состоящему из двух запросов, соединённых оператором OR (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу «монитор OR принтер» найдутся документы, в которых есть хотя бы одно из слов «монитор» или «принтер» (либо оба эти слова вместе).
Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу «монитор NOT принтер» будут все документы, в которых есть слово «монитор» и нет слова «принтер».
Если оператор явно не указан, используется оператор по умолчанию AND: находятся только документы, содержащие все слова запроса. Так, запрос «информация приказы МВД» будет истолкован как «информация AND приказы AND МВД». Операторы AND и OR имеют сокращенные обозначения:
Оператор | Сокращенное обозначение |
AND | & |
OR | | |
Запрос из нескольких слов, перемежающихся операторами, будет истолкован в соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.
Кавычки. Для поиска цитат можно использовать двойные кавычки. Слова запроса, заключённого в двойные кавычки, ищутся в документах именно в том порядке и в тех формах, в которых они встретились в запросе. Таким образом, двойные кавычки можно использовать и просто для поиска слова в заданной форме (по умолчанию слова находятся во всех формах). Например, запросу «самолёт "заправился" посадка» удовлетворяет документ, содержащий текст «... самолёт совершил посадку и заправился ...», и не удовлетворяет документ, содержащий «.. самолет совершил посадку, чтобы заправиться ...».
Метасимволы. Рамблер пока не поддерживает поиск строк с использованием метасимволов («*», «?»), которые обычно используются в значении «любая подстрока» и «произвольный одиночный символ», соответственно. Тем не менее, эти операторы зарезервированы для подобного использования в будущем.