Поиск информации в Интернет
Существует мнение, что информация — это еще одна форма материи. В самом деле: информацию можно добывать и перерабатывать, покупать или продавать, в конце концов, ее можно просто украсть. Если вы полагаете, что для сбора всех необходимых данных вам потребуется только подключенный ко Всемирной сети персональный компьютер и полчаса времени, значит, вы никогда не пробовали разыскать нужные вам позарез данные в Интернете.
На практике оказывается, что найти в этой глобальной информационной системе то, из чего она, собственно, и состоит, — информацию, задача отнюдь не простая. То, что Всемирная сеть представляет собой гигантское хранилище, содержащее сотни тысяч гигабайтов разнообразных электронных сведений, только усложняет дело.
Поисковые системы
Поисковые системы (их называют также поисковыми машинами) — это полностью автоматизированные интерактивные сервисные службы, осуществляющие поиск информации в Интернете по введенному пользователем текстовому запросу. Рассмотрим подробнее принцип действия поисковых машин.
Создав и разместив в сети Интернет какой-либо web-сайт, разработчик регистрирует его адрес в поисковой системе, иными словами — вносит URL стартовой странички этого сайта в поле на поисковом сервере, предназначенное для регистрации новых «поступлений». Вслед за этим специальная программа поисковой машины, называемая роботом или слайдером (от англ. spider — паук), просматривает данный документ, проходит по всем обнаруженным на нем гиперссылкам и вносит информацию об обнаруженных страницах в базу данных поисковой системы, которая носит название индекса. Этот процесс называется индексацией web-страниц. Как правило, индекс поискового сервера содержит только адреса web-страниц и краткую «аннотацию», поясняющую их содержимое, почерпнутую из текста самих индексируемых документов. Спустя определенное время робот автоматически проводит пере- индексацию, чтобы удалить из базы данных устаревшие и более недействительные ссылки.
Пользователь, обращаясь к услугам поисковой машины, просто вводит в поле текстового запроса ключевые слова или некую ключевую фразу, характеризующую предмет его интересов, после чего нажимает кнопку «Искать». По данной команде поисковый сервер передает управление другой программе, которая называется поисковым механизмом. Эта программа сравнивает введенные пользователем ключевые слова с содержимым индекса, выявляя возможные соответствия.
Однако качество работы большинства поисковых систем все же не идеально, и релевантность предоставляемых ими отчетов зачастую оставляет желать лучшего. Поисковый механизм — неживой человек, и какие бы совершенные эвристические методы анализа информации не были в нем заложены, понимание многозначности некоторых слов и свойственное нам интуитивное восприятие разговорной речи ему, увы, недоступно.
Интерактивные каталоги
В отличие от полнофункциональных поисковых систем, интерактивные каталоги не располагают собственным роботом или слайдером. Администратор сервера вносит информацию о зарегистрированных ресурсах в базу данных каталога вручную, причем ссылки на эти ресурсы структурируются по тематическим разделам. Описания зарегистрированных сайтов также, как правило, создают владельцы каталога или разработчики web-страниц, вследствие чего они значительно более подробны, чем аннотации, автоматически генерируемые роботом. В остальном схема поиска данных в интерактивном каталоге ничем не отличается от случая с использованием поисковой системы: практически все подобные серверы оснащены вполне современным поисковым механизмом, позволяющим искать информацию как по всей базе данных каталога, так и в отдельных его разделах (рис. 2.2).
Эффективный поиск информации
Прежде чем обращаться к ресурсам поисковой машины, чтобы «откопать» ту или иную опубликованную в Интернете информацию, необходимо четко определить, что именно вы собираетесь «копать». Для этого существует простой алгоритм, который позволит вам сэкономить массу времени и более эффективно организовать работу с поисковой службой.В первую очередь постарайтесь дать краткую, но четкую и исчерпывающую характеристику предмету ваших поисков одним-двумя словами. Эта характеристика должна наиболее полным образом отвечать на следующие вопросы:
Информацию о чем именно будут содержать искомые документы?
Чем именно является предмет поисков?
Как только предмет ваших поисков описан, попытайтесь придумать для него три-пять других, менее точных, но все же соответствующих его сути определений.