Поиск информации в сети Интернет
Интернет предоставляет в распоряжение пользователей огромное число информационных ресурсов. Одних только Web-документов в сети Интернет несколько миллиардов. А ведь в Интернете размещаются не только гипертекстовые документы, но и программы, изображения, звуковые файлы и т.п.
Основные протоколы, используемые в Интерне, не обеспечены достаточными встроенными функциями поиска, не говоря уже о миллионах серверах, находящихся в ней. Протокол HTTP, используемый в Интернет, хорош лишь в отношении навигации, которая рассматривается только как средство просмотра страниц, но не их поиска. Тоже самое относится и к протоколуFTP, который даже более примитивен, чем HTTP. Из-за быстрого роста информации, доступной в Сети, навигационные методы просмотра быстро достигают редела их функциональных возможностей, не говоря уже о пределе их эффективности. Не указывая конкретных цифр, можно сказать, что нужную информацию уже не представляется возможным получить сразу, так как в Сети сейчас находятся миллиарды документов и все они в распоряжении пользователей Интернет, к тому же сегодня их количество возрастает согласно экспоненциальной зависимости. Количество изменений, которым эта информация подвергнута, огромно и, самое главное, они произошли за очень короткий период времени. Основная проблема заключается в том, что единой полной функциональной системы обновления и занесения подобного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не было. Для того, чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить ее пользователей удобными средствами поиска необходимых им данных, были созданы поисковые системы.
Поисковые системы (SearchTools) размещаются в Интернете на общедоступных серверах и представляют собой специализированные Web-узлы. Пользователь сообщает системе данные о содержании искомой Web-страницы, а система выдает ему список гиперссылок на страницы, соответствующие запросу. Поисковые системы работают бесплатно. Экономическую основу их деятельности обеспечивает высокий (по сравнению с другими сервисами) коэффициент возврата клиентов.
Существует две модели, на которых основана работа поисковых систем: поисковые (тематические) каталоги и поисковые машины.
1. Поисковые (тематические) каталоги
Поисковые (тематические) каталоги устроены по тому же принципу, что и тематические каталоги крупных библиотек. Обратившись к поисковому каталогу, можно найти на его главной странице список крупных тематических категорий (основных рубрик), например, таких как «Бизнес и экономика» (Business&Economy) или «Новости и средства массовой информации» (News&Media).
Каждая запись в списке категорий – это гиперссылка. Щелчок по ней открывает следующую страницу поискового каталога, на которой данный раздел (рубрика) представлен более подробно, например, по подразделам: "Предпринимательское право", "Реклама и маркетинг", "Электронная коммерция" и др. Продолжая погружение в тему, можно дойти до списка сайтов и конкретных Web-страниц.
Количество поисковых каталогов в мире сравнительно невелико. Это связано с высокой трудоемкостью их содержания и обслуживания. Поисковые каталоги создаются вручную. Высококвалифицированные редакторы лично просматривают информационное пространство WWW, отбирают наиболее важные ресурсы по каждой из тем и заносят их (адреса и краткие описания) в каталог. Крупнейший поисковый каталог мира – Yahoo!.
Общий объем каталогизированных Web-ресурсов невелик и составляет чуть более миллиона Web-страниц, т.е. менее одной десятой доли процента от всех ресурсов WWW. Несмотря на столь низкий коэффициент охвата, поисковые каталоги пользуются огромной популярностью. Это объясняется тем, что форма представления и методы упорядочения материала выгодно отличают их от других поисковых систем. Все сайты здесь разложены «по полочкам», и, найдя нужный подраздел, мы получаем, как правило, несколько сайтов по заданной теме.
Поисковые каталоги принято использовать для первичного, реферативного поиска информации. Они обеспечивают поиск классических, наиболее содержательных ресурсов.
Дополнительной возможностью поисковых каталогов является поиск заданных слов в названиях разделов каталога, а также в заголовках и описаниях ресурсов. Для этого следует набрать в поле поиска нужные слова и нажать кнопку поиска (Search).
Проблемы, которые в настоящее время испытывают поисковые каталоги, связаны со стремительным ростом Интернета. Редакторам трудно следить не только за новыми сайтами, но и за старыми, уже включенными в каталог. Их адреса постоянно меняются. Поэтому в любом каталоге значителен процент «мертвых ссылок» – адресов, ведущих в никуда.
2. Поисковые машины (автоматизированные индексы)
Поисковая машина - это апаратно-программный комплекс, осуществляющий быстрый поиск необходимой информации внутри сервера или интернет-ресурса. Основа поисковой машины у всех поисковых систем примерно одинаковая. Как правило, это поисковый бот, необходимый для индексации и поиска сайта, программное обеспечение, отвечающее за составление каталога запроса и ранжирование результатов о релевантности поискового запроса. Поисковые машины обеспечивают поиск актуальной, уникальной и специальной информации, которая не охвачена и не может быть охвачена поисковыми каталогами. Они имеют многократно больший коэффициент охвата ресурсов WWW (до 20%), так как процесс наполнения базы данных поисковых машин автоматизирован. Разумеется, при этом значительно падает качество ссылок, предоставляемых этими системами по результатам поиска, но одновременно увеличивается их количество. Многие крупные поисковые системы держат в секрете содержание своей поисковой машины. Ключевым отличием является база проиндексированных сайтов, релевантность и учет морфологии языка запроса. Все это в совокупности и определяет критерий качества работы поисковых машин.
Классифицируется поисковая машина по области поиска информации:
1. Локальный поиск. Предназначен для осуществления оиска информации о какой-либо части всемирной сети, например, о одному или нескольким сайтам, либо о локальной сети. Примером служит поисковый скрипт на сайте или внутренние серверы крупных компаний.
2. Глобальный поиск. Предназначен для поиска информации о сети Интернет, либо о региональной части, группе сайтов и т.д. Глобальный поиск используют крупные поисковые системы Яндекс, Google, Yahoo и т.д.
Поисковые машины осуществляют различный поиск информации о сети Интернет. Например, картинки, музыка, географическое положение, личная информация и т.д. Файлы, с которыми работает поисковая машина, могут быть разных форматов (например, html,.htm,.txt,.doc,.rtf, …), графического (.gif, .png, .svg, …) или мультимедийного (видео, звука и другой информации). Но наиболее распространенным является поиск о текстовым документам (web-страницы, документы в формате doc, rtf, txt и др.). Поиск по изображениям, видео, звукам более сложен с технологической точки зрения, поэтому массово не реализован. Такие системы, как, например, Яндекс.Картинки искали не по самим изображениям, а по альтернативным текстам, соответствующим этим изображениям. А каталог поиска картинок в компании Google составляется вручную, что увеличивает релевантность запроса, но тормозит обновление баз изображений.
Основной принцип работы поисковой машины заключается в поиске Web-ресурсов по ключевым словам. Пользователь описывает искомый документ с помощью ключевых слов, после чего дает задание на поиск. Поисковая система просматривает свою базу данных и выдает список гиперссылок на Web-страницы, соответствующие запросу. Вместе с гиперссылками выдаются краткие сведения о найденных ресурсах (заголовки, адреса и описания документов) и отрывки (цитаты) из документов, где встречаются искомые слова, на основании которых пользователь может выбрать нужные ему ресурсы.
Работу поисковой машины условно можно разделить на 2 этапа. Первый этап является подготовительным и незаметен для пользователя. На этом этапе специальные программы - роботы, известные также как «пауки» (spiders) или «черви» (crawlers), в автоматическом режиме обследуют информационное пространство WWW. Следуя по гиперссылкам, роботы разыскивают в сети Web-ресурсы и, если они системе не известны, копируют их в свою базу данных. Одновременно производится обновление уже известных документов, но измененных за время после предыдущего копирования
В дальнейшем базы данных проходят предварительную обработку, называемую индексацией.В результате индексации создаются поисковые указатели или индексы.Простейший тип индекса – это словарь, в который входят все слова, встреченные при просмотре Web-ресурсов. Против каждого слова приводится список ссылок, указывающих на местоположение соответствующих ресурсов в базе данных. При обслуживании запросов пользователей просмотр поискового указателя происходит очень быстро, так как он предварительно отсортирован по алфавиту.
На втором этапе осуществляется взаимодействие с пользователем. Пользователь задает ключевые слова. Поисковая система создает список. Результирующий список подвергается фильтрации и ранжированию. Под фильтрациейпонимается отсев ссылок, которые выдавать нецелесообразно. Прежде всего, проверяется наличие дубликатов. Ранжированиезаключается в создании специального порядка представления результирующего списка, при котором наиболее «полезные» (с точки зрения поисковой системы) ссылки приводятся в начале списка, а наименее «полезные» – в его конце.
Упорядочение результирующего списка по степени соответствия содержания найденных документов поисковому запросу называют сортировкойпо релевантности.Стандартную сортировку результатов выполнения запроса можно заменить сортировкой по дате обновления страниц.
В результирующем списке все найденные документы группируются, как правило, по серверам (сайтам). Альтернативной является группировка по страницам.
Сегодня в мире существует около 10 тысяч поисковых машин. К наиболее известным зарубежным поисковым машинам относятся: AltaVista, NorthernLight, Lycos, HotBot, Google и некоторые другие. В России в настоящее время действуют три примерно одинаковых по мощности поисковых машины: Апорт, Рамблер (Rambler) и Яндекс (Яndex).
Разные поисковые системы могут использовать разные информационные технологии для обработки запросов пользователей. Для того чтобы эффективно выполнять поиск информации, надо знать достоинства и недостатки каждой из этих систем и хотя бы в общих чертах понимать принципы их работы.
Русские поисковые машины специально ориентированы на русскоязычные ресурсы сети. Они осуществляют поиск документов в русской части Интернета – Рунетеи, как правило, отличаются большей полнотой охвата и глубиной исследования этих ресурсов. Русскоязычные системы работают с учетом морфологии русского языка, то есть учитывают все грамматические формы искомых слов.
В универсальных поисковых системах (таких как AltaVista) для поиска русскоязычных документов нужно установить соответствующий язык поиска и кодировку браузера. В противном случае поисковые системы смогут найти ключевые слова только в тех документах, кодировка которых совпадает с кодировкой запроса. Для этого на главной странице этих систем есть специальная ссылка CustomizeSettings (Настроить установки).
Важными показателями качества поисковых машин являются: объем базы данных (количество документов), скорость обхода сети (с ней связана скорость обновления информации в базе данных), алгоритм индексации (только по ключевым словам Web-страниц или по всему тексту, с учетом морфологии языка или без учета, с поиском в зонах документа: заголовке, ссылках, подписях к изображениям или без поиска и др.), а также дополнительные возможности поиска (расширенный поиск, поиск похожих документов, ограничение области поиска), удобный пользовательский интерфейс и справочная система.
В настоящее время в развитии поисковых систем наблюдается тенденция объединения поисковых машин и поисковых каталогов. Ресурсы этих систем удачно дополняют друг друга, и объединение их возможностей вполне логично.