Тема 3. Информационные ресурсы и поиск в Интернет
В предыдущих разделах мы познакомились с основными приемами работы с броузером, гиперссылками, веб-страницами, а также с электронной почтой. Основная же цель данного курса – научиться осуществлять поиск и затем использовать информационные ресурсы Интернет в своей деятельности.
Общие сведения
Поиск информации является одной из наиболее распространенных и одновременно наиболее сложных задач, с которыми приходится сталкиваться в Сети любому пользователю.
Причина сложностей, возникающих при информационном поиске в Интернет, определяется двумя главными факторами. Во-первых, число источников в Сети чрезвычайно велико. В середине 2001 года самые приблизительные подсчеты указывали ориентировочную цифру в 5 миллиардов документов, расположенных на серверах по всему миру. Во-вторых, массив информации в Сети не только колоссален по объему, но еще и крайне динамичен. В-третьих, этот информационный массив плохо структурирован.
В отличие от стабильного и контролируемого фонда документов, например, в библиотеке, в Сети мы имеем дело с гигантским и непрерывно меняющимся информационным массивом, поиск данных в котором является весьма сложным процессом.
Навыками информационного поиска в той или иной степени обладают большинство пользователей глобальных компьютерных сетей. И дилетанты, и профессионалы зачастую пользуются одними и теми же инструментами. Однако результаты поиска и затраченное на них время различаются в очень значительной степени.
Задача данного раздела состоит в детальном ознакомлении с инструментами и методами информационного поиска и выработке устойчивых навыков профессионального поиска в Интернет.
Виды информационных ресурсов
Необходимость и важность проблемы информационного поиска привела к образованию в Интернет целой отрасли, задача которой заключается именно в оказании помощи пользователю в его навигации в веб-пространстве. Составляют эту отрасль специальные поисковые службы или сервисы. Условно их можно разделить на справочники (directories) и поисковые системы (search engines).
Эти разновидности внешне очень похожи, поскольку каждый справочник, как правило, обладает собственной поисковой системой, а каждая поисковая система - собственным справочником. Однако принципы их работы базируются на абсолютно разных подходах и технологиях. При этом каждая разновидность поисковых сервисов применяется для решения определенного типа задач. Правильным выбором инструмента во многом определяется стратегия поисковой деятельности и, в конечном итоге, результат поиска.
Справочники (каталоги)
Поисковые средства первой группы, называемые также каталогами или рубрикаторами, представляют собой электронные справочники, имеющие четкую иерархическую систематическую или логико-тематическую структуру, во многом напоминающую структуру систематического каталога библиотеки. Работа со справочниками позволяет ориентироваться в ресурсах Интернет в пределах отдельных отраслей знания, углубляясь от общего к частному, меняя иерархические ветви, возвращаясь на несколько шагов назад, и т.д. К наиболее значительным и объемным справочникам относятся Yahoo! (www.yahoo.com), About (www.about.com). Среди российских разработок в этой области значатся Апорт (www.aport.ru), List.ru (list.mail.ru), Weblist (www.weblist.ru), Пингвин (www.pingwin.ru), Иван Сусанин (www.susanin.net), и другие. Примером специализированного справочника является также аннотированный каталог образовательных веб-ресурсов «В помощь студенту» (http://design.uapa.ru/elibrary), созданный в УрАГС.
Главной отличительной особенностью справочников является то, что все они сделаны «вручную». Редакционные коллегии каждого из справочников, которые по характеру труда более всего напоминают отделы каталогизации и систематизации крупных библиотек, регулярно просматривают содержимое вновь появившихся серверов и следят за изменениями на уже существующих. Выявленные данные анализируются и заносятся в разделы справочника в соответствии с принятой классификацией. Описание сервера в целом или его раздела, если он представляется вполне самостоятельным блоком, снабжается краткой аннотацией, содержащей самые общие сведения о характере имеющейся информации. В некоторых случаях добавляются сведения о языке документов, посещаемости ресурса, его физическом месторасположении, и т.п. Естественно, что подобным образом можно описать лишь часть ресурсов Сети, да и то только весьма крупные объекты - такие как сервера организаций и учреждений. По причине огромной трудоемкости такой работы, справочники отражают лишь незначительную часть ресурсов Сети, и в первую очередь - наиболее заметные сайты.
Справочники предназначены для решения трех типов задач:
· ориентация в незнакомой отрасли знания;
· поиск крупных объектов, каковыми являются, к примеру, серверы целых организаций или значительных проектов;
· получение готового перечня ресурсов, имеющих размытый поисковый образ, например, «все о теннисе», библиотек определенного типа, транспортных расписаний или сайтов различных политических партий.
Созданием и актуализацией справочников глобального масштаба в большинстве случаев занимаются информационные компании, прежде всего американские. Практически все справочники декларируют всемирный охват материала, однако, практика показывает, что основной упор в них делается все-таки на североамериканские сайты. Естественно, что обращение к глобальным справочникам ресурсов требует минимального владения английским языком.
Рассмотрим в качестве примера два каталога-справочника – зарубежный (Yahoo!) и отечественный (Aport).
Yahoo! (http://www.yahoo.com)
Yahoo! является одним из самых первых, надежных и авторитетных справочников Всемирной паутины. У каталога два основных достоинства - внушительный объем (на сегодня отражено порядка 2 миллионов сайтов в более чем 25 тысячах категорий) и научность и логичность используемой схемы классификации. За счет этого в справочнике объективно отражаются все отрасли знания без каких либо приоритетов. В Yahoo! учитываются не только веб-сайты, но и конференции UseNet. Эти достоинства на протяжении всей второй половины 1990 годов позволяли Yahoo! оставаться незаменимым инструментом для первоначального ознакомления с информационным наполнением в Интернет по любой области деятельности.
Апорт (справочник) (http://aport.ru)
В настоящее время является единственным профессионально поддерживаемым отечественным справочником Интернет-ресурсов. Данный каталог выступает ключевой составной частью одноименного портала, включающего также поисковую систему, характеристики которой рассмотрены ниже.
Справочник имеет многоуровневую иерархическую структуру, отличающуюся достаточной логичностью и продуманностью. Ее полный вид можно получить, щелкнув по пункту верхнего меню «Все рубрики».
Каждая ссылка справочника снабжена аннотацией, дающей предварительное представление о содержимом сервера. Также сообщается его географическое местонахождение, указывается «индекс цитирования», рассчитываемый на основании числа ссылок на данную страницу с других сайтов и «лига» (этот параметр определяется в большей степени качеством дизайна сайта).
К сервисным функциям Апорт относится возможность сортировки ссылок в рубриках по дате поступления, по алфавиту названий, по индексу цитирования или лиге. Справочник обладает хорошей возможностью непосредственного поиска, который можно осуществлять как в справочнике в целом, так и в отдельных его разделах.
Апорт наиболее эффективен при поиске серверов российских учреждений, а также для выявления перечней сайтов однородных объектов, имеющих разные названия: например, сайты известных футболистов, сборники кулинарных рецептов, расписания авиарейсов, списки кадровых агентств, коллекции географических карт, и т.п.
К числу главных недостатков справочника Апорт относится низкая скорость актуализации сведений. В ряде случаев до четверти ссылок из разделов уже устарели.
Поисковые машины
В основу работы поисковых систем (поисковых машин) заложены совершенно иные технологические принципы. Задача поисковых машин - вести поиск по содержанию каждого веб-документа, то есть проводить максимально детальный поиск информации в Интернет. В отличие от справочников, все поисковые машины имеют одинаковый принцип деятельности и функционируют в автоматизированном режиме.
Все поисковые системы состоят из двух базовых блоков. Первый блок представляет собой программу-робот, задача которого путешествовать с сервера на сервер, находить там новые или изменившиеся документы и скачивать их на главный компьютер системы. Робот, просматривая содержимое сервера, также находит новые ссылки, как на другие документы данного сервера, так и на внешние сайты. Программа самостоятельно направляется по указанным ссылкам, после чего процесс повторяется. Выявленные документы обрабатываются (индексируются) вторым блоком поисковой системы. При этом, как правило, учитывается всё содержание страницы, включая текст, иллюстрации, аудио и видео файлы, и пр. Индексации подвергаются все слова в документе, что как раз и дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, и составляют базу данных, к которой происходит обращение пользователей, вводящих в поисковую строку сочетания ключевых слов.
Среди внушительного числа поисковых систем выделяются несколько наиболее признанных, позволяющих выявлять информацию с высокой степенью полноты и надежности. К наиболее авторитетным поисковым системам всемирного масштаба в настоящее время относятся Google (www.google.com), AlltheWeb (www.alltheweb.com) и AltaVista (www.altavista.com). Российские системы этого класса ныне представлены сайтами Яндекс (www.yandex.ru), Апорт (www.aport.ru) и Rambler (www.rambler.ru).
Поисковые системы распространены в гораздо большем количестве, чем электронные справочники, и число их, составляющее сегодня нескольких десятков, продолжает неуклонно увеличиваться. Профессиональная работа с ними требует специальных навыков, поскольку простой ввод искомого термина (ключевого слова) в поисковую строку скорее всего приведет к получению списка из сотен тысяч документов, содержащих данное понятие, что практически равносильно нулевому результату.
Рассмотрим три поисковые машины (зарубежную - Google, и отечественные –Яндекс и Апорт).
Google (www.google.com)
Эта поисковая система запущена в 1998 году и является ныне единоличным лидером среди глобальных поисковых систем по всем значимым параметрам. Главное достоинство Google - объем его индексного файла, который составляет на сегодня более 3 миллиардов веб-страниц и статей из групп новостей по интересам. В сутки программы-роботы системы индексируют порядка трех миллионов новых и обновленных страниц, при этом актуализация базы производится каждые 28 дней.
Google отличается высокой степенью комфорта для пользователя. Несмотря на то, что это глобальная поисковая система, пользователи из неанглоязычных стран автоматически переадресовываются на интерфейс на их родном языке. Русскоязычный интерфейс, в частности, находится по адресу www.google.com.ru. Длительность процесса в большинстве случаев не превышает одной секунды, несмотря на огромный объем индексного файла системы.
Методика поиска с помощью Google предельно проста. В поисковую строку водится запрос на естественном языке - неважно на русском, английском или любом другом. Язык запросов не допускает усечения терминов знаком «джокера» "*", обозначающего любое сочетание символов, поэтому все возможные варианты слов (library, libraries, librarians) пользователю следует вводить самостоятельно. Все термины запроса по умолчанию объединяются условием AND (И) - перед ними нет нужды ставить знак "+"(как это делается в Altavista). Таким образом, в список результатов попадают лишь страницы, содержащие все введенные ключевые слова.
Для поиска по точной фразетрадиционно используются кавычки: так, запрос «жестокий пятый прокуратор Иудеи всадник Понтийский Пилат» прямо приведет к ссылке на полный текст «Мастера и Маргариты» Михаила Булгакова. Поисковый механизм игнорирует т.н. стоп-слова (предлоги, союзы, артикли), однако, если какое-либо из таких слов существенно, перед ним необходимо поставить "+", давая понять системе, что в данном случае термин даже из одной буквы является значимым (например: Star Wars Episode +I).
Яндекс (www.yandex.ru или www.ya.ru)
Запущен в сентябре 1997 года. В настоящее время - признанный лидер российского поискового сервиса. Демонстрирует высокие показатели как по объему проиндексированных документов, так и по релевантности поиска. К середине 2002 года Яндексом проиндексировано свыше 480 тысяч российских и зарубежных русскоязычных серверов, а также серверов на территории СНГ (всего учтено более 58 миллионов оригинальных документов). При этом декларируется еженедельное обновление базы.
Интерфейс максимально прост - состоит из единственной строки ввода ключевых слов. За счет встроенной системы морфологической обработки терминов Яндекс приспособлен для формирования запросов на естественном русском языке. Лингвистические инструменты позволяют автоматически учесть практически все возможные оттенки употребления ключевых слов и составить поисковое предписание в высшей степени широко, охватив все возможные сочетания терминов. В процессе обработки запроса поисковый механизм самостоятельно производит расширения, исключает стоп-слова, анализирует расстояние терминов друг от друга, и пр. Типичный запрос в этом случае задается путем ввода отдельных терминов или целой фразы в поисковую строку.
Для формирования более точного запроса целесообразно обратиться к «Расширенному поиску» (пункт в нижней части титульной страницы). С помощью структурированного меню можно легко задать ограничения по различным сочетаниям ключевых слов, местоположению термина в документе, времени и языку публикации, месте на сайте.
Максимально детализированный запрос можно создать также и в простой форме с использованием языка запросов Яндекс, который включает множество специальных символов: ~,&,,/,"",,(),|,$, #. Их употребление подробно описано в файле "Синтаксис языка запросов" (http://www.yandex.ru/info/syntax.html). Снабженные этими символами ключевые слова вводятся в ту же поисковую строку, что и в первом случае.
Безусловным достоинством Яндекса является модуль ранжирования результатов поиска. В его основе лежит алгоритм анализа местоположения и повторяемости термина в документе и анализ внешних ссылок на страницу. Система производит группировку найденных страниц по сайтам на этапе формирования списка результатов и выдает по одному документу с сервера, который по ее мнению наиболее соответствует запросу. При этом в ссылке указывается общее число документов с данного сервера, также содержащих искомый термин. Яндекс показывает найденные термины в окружающем словарном контексте, что позволяет сразу же установить степень соответствия найденного документа информационной потребности пользователя.
Среди сервисных функций Яндекс поиск в новостях, собственном каталоге ресурсов Интернет, перечне товаров из электронных магазинов, энциклопедиях «Рубрикон». С середины 2002 года Яндекс, при вводе текстового запроса, по умолчанию осуществляет поиск и среди иллюстраций, которые, в случае их наличия, показываются в правой стороне экрана в перечне результатов.
Апорт (www.aport.ru)
Поисковая система, запущенная в феврале 1996 года, ныне по праву занимает место в лидирующей группе отечественных навигационных сервисов. Объем проиндексированных документов на настоящий момент точно неизвестен, но тесты позволяют поставить ее на третье место по объему индексного файла. Особенностью Апорт является то, что он строго не ограничивает своих роботов пределами доменов России и СНГ - в перечне результатов можно встретить ссылки на многие зарубежные сервера.
Апорт снабжен массой различных возможностей, заставляющих отнести его к числу самых удобных для пользователя. Именно в нем одним из первых в российской практике был применен сложный язык запросов (http://aport.ru/help.htm), позволяющий максимально детализировать поисковое предписание и избавить пользователя от информационного шума, возникающего при случайном сочетании ключевых слов. Некоторые дополнительные опции ныне доступны при обращении к «Расширенному поиску».
Список результатов содержит сведения об адресе, дате опубликования и последней проверке документа. Документы с одного сайта сгруппированы вместе. Доступна ставшая уже привычной функции реконструкции текста без обращения и исходному документу. Положительным моментом является то, что найденные ключевые слова выводятся в окружающем контексте из любой части документа, а не только из его начала, что позволяет окончательно и точно определять соответствие страницы запросу уже на этапе просмотра ссылок.
Мета-поисковые машины
Отличия в стратегии и широте охвата материала различных систем часто приводят к тому, что разные поисковые средства дают разноречивые ответы на один и тот же запрос. Этим не замедлили воспользоваться разработчики поисковых орудий особого рода, основанных исключительно на использовании потенциала других поисковых систем. Все они получили название мета-поисковые машины. К наиболее известным их представителям, в частности, относятся MetaCrawler (www.metacrawler.com), KartOO (www.kartoo.com), Cyber 411 (www.cyber411.com), и некоторые другие.
Мета-поисковые системы не имеют собственных поисковых роботов и баз данных (индексных файлов). Их достоинство заключается в умении рассылать вводимые в них запросы по другим системам, а затем суммировать результаты. Таким образом, пользователь, вводя поисковое предписание, например, в Cyber 411, фактически одновременно обращается к десятку поисковых систем. Этим гарантируется «объективность» полученных результатов, однако, учитывая различия в подходах к обработке терминов разными системами, результат может оказаться не всегда релевантным запросу.