Информационно-поисковые системы Интернета
Все поисковые системы объединяет то, что они расположены на специально-выделенных мощных серверах и привязаны к эффективным каналам связи. Поисковые системы называют еще информационно-поисковыми системами (ИПС). Количество одновременно обслуживаемых посетителей наиболее популярных систем достигает многих тысяч. Самые известные обслуживают в сутки миллионы клиентов. В случаях, когда поисковая система имеет в своей основе каталог, она называется каталогом. В ее основе лежит работа модераторов. В основе же ИПС с полнотекстовым поиском лежит автоматический сбор информации. Он осуществляется специальными программами. Эти программы периодически исследуют содержимое всех ресурсов Интернета. Для этого они перемещаются, или как говорят, ползают, по разным ресурсам. Соответственно такие программы называются роботы. Есть и другие названия: поскольку WWW – это аббревиатура выражения Всемирная паутина, то такую программу естественно назвать спайдером по англ. – паук. В последнее время используются другие названия: автоматические индексы или директории. Все эти программы исследуют и «скачивают» информацию с разных URL-адресов. Программы указанного типа посещают каждый ресурс через определенное время. Ни одна поисковая система не в состоянии проиндексировать весь Интернет. Поэтому БД, в которых собраны адреса проиндексированных ресурсов, у разных поисковых систем разные. Тем не менее, многие из них стремятся, по возможности, охватывать в своей работе все пространство мировой Сети. Это универсальные системы.
Итак, работа поисковой системы обеспечивается тремя составляющими:
· Программа «робот» (спайдер). Она анализирует ресурсы и производит их индексацию.
· Индексы поисковой системы. Они формируют создаваемые поисковой системой собственные БД.
· Программа, которая в соответствии с запросом пользователя готовит ему ответ на основе анализа индексов, то есть собственных БД.
Пользователь реально имеет дело только с последней из этих трех составляющих.
Мощные поисковые системы универсального типа созданы для работы на всех основных языках мира. Каждая страна старается создать хотя бы одну собственную поисковую систему. Познакомимся с основными отечественными и зарубежными поисковыми системами.
Яndex (http://www.yandex.ru) – самая популярная в настоящее время отечественная поисковая система. Начала работу в 1997 г. Она содержит более 33 миллионов документов, поддерживает собственный каталог Интернет-ресурсов. Также является лучшей поисковой системой для выявления иллюстраций. Англоязычный вариант снабжен справочником ресурсов Интернет. Обладает развернутой системой формирования запроса. В частности, допускается ввод поискового предписания на естественном языке - в этом случае все необходимые расширения производятся автоматически. Более детальный запрос может быть составлен с помощью режима «Расширенный поиск» (знак +), в котором применяется система многоступенчатых меню.
Яндекс - единственная российская поисковая система, индексирующая документы в форматах PDF, DOC, RTF, SWF, PPT и XLS. Актуализация базы осуществляется еженедельно.
Rambler(http://www.rambler.ru) – одна из первых российских ИПС, открыта в 1996 году. В конце 2002 года была произведена коренная модернизация, после которой Rambler вновь вошел в группу лидеров сетевого поиска. В настоящее время объем индекса составляет порядка 150 миллионов документов. Для составления сложных запросов рекомендуется использовать режим «Детальный запрос», который предоставляет широкие возможности для составления поискового предписания с помощью пунктов меню.
АПОРТ (http://www.aport.ru). На сегодняшний день объем ее базы составляет более 20 миллионов документов. Система обладает широким спектром поисковых возможностей. АПОРТ обладает функцией встроенного переводчика, это дает пользователю возможность формулировать запросы, как на русском, так и на английском языках. Кроме того, АПОРТ имеет специальные режимы для поиска иллюстраций и аудио файлов.
Поисковая система компании Mail.ru начала работать в 2007 году. Объем индексного файла весной 2009 г. составлял более 1.5 миллиарда страниц, расположенных на русскоязычных серверах. Помимо разыскания текстов, системой осуществляется поиск иллюстраций и видеофрагментов, размещенных на специализированных "самонаполняемых" российских серверах: Фото@Mail.Ru, Flamber.Ru, 35Photo.ru, PhotoForum.ru, Видео@Mail.Ru, RuTube, Loadup, Rambler Vision и им подобных. Gogo.ru позволяет ограничивать область поиска сайтами коммерческой направленности, информационными сайтами, а также форумами и блогами. Форма "Расширенного поиска" также дает возможность ограничить разыскания определенными типами файлов (PDF, DOC, XLS, PPT), местом положения искомых слов в документе или
определенным доменом.
Наиболее популярными зарубежными поисковыми системами являются Google, Alta Vista, Scirus.
Google (http://www.google.com) — одна из самых полных зарубежных ИПС. Объем ее базы составляет более 560 миллионов документов. Отличительной особенностью ИПС Google является технология определения степени релевантности документа путем анализа ссылок других источников на данный ресурс. Чем больше ссылок на какую-либо страницу имеется на других страницах, тем выше ее рейтинг в ИПС Google.
AltaVista (http://www.altavista.com) – одна из старейших поисковых систем занимает одно из первых мест по объему документов – более 350 миллионов. AltaVista позволяет осуществлять простой и расширенный поиск. «Help» позволяет даже неподготовленным пользователям правильно составлять простые и сложные запросы.
Вопрос № 61. Адресация в Интернете: адрес веб-страницы и электронный адрес.
Доменные имена
Чтобы посетить какой-то сайт или веб-страницу, нужно знать, где они в Интернете находятся, то есть нужно знать их адрес.
Адресация в Интернете, как и в обычной нашей жизни, строится по иерархическому принципу.
Например, телефонный номер.
Номер телефона абонента уточняется последовательно: код страны – код зоны (области) – код города – код телефонной станции – номер абонента в этой телефонной станции.
Или, например, почтовый адрес: страна – область – город – улица – номер дома – номер квартиры.
В Интернете существует адресация численная (или IP-адресация) и символьная.
При численной (или IP-адресации):
каждомукомпьютерув Сети Интернет присвоен IP-адрес. ("IP" – Internet Protocol). Таким образом,IP-адрес – это адрес компьютера в Интернете в соответствии с протоколом IP.
Каждый IP-адрес состоит из четырех чисел (от 0 до 255), разделенных точками.
Каждый компьютер, подключенный к Интернету, имеет свой уникальный IP-адрес.
Так, к примеру, IP-адреса 192.28.543.315, 182.560.45.970, 192.28.543.316 принадлежат разным компьютерам.