URL-сетевой адрес документа. Поиск в Интернете. Поисковые службы в Интернете. Построение запросов в поисковых службах. Приемы, форматы и кодировки при сохранении найденной в Интернете информации.

Понятие URL

URL (UniformResourceLocator - универсальный указатель ресурсов) -

система обозначений для однозначной идентификации компьютера, каталога или файла в Internet.

В систему URL заложены следующие принципы:

  • Расширяемость - новые адресные схемы должны легко вписываться в существующий синтаксис URL; расширяемость достигается за счет выбора определенного порядка интерпретации адресов, который базируется на понятии "адресная схема". Идентификатор схемы стоит перед остатком адреса, отделен от него двоеточием и определяет порядок интерпретации остатка.
  • Полнота - по возможности любая из существовавших схем должна описываться посредством URL.
  • Читаемость - адрес должен легко пониматься человеком, что вообще характерно для технологии WWW, - документы вместе с ссылками могут разрабатываться в обычном текстовом редакторе.

Формат URL включает:

  • схему адреса (тип протокола доступа - http, gopher, wais, telnet, ftp и т.п.);
  • IP- или доменный адрес машины;
  • номер TCP-порта;
  • адрес ресурса на сервере (каталог или путь к файлу);
  • имя HTML-файла или метку;
  • критерий поиска данных.

Для каждого вида протокола приложений выбирается свое подмножество полей из представленного выше списка. Прежде чем рассмотреть различные схемы представления адресов, приведем пример простого адреса URL:

http://astra.net.ru/master/index.html

В данном случае путь состоит из доменного адреса машины, на которой установлен сервер HTTP, и пути от корня дерева сервера к файлу index.html.

Кроме подобной полной записи URL существует упрощенная, которая предполагает, что к моменту ее использования многие основные компоненты адреса ресурса уже определены (протокол, адрес машины в сети, некоторые элементы пути). В таком случае достаточно указывать только адрес, относительный определенных базовых ресурсов - относительный адрес.

Схемы URL

Рассмотрим несколько различных схем URL, с помощью которых можно обратиться к различным информационным ресурсам Internet.

Схема HTTP -

основная для Web. Она содержит идентификатор, адрес машины, TCP-порт, путь в директории сервера, поисковый критерий и метку.

Приведем несколько примеров URL для схемы http:

  • В наиболее распространенном виде URL, применяемом в документах WWW, вслед за именем схемы (http) следует путь, состоящий из доменного адреса машины и полного адреса html-документа в дереве Web-сервера:
    http://astra.net.ru/vebmaster/quest/defoult.html
  • В качестве адреса машины допустимо использование и IP-адреса:
    http://144.206.160.40/risk/risk01.html

Схема ftp -

позволяет адресовать файловые FTP-архивы из программ-клиентов WorldWideWeb. При этом возможно указание не только имени схемы, адреса FTP-архива, но и идентификатора пользователя и даже его пароля.



  • Наиболее часто данная схема используется для доступа к публичным архивам FTP:
    ftp://astra.net.ru/pub/index01.txt
    В данном случае записана ссылка на архив astra.net.ru с идентификатором "anonymous" (доступ для любых пользователей).
  • Если необходимо указать идентификатор пользователя и его пароль, то можно это сделать перед адресом машины:
    ftp://login:password@/users/local/
    В данном случае эти параметры отделены от адреса машины символом "@", а друг от друга - двоеточием.

Схема Gopher -

используется для ссылки на ресурсы распределенной информационной системы Gopher; состоит из идентификатора и пути, в котором указывается адрес Gopher-сервера, тип ресурса и команда Gopher:

  • gopher://gopher.com:70:/7/sortware
    В данном примере осуществляется доступ к Gopher-серверу gopher.com через порт 70 для поиска (тип 7) слова software. Следует заметить, что тип ресурса, в данном случае - 7, передается не перед командой, а вслед за ней.

Схема mailto -

предназначена для отправки почты по стандарту RFC 822 (стандарт почтового сообщения). Общий вид схемы выглядит так:
mailto:[email protected]

Схема news -

просмотр сообщений системы Usenet.
news:comp.infosystems
В данном примере пользователь получит идентификаторы статей из группы comp.infosystems в режиме уведомления. Можно получить и текст статьи, но тогда необходим ее идентификатор:
news:[email protected] (86-я статья из группы).

Схема nttp -

еще одна схема получения доступа к ресурсам Usenet, в которой, например, обращение к группе comp.infosystems для получения статьи 86 будет выглядеть так:
nntp:comp.infosystems/086
Следует обратить внимание на то, что адрес сервера Usenet не указан. Программа-клиент должна быть предварительно сконфигурирована на работу с одним из серверов Usenet. Сама служба Usenet является распределенным информационным ресурсом, и группа comp.infosystems на сервере в домене abc.com или где-либо еще в мире содержит одни и те же сообщения.

Схема telnet -

осуществляет доступ к ресурсу в режиме удаленного терминала. Обычно клиент вызывает дополнительную программу для работы по протоколу telnet. При использовании этой схемы необходимо указывать идентификатор пользователя, допускается использование пароля:
telnet://login:[email protected]

Схема wais -

предназначена для использования в распределенной информационно-поисковой системе WAIS, работающей в режимах поиска и просмотра. При поиске используется форма со знаком "?", отделяющим адресную часть от ключевых слов:
wais://wais.think.com/wais?guide
В данном случае обращаются к базе данных WAIS на сервере wais.think.com с запросом на поиск документов, содержащих слово guide. Сервер возвращает клиенту список идентификаторов документов, после получения которого можно использовать вторую форму схемы - wais-запрос на просмотр документа:
wais://wais.think.com/wais/wtype/093=/user/letter.txt, где 039 - идентификатор документа.

Схема file -

используется в локальном режиме:
file:///C|/text/html/indes.htm
В данном примере приведено обращение к локальному документу на персональном компьютере с ОС Windows.

Существует еще несколько схем URL. Однако они реально на практике не используются или находятся в стадии разработки, поэтому останавливаться на них мы не будем.

При просмотре каждой из миллиардов страниц найти необходимые сведения было бы невозможно. К счастью, есть другой способ. Найти страницы, текст на которых наиболее соответствует указанным для поиска словам и фразам, можно с помощью поисковых систем.

В число наиболее известных поисковых систем входят Google, Yahoo! Search, MSN Search, AOL Search и Ask.com. Выполнять поиск в Интернете можно непосредственно на веб-узле поисковой системы. Можно сэкономить время и не переходить к веб-узлу поисковой системы, а использовать поле поиска в веб-обозревателе InternetExplorer, показанное ниже:

URL-сетевой адрес документа. Поиск в Интернете. Поисковые службы в Интернете. Построение запросов в поисковых службах. Приемы, форматы и кодировки при сохранении найденной в Интернете информации. - student2.ru Поле поиска

Перед первым использованием поля поиска необходимо выбрать службу поиска по умолчанию (поисковую систему), которую веб-обозреватель InternetExplorer будет использовать при каждом поиске. Если служба поиска не выбрана, по умолчанию используется LiveSearch. (Изготовитель компьютера может задать другую службу поиска по умолчанию). См. раздел Изменение или выбор службы поиска в веб-обозревателе InternetExplorer.

Наши рекомендации