Унифицированные идентификаторы ресурсов
В Web для идентификации элементов используются «Унифицированные идентификаторы ресурсов», или сокращенно URI (Uniform Resource Identifier). На английский манер произносится как [ю-ар-а́й], по-русски чаще говорят [у́ри]. URI — это последовательность символов, идентифицирующая абстрактный или физический ресурс. Ранее назывался Universal Resource Identifier — универсальный идентификатор ресурса.
URI используются для именования объектов. Каждый объект глобальной семантической сети имеет уникальный URI. URI однозначно называет некоторый объект. Отдельные URI создают не только для страниц, но и для объектов реального мира (людей, городов, художественных произведений и так далее), и даже для абстрактных понятий (например, «имя», «должность», «цвет»). URI можно присвоить чему угодно, и если эта сущность имеет URI, то о ней можно говорить, что она находится «в Web». Благодаря уникальности URI одни и те же предметы можно называть одинаково в разных местах семантической паутины. Используя URI, можно собирать информацию о одном предмете из разных мест.
Стандартизацию URI определяет документ, доступный по следующей ссылке: http://www.ietf.org/rfc/rfc3305. Отметим, что данная ссылка также является URI. В соответствии с данным документом, в современном интернете используется две разновидности URI – URL и URN. Основное различие между ними состоит в их задачах:
URL – Uniform Resource Locator, помогает найти какой-либо ресурс.
URN – Uniform Resource Name, помогает этот ресурс идентифицировать.
Таким образом, URL и URI – частные случаи URI.
Синтаксис URI
Синтаксис, используемый при стандартизации URI, определяется так называемым документом RFC3986, доступным по ссылке http://www.ietf.org/rfc/rfc3986. Согласно пункту 2 данного документа, URI строится из ограниченного набора символов, состоящих из цифр, букв и нескольких графических символов. Все эти символы вписываются в кодировку US-ASCII (ASCII). Зарезервированное подмножество символов может использоваться для разграничения компонентов URI, в то время как оставшиеся символы (незарезервированный набор и те зарезервированные символы, которые не действуют как разделители в данном компоненте URI) используются для идентификации каждого компонента.
Зарезервированные символы. Зарезервированные символы делятся на два типа:
1) главные разделители (gen-delims) – символы, разделяющие URI на крупные компоненты:
: | / | ? | # | [ | ] | @ |
2) подразделители (sub-delims) – символы, которые разделяют текущую крупную компоненту, на более мелкие составляющие. Для каждой компоненты URI используются свои подразделители. К наиболее распространенным относятся:
! | $ | & | ' | ( | ) | * | + | , | ; | = |
Незарезервированные символы. К ним относятся символы, не входящие в группу gen-delims, а также символы из группы sub-delims, незначимые для данной компоненты URI. В общем случае это следующие символы:
ALPHA | DIGIT | – | . | _ | ~ |
Здесь ALPHA – любая латинская буква в верхнем или нижнем регистре кодировки ASCII, DIGIT – любая цифра арабская.
Процентное кодирование. В случае, если используются символы выходящие за пределы кодировки ASCII, используется механизм т.н. «процентного кодирования». Он также применяется для передачи зарезервированных символов в составе данных. Зарезервированные символы, по правилам, не участвуют в процентном кодировании.
Процентно-кодированный (pct-encoded) символ представляет из себя символьный триплет, состоящий из знака "%" и следующих за ним двух шестнадцатиричных чисел:
pct-encoded = "%" HEXDIG HEXDIG
Здесь HEXDIG – любая цифра шестнадцатеричной системы счисления (0-9, A-F). Например, pct-encoded символ %20 эквивалентен шестнадцатеричному числу 2016=3210. Как известно, в большинстве символьных кодировок коду 3210 соответствует символ пробела.
Компоненты URI
URI строится по определенным правилам и графически может быть представлен в виде следующей схемы:
URI состоит из обязательных и необязательных элементов. Обязательными элементами являются схема и иерархическая часть, необязательными – запрос (ему предшествует знак "?") и фрагмент (ему предшествует знак "#"). Рассмотрим данные элементы.
1. Scheme (схема).
Каждый URI начинается с имени схемы, которое определяет правила описания последующих элементов URI. Поскольку синтаксис URI –расширяемая система именования, спецификация каждой схемы может ограничить синтаксис и семантику идентификаторов, использующих эту схему.
Название схемы обязательно начинается с буквы и далее может быть продолжено любым количеством разрешенных символов. Разрешенные символы для схемы:
ALPHA | DIGIT | + | – | . |
Примерами схемы являются: http, ftp, file, ldap, mailto, urn.
2. Иерархическая часть.
Включает данные авторизации (Authority) и путь (path).
Authority (данные авторизации).
Компонента authority начинается с двойного прямого слеша (//) и может заканчиваться одинарным прямым слешем (/), знаком вопроса (?), решеткой (#), либо ничем (в этом случае URI заканчивается).
Структура поля Authority имеет следующия вид:
[userinfo "@"] host [":" port]
Здесь в квадратных скобках указаны опциональные (необязательные) компоненты, которые будут детально рассмотрены позже.
Путь (Path). Компонента пути содержит данные, обычно организованные в иерархической форме, которые, вместе с данными в неиерархическом компоненте запроса (Query), служат для идентификации ресурса в рамках схемы URI и authority (если таковая компонента указана).
Путь начинается с прямого слеша (/) и заканчивается знаком вопроса (?), решеткой (#) или концом URI. Разрешенные символы для пути:
незарезервированные | процентно-кодированные | sub-delims | : | @ |
3. Запрос (Query).
Компонента запроса содержит иерархически организованные данные, организованные в неиерархической форме, которые, совместно компонентой «Path», служат для идентификации ресурса в рамках элементов «схема» и «Authority» (если таковой указан).
Запрос начинается с первого знака вопроса (?) и заканчивается решеткой (#) или концом URI.
Разрешенные символы для запроса:
незарезервированные | процентно-кодированные | sub-delims | : | @ | / | ? |
В запросе чаще всего передаются данные в формате key=value (ключ=значение). При этом значение рекомендуется передавать в процентно-кодированном виде. Это обусловлено тем, что в значении может встретиться символ "&", который используется для разделения пар «ключ=значение», в результате чего дальнейшая последовательность пар «ключ=значение» может быть нарушена.
4. Фрагмент (Fragment).
Данная компонента позволяет осуществить косвенную идентификацию вторичного ресурса по отношению к первому.
Семантика фрагмента никак не ограничена. Фрагмент начинается решеткой (#), заканчивается концом URI и может состоять из абсолютно любого набора символов.
В качестве примера применения фрагментов рассмотрим оглавление некоторой статьи. Оно состоит из относительных ссылок
<a href="#someanchor"></a>,
а по статье, в определенных местах, раскиданы т.н. «якоря» – теги
<anchor>someanchor</anchor>.
Переходя по указанной в оглавлении ссылке, браузер производит переход ко вторичному ресурсу относительно данной страницы, т.е. скроллит вниз, до появления нужного <anchor> на экране.
Следующий рисунок иллюстрирует рассмотренную структуру URI: