Объявления XML-документов, инструкции по обработке, комментарии, разделы CDATA. Требования к иерархии элементов. Атрибуты. Символьные данные

Структура XML-документа:

Объявления XML-документов, инструкции по обработке, комментарии, разделы CDATA. Требования к иерархии элементов. Атрибуты. Символьные данные - student2.ru

XML документ представляет собой определенным образом размеченный текст, состоящий их набора компонент. Он начинается с пролога, который при определенных условиях может отсутствовать. За прологом идет тело документа.

Пролог начинается с объявления XML документа. Объявление XML документа имеет вид:

<?xml version=”версия” [encoding=”кодировка”] [standalone=(“yes” | “no”)] ?>

Параметр version=”версия” объявляет значение номера версии Рекомендации XML, которой должен соответствовать XML документ. В настоящее время действует Рекомендация с номером 1.0. Поэтому параметр version должен иметь значение ”1.0”. Минимально допустимое объявление XML: <?xml version=”1.0”?>.

Существующая Рекомендация XML допускает отсутствие объявления XML. В этом случае программа, обрабатывающая XML документ, сама должна подставить минимально допустимое объявление XML.

Параметр encoding=”кодировка” объявляет, в какой кодировке требуется воспринимать символы XML документа при его обработке и отображении. Если данный параметр опущен, то XML документ должен быть представлен либо в кодировке UTF-8, либо в UTF-16. В Рекомендации XML определено, что именно эти две кодировки должны поддерживаться всеми программами обработки XML документов. С использованием параметра encoding объявление XML, например, для работы в Windows с кириллицей, будет иметь вид: <?xml version=”1.0” encoding=”Windows-1251”?>

Параметр standalone=(“yes” | “no”) объявляет – является ли XML документ одиночным, т.е. он использует или не использует внешние объявления разметки. В случае указания “yes” предполагается, что внешние объявления разметки не должны использоваться, т.е. XML документ будет одиночным. В противном случае следует указывать “no”. Если данный параметр опущен, то по умолчанию предполагается значение “no”.

Если XML документ должен быть действительным (Валидным), то с ним должна быть сопоставлена схема, объявление которой размещается в прологе после объявления XML, но перед корневым элементом. В зависимости от используемой схемы (DTD или XML Schema) объявление выполняется по-разному.

Тело документа может состоять из следующих конструкций:

  • элементов, которые могут включать атрибуты и пространства имен;
  • комментариев;
  • инструкций обработки;
  • секций CDATA.

Элементы

Не может быть XML документа без элементов (тэгов).

Границы элемента задаются 2 способами:

•начальным и конечным тегом (текст межу тегами называется содержанием элемента), например:<book>Основы XML</book>

•тегом пустого элемента (пустой элемент не имеет содержания):<book />

Вместо пустого элемента можно использовать эквивалентную ему запись начального и конечного тега:<book></book>

Элемент может не иметь или иметь любое количество атрибутов. Назначение атрибута – уточнение каких-либо характеристик элемента. Атрибуты могут применяться либо в начальном теге, либо в теге пустого элемента, например: <book id=”num-582” year=”2010”>

<title>Основы XML</title>

</book>

Для элемента book определены два атрибута (id – номер книги в библиотечном каталоге и год издания книги).

Следует иметь в виду, что каких-либо правил относительно того, какую информацию задавать в виде элемента, а какую в виде атрибута нет. Приведенный выше фрагмент можно записать иначе, при этом смысловое содержание не изменится:

<book title=” Основы XML”>

<id>num-582</id>

<year>2010</year>

</book>

Использовать или не использовать атрибуты, если использовать, то как – это при создании корректного XML документа определяет его разработчик, а при создании действительного XML документа должно быть задано в его схеме.

Кроме атрибутов, в начальный тег элемента могут быть включены объявления пространств имен.

Комментарии

Их использование позволяет сделать XML документ более понятным.

Текст комментария должен заключаться между символами «<!--» и «-->»:

<!-- текст комментария -->

Инструкции обработки

Инструкция обработки (PI) – это конструкция, применяемая в XML документе для передачи определенных указаний обработчику XML документа. Обработчик XML документа, принимая такую инструкцию, должен знать, что с ней делать. Возможный набор допустимых инструкций обработки не определяется в Рекомендации XML и зависит от используемого обработчика XML документа. Инструкция обработки всегда должна обрамляться символами «<?» и «?>» и иметь следующий формат: <?код содержание?>, где: код – это имя, идентифицирующее приложение, которому предназначена инструкция. Содержание – текст, который передается приложению для обработки.

Рекомендация XML зарезервировала имена xml и XML для собственных нужд, поэтому они не могут принимать значение кода инструкции обработки.

Секция CDATA

Когда в XML документ требуется включить текст, имеющий элементы разметки, обработку которых следует избежать, или какой-либо блок двоичной информации необходимо использовать секцию CDATA. Обработчик XML документа информацию секции CDATA не подвергает анализу.

Секция CDATA может находиться в любом месте XML документа, где могут находиться символьные данные. Она имеет следующий формат:

<![CDATA[текст]]> , где: текст – набор символов, вставляемый в секцию CDATA;

«<![CDATA» и «]]>» – фиксированный набор символов начала и конца этой секции.

Пример использования секции CDATA:

<![CDATA[

<book id=”num-582” year=”2010”>

<tile>Основы XML</title>

</book>

]]>

В данном примере обработчик XML документа не будет подвергать анализу элемент book, его атрибуты и содержание.

Наши рекомендации