Объявление типов элементов

В валидном XML-документе вы должны полностью объявить тип каждого элемента, который вы используете в документе, в объявлении типа элемента внутри DTD. Объявление типа элемента указывает на имя типа: элемента и допустимое содержимое элемента (часто описывающее порядок размещения дочерних элементов). В целом, объявление типа элемента в DTD задает полную логическую структуру документа. Таким обрамим, объявление типа элемента указывает на типы элементов, которые содержит документ, порядок следования элементов, а также описание содержимого элементов.

Объявление типа элемента имеет следующую обобщенную форму:

<!ELEMENT Имя опись_содержимого>

Здесь Имя есть имя объявляемого типа элемента. Опись одержимого - это описание содержимого, которое определяет, что может содержать элемент. В следующем разделе приведены различные типы описаний содержимого, которые вы можете использовать.

Ниже приведено объявление типа элемента с именем TITLE, для содержимого которого могут использоваться только символьные данные (дочерние элементы не допускаются):

<!ELEMENT TITLE (#PCDATA)>

А вот объявление для типа элемента с именем GENERAL, содержимое которого может быть любым:

<!ELEMENT GENERAL ANY>

В качестве последнего примера рассмотрим законченный XML-документ с двумя типами элементов. Объявление типа элемента COLLECTION указывает, что он может содержать один или несколько элементов CD, a объявление типа элемента CD указывает, что он может содержать только символьные данные. Заметим, что документ соответствует этим объявлениям, и, следовательно, является валидным:

<?xml version="1.0"?> <!DOCTYPE COLLECTION
[
<!ELEMENT COLLECTION (CD)+>
<!ELEMENTCD(#PCDATA)>
<!-- Вы также можете включать комментарии в DTD. -->
]
>
<COLLECTION>
<CD>Mozart Violin Concertos 1,2, and 3</CD>
<CD>Telemann Trumpet Concertos</CD>
<CD>Handel Concetti Grossi Op. 3</CD>
</COLLECTION>

Вы можете описать содержимое элемента - т.е. заполнить часть описъ_содержимого в объявлении типа элемента - четырьмя различными способами:

  • Пустое содержимое (EMPTY). Ключевое слово EMPTY указывает, что элемент должен быть пустым, т.е. не может иметь содержимого. Например:

<!ELEMENT IMAGE EMPTY>

Ниже приведены валидные элементы IMAGE, которые вы можете поместить в документ:

<IMAGEX/IMAGE> <IMAGE/>

  • Любое содержимое (ANY). Ключевое слово ANY указывает, что элемент может иметь любое допустимое для этого типа содержимое. Элемент этого типа может содержать или не содержать дочерние элементы в любом порядке и с любым количеством вхождений, иметь или не иметь чередующиеся символьные данные. Это наиболее неопределенный тип описания содержимого, он дает возможность создавать типы элементов без ограничений на их содержимое. Вот пример соответствующего объявления:

<!ELEMENTMISCANY>

  • Содержимое элемента (также называемое дочернее содержимое). При таком описании типа содержимого элемент может содержать дочерние элементы, но не может непосредственно содержать символьные данные. Об этой возможности будет говориться в следующем разделе.
  • Смешанное содержимое. При этом описании типа содержимого элемент может содержать любое количество смешанных данных, в том числе и чередующихся с дочерними элементами определенных типов. Эта возможность будет описана далее в данной главе.

Если элемент имеет содержимое, он может непосредственно содержать только определенные дочерние элементы, но не символьные данные. В тексте документа вы можете разделять дочерние элементы пробелами, чтобы улучшить восприятие документа, но процессор будет игнорировать символы пробела и не передаст их приложению.

Модель содержимого может иметь одну из следующих основных форм.

Последовательная. Последовательная форма модели содержимого указывает, что элемент должен иметь заданную последовательность дочерних элементов. Вы отделяете имена типов дочерних элементов запятыми. Например, следующее DTD указывает, что элемент MOUNTAIN должен иметь один дочерний элемент NAME, после которого идет один дочерний элемент HEIGHT, за которым следует один дочерний элемент STATE:

<!DOCTYPE MOUNTAIN
[
<!ELEMENT MOUNTAIN (NAME, HEIGHT, STATE)>
<!ELEMENT NAME (#PCDATA)>
<!ELEMENT HEIGHT (#PCDATA)>
<!ELEMENT STATE (#PCDATA)>
]
>

Следовательно, следующий элемент Документ будет валидным:

<MOUNTAIN>
<NAME>Wheeler</NAME>
<HEIGHT>13161</HEIGHT>
<STATE>New Mexico</STATE>
</MOUNTAIN>

Следующий элемент Документ, однако, не будет валидным, поскольку порядок дочерних элементов не соответствует объявленному:

<MOUNTAIN> <!-- Неправильный элемент! -->
<STATE>New Mexico</STATE>
<NAME>Wheeler</NAME>
<HEIGHT>1316K/HEIGHT>
</MOUNTAIN>

Пропуск дочернего элемента или использование одного и того же типа дочернего элемента более одного раза также недопустимо. Как вы видите, это достаточно строгий вид объявления.

Выборочная. Выборочная форма модели содержимого указывает, что элемент может иметь любой из серии допустимых дочерних элементов, разделяемых символом |. Например, следующее DTD указывает, что элемент FILM может состоять из одного дочернего элемента STAR, или одного дочернего элемента NARRATOR, или одного дочернего элемента INSTRUCTOR:

<!DOCTYPEFILM
[
<!ELEMENT FILM (STAR | NARRATOR | INSTRUCTOR)>
<!ELEMENT STAR (#PCDATA)>
<!ELEMENT NARRATOR (#PCDATA)>
<!ELEMENT INSTRUCTOR (#PCDATA)>
]
>

Следовательно, следующий элемент Документ будет валидным:

<FILM>
<STAR>Robert Redford</STAR>
</FILM>

как и элемент:

<FILM>
<NARRATOR>Sir Gregory Parsloe</NARRATOR>
</FILM>

а также элемент:

<FILM>
<INSTRUCTOR>GalahadThreepwood</INSTRUCTOR>
</FILM>

Следующий элемент Документ не будет валидным, поскольку вы можете включить только один из дочерних элементов:

<FILM> <!-- Неправильный элемент! -->
<NARRATOR>Sir Gregory Parsloe</NARRATOR>
<INSTRUCTOR>GalahadThreepwood</INSTRUCTOR>
</FILM>

Вы можете изменить любую из этих форм модели содержимого, используя знак вопроса (?), знак плюс (+) и звездочку (*), значения которых описаны в следующей таблице:

Символ Значение
? Ни одного или один из предшествующих элементов
+ Один или несколько из предшествующих элементов
* Ни одного или несколько из предшествующих элементов

Например, следующее объявление означает, что вы можете включить один или более дочерних элементов NAME, и что дочерний элемент HEIGHT является не обязательным:

<!ELEMENT MOUNTAIN (NAME+, HEIGHT?, STATE)>

Таким образом, следующий элемент будет правильным:

<MOUNTAIN>
<NAME>Pueblo Peak</NAME>
<NAME>Taos Mountain</NAME>
<STATE>New Mexico</STATE>
</MOUNTAIN>

Другой пример: следующее объявление означает, что вы можете включить несколько или ни одного дочернего элемента STAR, либо один дочерний элемент NARRATOR, либо один дочерний элемент INSTRUCTOR:

<!ELEMENT FILM (STAR* | NARRATOR | INSTRUCTOR)>

Соответственно, каждый из следующих трех элементов будет корректным:

<FILM>
<STAR>Tom Hanks</STAR>
<STAR>Meg Ryan</STAR>
</FILM>
<FILM>
<NARRATOR>Sir Gregory Parsloe</Narrator>
</FILM>
<FILM/>

Вы также можете воспользоваться символами ?, + или * для модификации всей модели содержимого, помещая символы непосредственно после закрывающих скобок. Например, следующее объявление дает вам возможность включить один или несколько дочерних элементов любого из этих трех типов в любом порядке:

<!ELEMENT FILM (STAR | NARRATOR | INSTRUCTOR)+>

Такое объявление делает корректными следующие элементы:

<FILM>
<NARRATOR>BertramWooster</NARRATOR>
<STAR>Sean Connery</STAR>
<NARRATOR>Plug Basham</Narrator>
</FILM>

<FILM>
<STAR>Sean Connery</STAR>
<STAR>Meg Ryan</STAR>
</FILM>

<FILM>
<INSTRUCTOR>StinkerPike</INSTRUCTOR>
</FILM>

Наконец, вы можете формировать более сложные модели содержимого путем вложения выборочной модели содержимого внутрь последовательной модели, либо последовательной модели в выборочную модель. Например, следующее DTD задает, что каждый элемент FILM должен иметь ()дин дочерний элемент TITLE; за ним должен следовать один дочерний элемент CLASS; после него должен идти один дочерний элемент STAR, N Л RRATOR или INSTRUCTOR:

<!DOCTYPE FILM
[
<!ELEMENT FILM (TITLE, CLASS, (STAR | NARRATOR | INSTRUCTOR) )>
<!ELEMENT TITLE (#PCDATA)>
<!ELEMENT CLASS (#PCDATA)>
<!ELEMENT STAR (#PCDATA)>
<!ELEMENT NARRATOR (#PCDATA)>
<!ELEMENT INSTRUCTOR (#PCDATA)>
]
>

В соответствии с этим DTD, следующий элемент Документ будет корректным:

<FILM>
<TITLE>The Net<AITLE>
<CLASS>fictionaK/CLASS>
<STAR>Sandra Bullok</STAR>
</FILM>

так же, как такой:

<FILM>
<TITLE>How to Use XML<AITLE>
<CLASS>instructionaK/CLASS>
<INSTRUCTOR>PennyDonaldson</INSTRUCTOR>
</FILM>

Если элемент имеет смешанное содержимое, он может включать символьные данные. Если же вы зададите в объявлении один или несколько типов дочерних элементов, он может содержать любые из этих дочерних элементов в любом порядке и с любым количеством вхождений (нуль и более). Другими словами, при смешанном содержимом вы можете задавать типы дочерних элементов, но не можете задавать порядок или количество вхождений дочерних элементов, а также задавать обязательность включения для определенных типов дочерних элементов.

Чтобы объявить тип элемента смешанного содержимого, вы можете воспользоваться одной из следующих форм модели содержимого.

Только символьные данные.Чтобы объявить тип элемента, который может содержать только символьные данные, используйте модель содержимого (#PCDATA). Так, следующее объявление указывает, что для элемента SUBTITLE допускаются только символьные данные:

<!ELEMENT SUBTITLE (#PCDATA)>

Следующие два элемента в соответствии с данной декларацией являются корректными:

<SUBTITLE>A New Approach</SUBTITLE>

<SUBTITLE></SUBTITLE>

Заметим, что элемент, который в соответствии с объявлением должен содержать символьные данные, может и не иметь никаких символов, т.е. быть пустым.

Символьные данные с необязательными дочерними элементами. Чтобы объявить тип элемента, который может содержать символьные данные плюс ни одного или несколько дочерних элементов, перечислите каждый тип дочернего элемента после ключевого слова PCDATA в модели содержимого, разделяя их символами | и помещая звездочку (*) в конце всей модели содержимого. Каждое имя элемента может появляться в модели содержимого только один раз. Например, следующее объявление указывает, что элемент TITLE может содержать символьные данные плюс ни одного или несколько дочерних элементов SUBTITLE:

<!ELEMENT TITLE (SPCDATA | SUBTITLE)*>

В соответствии с этим объявлением следующие элементы TITLE являются допустимыми:

<TITLE>
Moby-Dick
<SUBTITLE>Or, the Whale</SUBTITLE>
</TITLE>

<TITLE>
<SUBTITLE>Or, the Whale</SUBTITLE>
Moby-Dick
</TITLE>

<TITLE>
Moby-Dick
</TITLE>

<TITLE>
<SUBTITLE>Or, theWhale</SUBTITLE>
<SUBTITLE>Another Subtitle</SUBTITLE>
</TITLE>

<ТITLE></TITLE>

В валидном XML-документе вы также должны исчерпывающе объявить все атрибуты, которые вы предполагаете использовать для элементов документа. Вы определяете все атрибуты, ассоциированные с определенным элементом, с помощью специального типа DTD-разметки, называемого объявлением списка атрибутов. Это объявление:

  • определяет имена атрибутов, ассоциированных с элементом. В валидном документе вы можете включить в начальный тег элемента только те атрибуты, которые определены для элемента;
  • устанавливает тип данных каждого атрибута;
  • задает востребованность для каждого атрибута. Если атрибут не востребован, в объявлении списка атрибутов указывается, что должен делать процессор, если атрибут опущен. (В объявлении должно, например, содержаться значение атрибута по умолчанию, которое будет использовать процессор.)

*Про атрибуты и содержимое элементов в 14 вопросе

Наши рекомендации