Форматы полнотекстовых документов. Модель документа
Текстовая информация. Модель документа
Известно, что существуют различные типы текстовых файлов (плоские, размеченные, ASCII и пр.). Соответственно, для ввода, обработки, представления информации в таких файлах требуются различные программные возможности. Для работы с текстами на компьютере используются программные средства, называемые текстовыми редакторами, или текстовыми процессорами.
Существует большое количество разнообразных текстовых редакторов, различающихся по своим возможностям, — от очень простых учебных до мощных, многофункциональных программных средств, называемых издательскими системами, которые используются для подготовки к печати книг, журналов и газет. Эти программы позволяют работать с различными типами и форматами текстовых файлов, по необходимости преобразуя их друг в друга. Например, в текстовом формате (плоский текст — .ТХТ) работают редактор Notepad, встроенные редакторы оболочек Norton Commander и Far Manager, в то время как Word (а также WordPad) позволяют работать с размеченными текстовыми файлами в коммуникативном (тип файла .RTF — rich text format, или «обогащенный формат текста»), внутреннем (.DOC), и текстовом (.ТХТ) форматах (рис. 2.2, 2.3). Распространен также редактор документов Adobe Arobat , использующий коммуникативный формат .PDF (portable document format).
Необходимо отметить, что наиболее развитые редакторы позволяют обрабатывать не просто тексты, а документы (тексты, содержащие встроенные или внедренные объекты или файлы других типов — табличные, графические, мультимедиа и пр.).
Форматы полнотекстовых документов. Модель документа
Понятие модель документаохватывает аспекты создания, преобразования, хранения, поиска, передачи и отображения документов. Принято рассматривать структуру документа в двух аспектах: логическом (содержание) и физическом (макет).
Логическая структура определяет составные компоненты и их соотношения в понятиях, отвечающих взгляду на документы как смысловые структуры. Например, к основным смысловым компонентам относятся: авторские данные (имя автора, место работы), аннотация, оглавление, главы, разделы, параграфы, рисунки, сноски. На рис. приведен пример документа «Пояснительная записка к дипломному проекту (работе)». Здесь выделены такие базовые понятия структуры документа, как обязательность/необязательность элемента, уникальность или повторяемость, вхождение нижестоящих элементов в вышестоящие по принципу И (оба типа данных должны или могут входить в элемент) либо ИЛИ (только какой-либо один из типов данных может или должен входить в элемент).
Макетная структура содержит описание документа в терминах физических единиц — страниц, полос, колонок, колонтитулов, рамок для рисунков, шрифтов, стилей и пр.
Подходы к моделированию документов опираются на два стандарта — ISO 8613 (ODA — Office Document Architecture — архитектура управленческой документации) и ISO 8879 (SGML — Standard Generalized Markup Language — стандартный обобщенный язык разметки).
Документ в ODA представлен в виде профиля и собственно документа, организованных в форме древовидной структуры. Профиль содержит информацию о документе в целом и его прохождении; формальные признаки — дата составления, вид, регистрационный номер и т. д.
Собственно документ содержит текст и сведения о его структуре и стиле, а именно:
• структуру документа — заглавие, параграфы, оглавление и т. п. (логическая структура), а также абзацы, расположение текста, шрифты (физическая структура);
• архитектуру содержания — набор графических элементов, выделение определенных слов, строк и т. п.;
• коммуникативный формат — способы кодирования объектов, признаков и содержания документов.
Рис. 2.5. Иерархическая структура документа «Пояснительная записка к дипломной работе»: # — уникальный элемент; * — повторяющийся элемент; ? — необязательный элемент; ! — обязательный элемент; & — вхождение типа «И»; | — вхождение типа «ИЛИ»
Языки разметки документов
В системах обработки текстов в документ включается дополнительная информация, называемая разметкой и выполняющая следующие функции:
• выделение логических элементов данного документа;
• задание функций обработки выделенных элементов.
В обычных текстовых процессорах существуют встроенные команды включения/выключения шрифтов и др., аналогичные командам управления размещением информации на экране или при печати (так называемые Escape-последовательности). Такой подход называется командной или процедурной разметкой .
Альтернативный способ разметки заключается в выделении части текста без указания способа обработки выделения. Затем другие команды назначают фрагментам способ обработки. Такая разметка называется описательной (дескриптивной). Она включает метки (tags, таги) начала и окончания элемента текста и указывает, как интерпретировать данный фрагмент.
Изменяя набор процедур, соответствующий описательной разметке, можно изменить внешнее представление одного и того же документа. Развитие идей описательной разметки привело к определению разметки как формального языка. Это позволяет проверить правильность разметки и минимизировать ее объем за счет подстановки умолчаний.