Классификация форматов электронных изданий. Форматы текстовые и бинарные. Представление сред мультимедиа в электронных изданиях. Требования к форматам
Классификация форматов:
· По внутренней структуре: бинарные/текстовые.
· Открытые/закрытые (ODF – очень открытый формат, PDF раньше был закрыт, PDFX, LaTeX, ТХТ, HTML, XML, RTF, DjVu – открытый. закрытый - Inds).
· Векторные(RTF, PDF поддерживает, WMF, SVG, SWF, СDR, EPS, AI) и растровые(DjVu, JPEG, TIFF, BMP, GIF, PNG, PSD, TGA).
Бинарные: хранят информацию в том виде, в каком они представлены в памяти компьютера во время работы, поэтому не происходит никакого преобразования, что ускоряет процесс чтения.
Недостатки: 1) непереносимость, 2) проблема с выравниванием (данные могут располагаться по разным адресам).
Примеры: DOC, PDF, DjVu.
Текстовые: информация хранится в виде текста. Основная цель применения текстовых данных — независимость от отдельных программ, требующих собственного кодирования или форматирования и несовместимых с другими программами. Существуют методы (например, UUENCODE), позволяющие закодировать в текстовом формате произвольные данные любого формата.
Недостаток: скорость считывания и преобразования.
Примеры: HTML, XML, RTF.
Если при открытии в Блокноте кракозябры, то формат бинарный.
Мультимедиа сейчас - это полноценное объединение компьютерных и других информационных технологий: видео, аудио, фото, кино, телекоммуникаций (телефон, телевидение, радиосвязь), не говоря уже о тексте и графике, как статической, так и динамической (анимационной).
Представление текстовой информации:
Наряду с форматом HTML и PDF (последний, строго говоря, хранит текст в графическом формате), текстовые блоки электронных изданий могут быть представлены в форматах DOC (MS Word), P65 (Adobe PageMaker) и многих др.
В том случае, когда электронное издание не содержит мультимедиа-компонентов, то оно может храниться в формате любого текстового редактора или верстального пакета; единственное дополнительное требование к текстовому редактору состоит в том, что он должен поддерживать графические форматы рисунков, если они включены в текст издания.
Для чисто текстовых изданий ограничений еще меньше. Их можно хранить и распространять в любом текстовом формате, используемом в современных персональных компьютерах. В частности, может использоваться формат ТХТ (в том числе «простой текст» или plain text), гораздо более экономичный, чем формат DOC. Из языков разметки текста помимо HTML, наибольшее распространение получили:
- TROFF, применяющийся при оформлении документации в рамках операционной системы UNIX и различных ее версий, включая LINUX;
- ТЕХ, который широко используется для подготовки изданий с большим количеством математических формул;
- SGML (Standart Generic Markup Language) - реализует принцип логической разметки текста, который позволяет разграничить содержимое издания и его электронное представление.
Представление графической информации:
Последовательность графических форматов в порядке убывания их популярности (или частоты применения) для электронных изданий и документов: GIF, JPEG, PNG, TIFF.
GIF (Graphics Interchange Format) - является одним из самых популярных форматов изображений, размещаемых на веб-страницах. Отличительной его особенностью является использование режима индексированных цветов (не более 256), что ограничивает область применения формата изображениями, имеющими резкие цветовые переходы. Небольшие размеры файлов изображений обусловлены применением алгоритма сжатия без потерь качества, благодаря чему изображения в этом формате наиболее удобны для пересылки по каналам связи глобальной сети. В GIF реализован эффект прозрачности и возможности хранить в одном файле несколько картинок с указанием времени показа каждой, что используется для создания анимированных изображений.
JPEG (Joint Photographic Experts Group) - самый популярный формат для хранения фотографических изображений, является общепризнанным стандартом. JPEG может хранить только 24-битовые полноцветные изображения. Хотя JPEG отлично сжимает фотографии, но это сжатие происходит с потерями и портит качество, тем не менее, он может быть легко настроен на минимальные, практически незаметные для человеческого глаза, потери.
TIFF (Tag Image File Format). Как универсальный формат для хранения растровых изображений, TIFF достаточно широко используется, в первую очередь, в издательских системах, требующих изображения наилучшего качества. Кстати, возможность записи изображений в формате TIFF является одним из признаков высокого класса современных цифровых фотокамер. В этом формате поддерживаются такие чисто профессиональные возможности, как обтравочные контуры, альфа-каналы, возможность сохранять несколько копий изображения с разным разрешением и даже включать в файл слои.
PNG (Portable Network Graphics) - формат PNG, являющийся плодом трудов сообщества независимых программистов, появился на свет как ответная реакция на переход популярнейшего формата GIF в разряд коммерческих продуктов. Этот формат, в отличие от GIF сжимает растровые изображения не только по горизонтали, но и по вертикали, что обеспечивает более высокую степень сжатия. Как недостаток формата часто упоминается то, что он не дает возможности создавать анимационные ролики. Зато формат PNG позволяет создавать изображения с 256 уровнями прозрачности что, безусловно, выделяет его на фоне всех существующих в данный момент форматов. Представление аудиофайлов:
Самым популярным форматом для представления аудиоданных является MP3, так как такие файлы имеют небольшой размер и сравнительно хорошее качество звучания, за счет применяемых алгоритмов сжатия, а также открывается всеми современными аудиоплеерами.
Из форматов звуковых файлов следует упомянуть AU для UNIX-подобных систем и платформ, WAV - стандарт звуковых файлов для операционной системы Windows, AIFF - стандарт звуковых файлов для платформы Apple Macintosh и MIDI (Musical Instrument Digital Interface) - формат электронных музыкальных инструментов. Кратко остановимся на каждом из них.
Представление видеофайлов:
Самые популярные форматы – это QuickTime фирмы Apple, MPEG комитета Motion Picture Expert Group и AVI фирмы Microsoft.
Общая черта всех популярных форматов цифровых видеофайлов состоит в том, что основная часть любого из них - это система сжатия и восстановления видеоданных (compression/decompression - сокращенно codec), называемая кодеком. Обычно программы, поддерживающие основные форматы видеофайлов, позволяют замещать старые кодеки на новые, более совершенные, по мере разработки последних. Такой подход позволил легко адаптировать форматы видеофайлов и поддерживающие их программы к новым технологиям, как только те становились доступными.
*Если потребуются подробности, их можно почитать тут:
http://www.hi-edu.ru/e-books/xbook119/01/part-004.htm
2. Подготовка электронных изданий в формате PDF. Структура документа в формате PDF — трейлер, таблица перекрестных ссылок.
PDF (аббревиатура от англ. Portable Document Format) — разработанный фирмой Adobe Systems с использованием ряда возможностей языка PostScript, как независимый от платформы формат представления в электронном виде полиграфической продукции, различной электронной документации (в том числе электронные книги) и презентаций.
PDF-публикация (документ) содержит одну или более страниц. Каждая страница может включать любые компоненты электронного издания: текст, графику и иллюстрации, анимацию, видео- и аудиоинформацию в аппаратно-независимом формате, в виде так называемого страничного описания (page description). PDF-публикация может также содержать информацию, обеспечивающую навигацию в гипертекстовой электронной публикации.
Кроме того, публикация содержит версию спецификации PDF, использованную в конкретном файле, и информацию о расположении структуры файла.
Формат PDF представляет текст и графику, используя модель формирования изображений языка программирования полос PostScript. Графическими объектами могут быть тексты и формы публикаций, векторные и растровые изображения и т.д. Графические объекты могут быть любого цвета.
Операторы создания страниц PDF подобны операторам языка PostScript. Главное отличие состоит в том, что PDF не программный язык, он не содержит процедур, переменных и т.п.
Характерными особенностями PDF-файла являются:
§ PDF-файл может содержать объекты, подобные гипертекстовым ссылкам, доступные только при интерактивном просмотре;
§ для упрощения процесса описания страниц PDF не использует конструкции программных языков;
§ PDF создает определенную структуру файла, которая позволяет программным приложениям иметь доступ к любой части документа;
§ PDF-файл содержит информацию о размерах шрифта и т.п.;
§ PDF-файл не может быть прямо преобразован в PostScript-публикацию для печати;
§ PDF-файл строится на основе либо 7-битового ASCII-файла, либо на базе бинарного файла. Если это ASCII-файл, в нем используются только печатные символы 7-битового ASCII-кода, пробел, табуляция, возврат каретки и перевод строки. В случае бинарного файла могут быть использованы все символы 8-битового кода. Считается, что ASCII-код - наиболее удобный для переноса вид кодировки.
Для прямого поиска любой страницы файла PDF-файл содержит специальную таблицу ссылок. Таблица размещается в конце файла и способствует уменьшению времени поиска и вывода страницы в PDF-публикации, так как обеспечивает независимость времени поиска от общего количества страниц в документе.
Структура файла:
Обычный PDF-файл содержит четыре раздела:
· заголовок (header);
· «тело файла» (body);
· таблицу перекрестных ссылок (cross-reference table);
· trailer.
Заголовок. Первая строка PDF-файла определяет номер спецификации PDF, которой придерживается данный файл (текущая - 1.2% PDF-1.2).
<header> ::= <PDF version>
Тело файла. Содержит последовательность косвенных объектов, входящих в состав публикации. Объекты - это компоненты публикации: страницы, изображения, шрифты. Комментарии могут быть во всем PDF-файле. Их синтаксис совпадает с синтаксисом комментариев в PostScript, они начинаются с % и заканчиваются символом конца строки.
Таблица перекрестных ссылок. Таблица содержит информацию о каждом объекте в файле в виде одной строки описания места объекта в файле. PDF-файл содержит таблицу, состоящую из одного или более разделов. Если нет изменений или добавлений в файл, таблица состоит из одного раздела. В противном случае в ее состав добавляется новый раздел.
Приведем описание раздела таблицы, состоящего из подразделов. Каждый подраздел включает данные для непрерывной области номеров объектов. Организация подразделов удобна для пошагового изменения, потому что допускает добавление нового раздела перекрестной ссылки, содержащей данные об объектах, которые были добавлены или удалены.
Каждый подраздел перекрестной ссылки начинается со строки заголовка, содержащей два числа: объектный номер в этом подразделе и номер данных в подразделе.
Есть два формата данных таблицы: для объектов, которые используются, и для объектов, которые были удалены.
<cross-reference entry> ::=
<in-use entry> |
<free entry>
Для объекта, который используется в публикации, указываются байтовое смещение, определяющее количество байтов от начала файла к началу объекта, номер генерации объекта, и ключевое слово n: <in-use entry> ::= <byte offset><generation number> n.
Для объекта, который свободен, указываются объектный номер следующего свободного объекта, номер генерации и ключевое слово f: <free entry> ::= <object number of next free object><generation number> f.
Когда косвенный объект удаляется, его запись в таблице помечается как «свободная», и номер генерации объекта увеличивается на единицу, чтобы открыть возможность использования объекта с таким номером.
Trailer позволяет программному приложению при чтении PDF-файла быстро находить таблицу перекрестных ссылок и специальные объекты. Приложения должны читать PDF-файл с конца. Последняя строка содержит маркер конца файла %%EOF; две предшествующие строки - ключевое слово startxref и байт смещения от начала файла к началу слова xref в последнем разделе таблицы ссылок в файле. Trailer dictionary предшествует этой строке.
Атрибуты trailer показывают смещения от начала файла к месту расположения последнего после изменения раздела таблицы ссылок, каталог объектов для публикации (в виде dictionary), массив двух string-идентификаторов создания и изменения файла, информацию для декодирования документов и т.п.