Логическая организация файла
Программист имеет дело с логической организацией файла, представляя файл в виде определенным образом организованных логических записей. Логическая запись – это наименьший элемент данных, которым может оперировать программист при обмене с внешним устройством. Даже если физический обмен с устройством осуществляется большими единицами, операционная система обеспечивает программисту доступ к отдельной логической записи.
На рис. 7.3 показаны несколько схем логической организации файла. Записи могут быть фиксированной длины или переменной длины. Записи могут быть расположены в файле последовательно (последовательная организация) или в более сложном порядке, с использованием так называемых индексных таблиц, позволяющих обеспечить быстрый доступ к отдельной логической записи (индексно-последовательная организация). Для идентификации записи может быть использовано специальное поле записи, называемое ключом. В файловых системах ОС UNIX и MS-DOS файл имеет простейшую логическую структуру – последова
тельность однобайтовых записей.
Рис. 7.3. Способы логической организации файлов
Поддержание структуры данных может быть либо целиком возложено на приложение, либо эту работу в той или иной степени может взять на себя файловая система.
В первом случае файл представляется файловой системе неструктурированной последовательностью байт. Структуризация и интерпретация содержимого файла выполняются приложением. Приложение формулирует запросы к файловой системе на ввод-вывод, используя общие для всех приложений системные средства, например, указывая смещение от начала файла и количество байт, которые необходимо считать или записать. Поступивший к приложению поток байт интерпретируется в соответствии с заложенной в программе логикой. Подчеркнем, что интерпретация данных никак не связана с действительным способом их хранения в файловой системе.
Такая неструктурированная модель файла стала популярной вместе с ОС UNIX, а теперь она широко используется в большинстве современных ОС, в том числе MS-DOS, Windows NT/2000, NetWare. Неструктурированная модель файла позволяет легко организовать разделение файла между несколькими приложениями, причем разные приложения могут по-своему структурировать и интерпретировать данные, содержащиеся в файле.
Другая модель файла – структурированный файл в настоящее время используется редко (применялась в старых ОС OS/360, DEC RSX и VMS). В этом случае поддержание структуры файла поручается файловой системе. Файловая система видит файл как упорядоченную последовательность логических записей. Приложение может обращаться к файловой структуре с запросами на ввод-вывод на уровне записей, например «считать запись 25 из файла FILE.DOC». Файловая структура предоставляет приложению доступ к записи, а вся дальнейшая обработка данных, содержащихся в этой записи, выполняется приложением. Развитием этого подхода стали системы управления базами данных (СУБД).
Физическая организация файловой системы
Представление пользователя о файловой системе как об иерархически организованном множестве информационных объектов имеет мало общего с порядком хранения файлов на диске. Файл очень часто разбросан «кусочками» по всему диску, причем это разбиение никак не связано с логической структурой файла, например, его отдельная логическая запись может быть расположена в несмежных секторах диска.
Принципы размещения файлов, каталогов и системной информации на реальном устройстве описываются физической организацией файловой системы. Разные файловые системы имеют разную физическую организацию.
Рассмотрим физическую структуру жесткого диска и физическую организацию файла, т. е. правила расположения файла на жестком диске (или ином внешнем запоминающем устройстве).
Структура жесткого диска
Основным типом устройства, которое используется для хранения файлов, являются дисковые накопители. Жесткий диск состоит из одной или нескольких стеклянных или металлических пластин, каждая из которых покрыта с одной или двух сторон магнитным материалом. Таким образом, диск в общем случае состоит из пакета пластин (рис. 7.4).
Рис. 7.4. Схема устройства жесткого диска
На обеих сторонах пластин размечены тонкие концентрические кольца – дорожки (треки), на которых хранятся данные. Количество дорожек зависят от типа диска. Нумерация дорожек начинается с 0 от внешнего края к центру диска. Запись и считывание данных с дорожки выполняется магнитной головкой.
Совокупность дорожек одного радиуса на всех поверхностях всех пластин пакета называется цилиндром. Каждая дорожка разбивается на фрагменты, называемые секторами (блоками). Все дорожки имеют равное число секторов, в которые можно максимально записать одно и то же число байт. Сектор имеет фиксированный для конкретной системы размер, чаще всего 512 байт. Поскольку дорожки разного радиуса имеют одинаковое число секторов, плотность записи повышается к центру диска.
Сектор – наименьшая адресуемая единица обмена данными дискового устройства с оперативной памятью. Для того чтобы контроллер мог найти на диске нужный сектор, необходимо задать ему все составляющие адреса сектора: номер цилиндра, номер поверхности и номер сектора. Типичный запрос включает чтение нескольких секторов.
Операционная система при работе с диском использует, как правило, собственную единицу дискового пространства, называемую кластером. Размер кластера кратен размеру физического сектора и в зависимости от размера раздела может составлять от 1 до 128 секторов (от 512 байт до 128 Кбайт). Размер кластера задается автоматически или вручную при форматировании диска.
При создании файла место на диске ему выделяется кластерами. Например, если размер файла 2560 байт, а размер кластера в файловой системе 1024 байта, то файлу будет выделено на диске 3 кластера.
*Иногда кластер называют блоком (например, в ОС Unix), что создает путаницу.
Дорожки и секторы создаются в результате низкокоуровневого (физического) форматирования диска. Низкоуровневое форматирование не зависит от типа ОС, которая этот диск будет использовать.
Разметка диска под конкретный тип файловой системы происходит в результате высокоуровневого (логического) форматирования.При высокоуровневом форматировании определяется размер кластера и на диск записывается информация, необходимая для работы файловой системы. На диск записывается также загрузчик операционной системы – небольшая программа, которая начинает процесс инициализации операционной системы после включения питания или рестарта компьютера.
Прежде чем форматировать диск под определенную файловую систему, он может быть разбит на разделы. Раздел – это непрерывная часть физического диска, которую операционная система представляет пользователю как логическое устройство (логический диск, логический раздел). Во многих операционных системах используется термин «том» (volume). В разных ОС толкование этого термина имеет свои нюансы, но чаше всего он обозначает логическое устройство, отформатированное под конкретную файловую систему. Логическое устройство функционирует так, как если бы это был отдельный физический диск. Именно с логическими устройствами работает пользователь, обращаясь к ним по символьным именам, например, А, В, С, SYS и т. п.
Разные ОС используют единое представление о разделах, но создают логические устройства, специфические для каждого типа ОС. Поэтому логические устройства и файловые системы, созданные в различных ОС, в общем случае не совместимы.
Как следствие, на одном логическом устройстве может создаваться только одна файловая система. На разных логических устройствах одного физического диска могут располагаться файловые системы разного типа, например: разделы С и Е имеют файловую систему NTFS, раздел D – файловую систему FAT.
После низкоуровневого форматирования все разделы диска имеют одинаковый размер кластера. Однако в результате высокоуровневого форматирования на разных разделах этого диска могут быть установлены файловые системы, с кластерами отличающихся размеров.