Файлы и файловая структура
Единицы представления данных
Наименьшей единицей представления является бит (двоичный разряд). Совокупность двоичных разрядов, выражающих числовые или иные данные, образует некий битовый рисунок. В настоящее время в качестве таких форм используются группы из восьми битов, которые называются байтами.
Во многих случаях целесообразно использовать не восьмиразрядное кодирование, а 16-разрядное, 24-разрядное, 32-разрядное и более. Группа из 16 взаимосвязанных бит (двух взаимосвязанных байтов) в информатике называется словом. Соответственно, группы из четырех взаимосвязанных байтов (32 разряда) называются удвоенным словом, а группы из восьми байтов (64 разряда) —учетверенным словом.
Единицы измерения данных
Наименьшей единицей измерения является байт. Более крупная единица измерения — килобайт (Кбайт). Условно можно считать, что 1 Кбайт примерно равен 1000 байт. Условность связана с тем, что более удобно представление чисел в виде степени двойки и потому на самом деле 1 Кбайт равен 1024 байт. Однако всюду, где это не принципиально, с инженерной погрешностью (до 3 %) «забывают» о «лишних» байтах.
Более крупные единицы измерения данных образуются добавлением префиксов мега-, гига- тера~; в более крупных единицах пока нет практической надобности.
1 Мбайт - 1024 Кбайт = 1020 байт
1 Гбайт = 1024 Мбайт = 1030 байт
1 'Гбайт = 1024 Гбайт =1040 байт
Вычисление информационного объема сообщения
Единицы измерения информации
В 1 бит можно записать один двоичный символ
1 байт = 8 бит
В кодировке ASCII в один байт можно записать один 256 символьный код
В кодировке UNICODE один 256 символьный код занимает в памяти два байта
ФОРМУЛА ХАРТЛИ
2 i = N,
где i- количество информации в битах, N - неопределенность
Таблица степеней двойки, которая показывает сколько информации можно закодировать с помощью i – бит.
i | |||||||||||
2 i = N |
Чтобы вычислить информационный объем сообщения надо количество символов умножить на число бит, которое требуется для хранения одного символа
Например:
двоичный текст 01010111 занимает в памяти 8 бит
Этот же текст в кодировке ASCII занимает 8 байт или 64 бита
Этот же текст в кодировке UNICODE занимает 16 байт или 128 бит.
Пробелы надо тоже считать за символы поскольку они также набираются на клавиатуре и хранятся в памяти.
Мощность алфавита - это количество символов в алфавите или неопределенность из формулы Хартли
Информационный вес одного символа - это значение i из формулы Хартли
Чтобы перевести биты в байты надо число бит поделить на 8.
Например: 32 бита - это 4 байта
Чтобы перевести байты в килобайты надо число байтов поделить на 1024
Например: в 2048 байтах будет 2 килобайта
Чтобы перевести байты в биты надо число байт умножить на 8
Например: в 3 байтах будет 24 бита
Чтобы перевести килобайты в байты надо число килобайт умножить на 1024
Например: в 3 килобайтах будет 3072 байта и соответственно 24576 бит. И так далее
Если 128 символьным алфавитом записано сообщение из 5 символов, то объем сообщения - 35 бит.
Мощность алфавита - 128. Это неопределенность. Значит один символ занимает в памяти 7 бит, тогда 5 символов занимают в памяти 35 бит.
Количество символов в тексте =
Информационный вес всего текста : Информационный вес одного символа
Задача. Информационный объем текста, набранного на компьютере с использованием кодировки UNICODE (каждый символ кодируется 16 битами), — 2 Кб. Определить количество символов в тексте.
Решение. Чтобы определить количество символов в тексте, надо знать информационный объем всего текста и информационный вес одного символа.
Однако прежде, чем выполнять деление, необходимо привести величины к одинаковым единицам измерения.
2 Кб= 2 х 1024 = 2048 байт - весь объем информации.
Каждый символ кодируется 16 битами или 2 байтами. Отсюда 2048 : 2 = 1024 символа в тексте.
Единицы хранения данных
В качестве единицы хранения данных принят объект переменной длины, называемый файлом. Файл — это последовательность произвольного числа байтов, обладающая уникальным собственным именем. Обычно в отдельном файле хранят данные, относящиеся к одному типу. В этом случае тип данных определяет тип файла.
В определении файла особое внимание уделяется имени. Оно фактически несет в себе адресные данные, без которых данные, хранящиеся в файле, не станут информацией из-за отсутствия метода доступа к ним.
Хранение файлов организуется в файловой структуре. В качестве вершины структуры служит имя носителя, на котором сохраняются файлы. Далее файлы группируются в каталоги (папки), внутри которых могут быть созданы вложенные каталоги (папки). Путь доступа к файлу начинается с имени устройства и включает все имена каталогов (папок), через которые проходит. В качестве разделителя используется символ «\» (обратная косая черта).
<имя носителя>\<имя каталога-1 >\...\<имя каталога-N>\<собственное имя файла>