Формы представления информации
В зависимости от типа данных И. можно представить в форме:
· числовой,
· текстовой (символьной),
· графической,
· звуковой,
· видеоинформации,
· смешанной (мультимедийной).
Кроме того, в зависимости от вида сигнала И. и данные могут быть представлены в непрерывной (аналоговой), дискретной и цифровой формах.
Операции с данными
В структуре возможных операций с данными можно выделить следующие основные:
· сбор данных – накопление информации с целью обеспечения достаточной полноты для принятия решений;
· формализация данных – приведение данных, поступающих из разных источников, к одинаковой форме, чтобы сделать их сопоставимыми между собой, то есть повысить их уровень доступности;
· фильтрация данных – отсеивание «лишних» данных, в которых нет необходимости для принятия решений; при этом должен уменьшаться уровень «шума», а достоверность и адекватность данных должны возрастать;
· сортировка данных – упорядочение данных по заданному признаку с целью удобства использования; повышает доступность информации;
· архивация данных – организация хранения данных в удобной и легкодоступной форме; служит для снижения экономических затрат по хранению данных и повышает общую надежность информационного процесса в целом;
· защита данных – комплекс мер, направленных на предотвращение утраты, воспроизведения и модификации данных;
· транспортировка данных – прием и передача (доставка и поставка) данных между удаленными участниками информационного процесса; при этом источник данных в информатике принято называть сервером, а потребителя – клиентом. Передача данных между клиентом и сервером происходит с помощью определенных соглашений, называемых протоколом обмена данными;
· преобразование данных – перевод данных из одной формы в другую или из одной структуры в другую. Преобразование данных часто связано с изменением типа носителя.
Тема 1.2 Меры и единицы представления, измерения и хранения информации
Единицы представления данных
Существует множество систем представления данных. С одной из них, принятой в информатике и вычислительной технике, двоичным кодом, мы познакомились выше. Наименьшей единицей такого представления является бит (двоичный разряд).
Совокупность двоичных разрядов, выражающих числовые или иные данные, образует некий битовый рисунок. Практика показывает, что с битовым представлением удобнее работать, если этот рисунок имеет регулярную форму. В настоящее время в качестве таких форм используются группы из восьми битов, которые называются байтами.
Десятичное число | Двоичное число | Байт |
0000 0001 | ||
0000 0010 | ||
… | … | … |
1111 1111 |
Понятие о байте как группе взаимосвязанных битов появилось вместе с первыми образцами электронной вычислительной техники. Долгое время оно было машиннозависимым, то есть для разных вычислительных машин длина байта была разной. Только в конце 60-х годов понятие байта стало универсальным и машиннонезависимым.
Во многих случаях целесообразно использовать не восьмиразрядное кодирование, а 16-разрядное, 24-разрядное, 32-разрядное и более. Группа из 32 взаимосвязанных бит (четырех взаимосвязанных байтов) называется словом. Соответственно, группы из двух взаимосвязанных байтов (16 разрядов) называются полусловом, а группы из восьми байтов (64 разряда) – удвоенным словом. На сегодняшний день, такой системы обозначения достаточно.
Единицы измерения данных
Существует много различных систем и единиц измерения данных. Каждая научная дисциплина и каждая область человеческой деятельности может использовать свои, наиболее удобные или традиционно устоявшиеся единицы. В информатике для измерения данных используют тот факт, что разные типы данных имеют универсальное двоичное представление и потому вводят свои единицы данных, основанные на нем.
Наименьшей единицей измерения является байт. Поскольку одним байтом, как правило, кодируется один символ текстовой информации, то для текстовых документов размер в байтах соответствует лексическому объему в символах.
Более крупная единица измерения – килобайт (Кбайт). Условно можно считать, что 1 Кбайт примерно равен 1000 байт. Условность связана с тем, что для вычислительной техники, работающей с двоичными числами, более удобно представление чисел в виде степени двойки и потому на самом деле 1 Кбайт равен 210 байт (1024 байт). Однако всюду, где это не принципиально, с инженерной погрешностью (до 3 %) «забывают» о «лишних» байтах.
В килобайтах измеряют сравнительно небольшие объемы данных. Условно можно считать, что одна страница неформатированного машинописного текста составляет около 2 Кбайт.
Более крупные единицы измерения данных образуются добавлением префиксов мега-, гига-, тера-; в более крупных единицах пока нет практической надобности.
· 1 Кбайт = 1024 байт = 210 байт ≈ 103 байт.
· 1 Мбайт = 1024 Кбайт = 210 Кбайт = 220 байт = 1.048.576 байт ≈ 106 байт.
· 1 Гбайт = 1024 Мбайт = 210 Мбайт = 230 байт = 1.073.741.824 байт ≈ 109 байт.
· 1 Тбайт = 1024 Гбайт = 210 Гбайт = 240 байт = 1.099.511.627.776 байт ≈ 1012 байт.
· 1 Пбайт = 1024 Тбайт = 210 Тбайт = 250 байт = 1.125.899.906.842.624 байт ≈ 1015 байт.
Таким образом, например, минимальный объем видеопамяти необходимый для LCD-монитора с разрешением 1280´1024 dpi в режиме цветопередачи True Color (32 бита) составит:
1280´1024´32 бит = 41.943.040 бит = 5.242.880 байт = 5.120 Кбайт = 5 Мбайт.
Единицы хранения данных
При хранении данных решаются две проблемы: как сохранить данные в наиболее компактном виде и как обеспечить к ним удобный и быстрый доступ (если доступ не обеспечен, то это не хранение). Для обеспечения доступа необходимо, чтобы данные имели упорядоченную структуру, а при этом, как мы уже знаем, образуется «паразитная нагрузка» в виде адресных данных. Без них нельзя получить доступ к нужным элементам данных, входящих в структуру.
Поскольку адресные данные тоже имеют размер и тоже подлежат хранению, хранить данные в виде мелких единиц, таких как байты, неудобно. Их неудобно хранить и в более крупных единицах (килобайтах, мегабайтах и т. п.), поскольку неполное заполнение одной единицы хранения приводит к неэффективности хранения.
В качестве единицы хранения данных принят объект переменной длины, называемый файлом. Файл – это последовательность произвольного числа байтов, обладающая уникальным собственным именем. Обычно в отдельном файле хранят данные, относящиеся к одному типу. В этом случае тип данных определяет тип файла.
Проще всего представить себе файл в виде безразмерного канцелярского досье, в которое можно по желанию добавлять содержимое или извлекать его оттуда. Поскольку в определении файла нет ограничений на размер, можно представить себе файл, имеющий 0 байтов (пустой файл),и файл, имеющий любое число байтов.
В определении файла особое внимание уделяется имени. Оно фактически несет в себе адресные данные, без которых данные, хранящиеся в файле, не станут информацией из-за отсутствия метода доступа к ним. Кроме функций, связанных с адресацией, имя файла может хранить и сведения о типе данных, заключенных в нем. Для автоматических средств работы с данными это важно, поскольку по имени файла они могут автоматически определить адекватный метод извлечения информации из файла.