Единицы измерения объема информации
Единицы измерения объема информации
Впервые объективный подход к измерению информации был предложен американским инженером Р. Хартли в 1928 году, затем в 1948 году обобщен американским учёным К. Шенноном.
Хартли рассматривал процесс получения информации как выбор одного сообщения из конечного наперед заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.
Формула Хартли:
I = log2N
Шеннон предложил другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Формула Шеннона:
I=P1log21/P1+P2log21/P2+...+PNlog21/PN,
гдеPi – вероятность i-го сообщения.
Поскольку каждый регистр арифметического устройства и каждая ячейка памяти состоит из однородных элементов, а каждый элемент может находиться в одном из двух устойчивых состояний (которые можно отождествить с нулем и единицей), то К. Шенноном была введена единица измерения информации – бит.
Один бит –сообщение, уменьшающее информационную неопределенность ровно вдвое.
Бит – слишком мелкая единица измерения. На практике чаще применяется более крупная единица – байт.
1 байт = 8 бит.
Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).
Широко используются также еще более крупные производные единицы информации:
1 Килобайт (Кбайт) = 1024 байт = 210 байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.
1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт.
Представление информации в компьютере
Вся информация, которую обрабатывает компьютер, должна быть представлена двоичным кодом с помощью двух цифр – 0 и 1. Эти два символа принято называть двоичными цифрами, или битами. С помощью двух цифр 1 и 0 можно закодировать любое сообщение.
В связи с этим в компьютере обязательно должно быть организовано два важных процесса:
- кодирование, которое обеспечивается устройствами ввода при преобразовании входной информации в форму, воспринимаемую компьютером, то есть в двоичный код;
- декодирование, которое обеспечивается устройствами вывода при преобразовании данных из двоичного кода в форму, понятную человеку.
Код– набор символов (условных обозначений) для представления информации.
Кодирование– процесс представления информации в виде кода.
Декодирование – процесс обратный кодированию.
В кодированном виде информация храниться в памяти компьютера, которая построена из двоичных запоминающих элементов –битов, объединенных в группы по 8 битов, которые называются байтами. (Единицы измерения памяти совпадают с единицами измерения информации). Все байты памяти пронумерованы. Номер байта называется его адресом.
С помощью одного байта можно закодировать 28=256 различных букв, цифр или положительных чисел в диапазоне от 0 до 255.
Возможности байта для кодирования данных ограничены из-за слишком малой разрядности. Поэтому компьютеры устроены так, что они могут оперировать как с единым целым не только с одним байтом, но также и с группами из двух, четырех, восьми и т.д. соседних байт.
Подобные группы байт принято называть:
- полусловом –группу из двух соседних байтов
- словом –группу из четырех соседних байтов
- двойным словом –группу из восьми соседних байтов
Такие единицы используются в основном для представления числовых данных.
Байт 0 | Байт 1 | Байт 2 | Байт 3 | Байт 4 | Байт 5 | Байт 6 | Байт 7 |
Полуслово | Полуслово | Полуслово | Полуслово | ||||
СЛОВО | СЛОВО | ||||||
ДВОЙНОЕ СЛОВО |
Представление чисел.
Существуют два способа представления чисел в памяти компьютера:
форма с фиксированной точкой – применяется к целым числам.
форма с плавающей точкой – применяется к вещественным числам.
Под точкой здесь подразумевается знак-разделитель целой и дробной части числа (при письме мы обычно используем запятую).
Вещественные числа – числовые величины, которые могут принимать любые значения – целые и дробные (в математике такие числа называются «действительные числа»).
Представление целых чисел.
Целые числа могут представляться в компьютере:
- со знаком
- без знака.
Целые числа без знака.
Обычно занимают в памяти компьютера один или два байта.
В однобайтовом формате принимают значения от 000000002 до 111111112 (от 010 до 25510).
В двубайтовом формате – от 00000000 000000002 до 11111111 111111112 (от 010 до 6553510).
Число 7210 = 10010002 в однобайтовом формате:
Число 7210 = 10010002 в двубайтовом формате:
Целые числа со знаком.
Обычно занимают в памяти компьютера один, два или четыре байта.
При этом самый левый (старший) разряд содержит информацию о знаке числа (0 – положительное число, 1 – отрицательное число).
В компьютерной технике применяются три формы записи (кодирования) целых чисел со знаком:
- прямой код
- обратный код
- дополнительный код
Последние две формы применяются особенно широко, так как позволяют упростить конструкцию арифметико-логического устройства компьютера путем замены разнообразных арифметических операций операцией сложения.
Положительные числав прямом, обратном и дополнительном кодах изображаются одинаково – двоичными кодами с цифрой 0 в знаковом разряде.
Отрицательные числав прямом, обратном и дополнительном кодах имеют разное изображение:
- прямой код отрицательного числа
В знаковый разряд помещается цифра 1, а в разряды цифровой части числа – двоичный код его абсолютной величины:
- обратный код отрицательного числа
Получается инвертированием всех цифр двоичного кода абсолютной величины числа (модуля числа), включая разряд знака: нули заменяются единицами, а единицы – нулями:
- обратный код отрицательного числа
Получается образованием обратного кода с последующим прибавлением единицы к его младшему разряду. Например:
Обычно отрицательные десятичные числа при вводе в компьютер автоматически преобразуются в обратный или дополнительный двоичный код и в таком виде хранятся, перемещаются и участвуют в операциях. При выводе таких чисел из машины происходит обратное преобразование в отрицательные десятичные числа.
Единицы измерения объема информации
Впервые объективный подход к измерению информации был предложен американским инженером Р. Хартли в 1928 году, затем в 1948 году обобщен американским учёным К. Шенноном.
Хартли рассматривал процесс получения информации как выбор одного сообщения из конечного наперед заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.
Формула Хартли:
I = log2N
Шеннон предложил другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Формула Шеннона:
I=P1log21/P1+P2log21/P2+...+PNlog21/PN,
гдеPi – вероятность i-го сообщения.
Поскольку каждый регистр арифметического устройства и каждая ячейка памяти состоит из однородных элементов, а каждый элемент может находиться в одном из двух устойчивых состояний (которые можно отождествить с нулем и единицей), то К. Шенноном была введена единица измерения информации – бит.
Один бит –сообщение, уменьшающее информационную неопределенность ровно вдвое.
Бит – слишком мелкая единица измерения. На практике чаще применяется более крупная единица – байт.
1 байт = 8 бит.
Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).
Широко используются также еще более крупные производные единицы информации:
1 Килобайт (Кбайт) = 1024 байт = 210 байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.
1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт.