Количество информации. Алфавитный подход. Задача на определение количества бит, необходимого для кодирования. Подсчет количества информации.

Содержательный подход к измерению информации рассматривает информацию с точки зрения человека, как уменьшение неопределенностинаших знаний.

Однако любое техническое устройство не воспринимает содержание информации. Поэтому в вычислительной технике используется другойподход к определению количества информации. Он называется алфавитным подходом.

При алфавитном подходе к определению количества информации отвлекаются от содержания информации и рассматривают информационноесообщение как последовательность знаков определенной знаковой системы.

Проще всего разобраться в этом на примере текста, написанного на каком-нибудь языке. Для нас удобнее, чтобы это был русский язык.

Все множество используемых в языке символов будем традиционно называть алфавитом. Обычно под алфавитом понимают только буквы, нопоскольку в тексте могут встречаться знаки препинания, цифры, скобки, то мы их тоже включим в алфавит. В алфавит также следует включить и пробел, т.е. пропуск между словами.

Алфавит - множество символов, используемых при записи текста.

Мощность (размер) алфавита - полное количество символов в алфавите.

Будем обозначать эту величину буквой N. Например, мощность алфавита из русских букв и отмеченных дополнительных символов равна 54.

Представьте себе, что текст к вам поступает последовательно, по одному знаку, словно бумажная ленточка, выползающая из телеграфногоаппарата. Предположим, что каждый появляющийся на ленте символ с одинаковой вероятностью может быть любым символом алфавита. В действительности это не совсем так, но для упрощения примем такое предположение. В каждой очередной позиции текста может появитьсялюбой из N символов. Тогда, согласно известной нам формуле N = 2I (см. содержательный подход) каждый такой символ несет I бит информации, которое можно определить из решения уравнения: 2I = 54. Получаем: I = 5.755 бит - такое количество информации несет один символ в русскомтексте.

Чтобы найти количество информации во всем тексте, нужно посчитать число символов в нем и умножить на I.

Посчитаем количество информации на одной странице книги. Пусть страница содержит 50 строк. В каждой строке — 60 символов. Значит, настранице умещается 50x60=3000 знаков. Тогда объем информации будет равен: 5,755 х 3000 = 17265 бит.

При алфавитном подходе к измерению информации количество информации зависит не от содержания, а от размера текста и мощностиалфавита.

При использовании двоичной системы (алфавит состоит из двух знаков: 0 и 1) каждый двоичный знак несет 1 бит информации.

Применение алфавитного подхода удобно, прежде всего, при использовании технических средств работы с информацией. В этом случае теряютсмысл понятия «новые - старые», «понятные - непонятные» сведения.

Алфавитный подход является объективным способом измерения информации в отличие от субъективного содержательного подхода.

Удобнее всего измерять информацию, когда размер алфавита N равен целой степени двойки. Например, если N=16, то каждый символ несет 4 бита информации потому, что 24 = 16. А если N =32, то один символ «весит» 5 бит.

Ограничения на максимальный размер алфавита теоретически не существует. Однако есть алфавит, который можно назвать достаточным. С ним мы встречались при рассмотрении темы "Кодирование текствовой информации". Это алфавит мощностью 256 символов. В алфавит такого размераможно поместить все практически необходимые символы: латинские и русские буквы, цифры, знаки арифметических операций, всевозможныескобки, знаки препинания....

Поскольку 256 = 28, то один символ этого алфавита «весит» 8 бит. Причем 8 бит информации — это настолько характерная величина, что ейдаже присвоили свое название - байт.

1 байт = 8 бит.

Для измерения больших объемов информации используются следующие единицы:

· 1 Кб (один килобайт)= 1024 байт

· 1 Мб (один мегабайт)= 1024 Кб

· 1 Гб (один гигабайт)= 1024 Мб

· 1Тбайт (один терабайт)=1024Гбайт

· 1Пбайт (один петабайт)=1024Тбайт

· 1Эбайт (один экзабайт)=1024Пбайт

· 1Збайт (один зетабайт)=1024Эбайт

· 1Йбайт (один йотабайт)=1024Збайт.

Задача 1.

Сообщение, записанное буквами из 64-символьного алфавита, содержит 20 символов. Какой объем информации оно несет?

Решение.

20I = 64, I = 6 бит - количество информации, которое несет каждый символ, 20 • 6 = 120 бит = 15 байт.

Задача 2.

Одно племя имеет 32-символьный алфавит, а второе племя - 64-символьный алфавит. Вожди племен обменялись письмами. Письмо первогоплемени содержало 80 символов, а письмо второго племени -70 символов. Сравните объем информации, содержащийся в письмах.

Решение.

Первое племя: 2I = 32, I = 5 бит - количество информации, которое несет каждый символ, 5 • 80 = 400 бит.
Второе племя: 2I = 64, I = 6 бит - количество информации, которое несет каждый символ, 6 • 70 = 420 бит.
Значит, письмо второго племени содержит больше информации.

Задача 3.

Сколько килобайт составляет сообщение, содержащее 12288 бит?

Решение.

1 килобайт=1024 байт, 1 байт = 8 бит.
12288/8/1024 = 1,5КБ.

Задача 4.

Можно ли уместить на одну дискету книгу, имеющую 432 страницы, причем на каждой странице этой книги 46 строк, а в каждой строке 62 символа?

Решение.

46 • 62 • 432 =1 232 064 символов в книге = 1 232 064 байт
1232 064 байт =1,17 Мб.
Емкость дискеты 1,44 МБ, значит, книга может поместиться на одну дискету.

Наши рекомендации