Единицы измерения информации в вычислительной технике
Практическая работа
Количество информации. Формулы Хартли и Шеннона
В 1928 г. американский инженер Р. Хартли предложил научный подход к оценке сообщений. Предложенная им формула имела следующий вид:
I = log2 K ,
где К - количество равновероятных событий;
I - количество бит в сообщении, такое, что любое из К событий произошло.
Тогда K=2I.
Иногда формулу Хартли записывают так:
I = log2 K = log2 (1 / р) = - log2 р,
т. к. каждое из К событий имеет равновероятный исход
р = 1/К, то К=1/р.
Задача.
Шарик находится в одной из трех урн: А, В или С. Определить сколько бит информации содержит сообщение о том, что он находится в урне В.
Решение.
Такое сообщение содержит I = log2 3 = 1,585 бита информации.
Но не все ситуации имеют одинаковые вероятности реализации. Существует много таких ситуаций, у которых вероятности реализации различаются.
Например, если бросают несимметричную монету или "правило бутерброда".
( Отрывок из книги "Секрет великих полководцев", В.Абчук).
"Однажды в детстве я уронил бутерброд. Глядя, как я виновато вытираю масляное пятно, оставшееся на полу, старший брат успокоил меня: не горюй, это сработал закон бутерброда.
Что еще за закон такой? - спросил я.
Закон, который гласит: "Бутерброд всегда падает маслом вниз". Впрочем, это шутка, - продолжал брат. - Никакого закона нет. Просто бутерброд действительно ведет себя довольно странно: большей частью масло оказывается внизу.
Давай-ка еще пару раз уроним бутерброд, проверим, - предложил я. - Все равно ведь его придется выкидывать.
Проверили. Из десяти раз восемь бутерброд упал маслом вниз.
И тут я задумался: а можно ли заранее узнать, как сейчас упадет бутерброд маслом вниз или вверх?
Наши опыты прервала мать…"
В 1948 г. американский инженер и математик К Шеннон предложил формулу для вычисления количества информации для событий с различными вероятностями. Если I - количество информации, К - количество возможных событий, рi - вероятности отдельных событий, то количество информации для событий с различными вероятностями можно определить по формуле:
I = - Sum рi log2 рi,
где i принимает значения от 1 до К.
Формулу Хартли теперь можно рассматривать как частный случай формулы Шеннона:
I = - Sum 1 / К log2 (1 / К) = I = log2 К.
При равновероятных событиях получаемое количество информации максимально.
Задача 1.
Определить количество информации, получаемое при реализации одного из событий, если
а) бросают несимметричную четырехгранную пирамидку;
б) бросают симметричную и однородную четырехгранную пирамидку.
в) играют в рулетку с 32-мя секторами,
Решение.
а) Будем бросать несимметричную четырехгранную пирамидку. Вероятность отдельных событий пусть будет такова: р1=1/2, р2=1/4, р3=1/8, р4 =1/8, тогда количество информации, получаемой после реализации одного из этих событий, рассчитывается по формуле:
I = -(1/2 log21/2 + 1/4 log21/4 + 1/8 log21/8 + 1/8 log21/8) = 1/2 + 2/4 + 3/8 + 3/8 = 14/8 = 1,75 (бит).
б) Для пункта (б) задачу решить самостоятельно.
.
в) Для пункта (в) задачу решить самостоятельно.
4. Сколько различных чисел можно закодировать с помощью 8 бит?
Задачу решить самостоятельно
(Задания для решения)
Практическая работа
Измерение информации
Физиологи и психологи научились определять количество информации, которое человек может воспринимать при помощи органов чувств, удерживать в памяти и подвергать обработке. Информацию можно представлять в различных формах: звуковой, знаковой и др. рассмотренный выше способ определения количества информации, получаемое в сообщениях, которые уменьшают неопределенность наших знаний, рассматривает информацию с позиции ее содержания, новизны и понятности для человека. С этой точки зрения в опыте по бросанию кубика одинаковое количество информации содержится в сообщениях "два", "вверх выпала грань, на которой две точки" и в зрительном образе упавшего кубика.
При передаче и хранении информации с помощью различных технических устройств информацию следует рассматривать как последовательность знаков (цифр, букв, кодов цветов точек изображения), не рассматривая ее содержание.
Считая, что алфавит (набор символов знаковой системы) - это событие, то появление одного из символов в сообщении можно рассматривать как одно из состояний события. Если появление символов равновероятно, то можно рассчитать, сколько бит информации несет каждый символ. Информационная емкость знаков определяется их количеством в алфавите. Чем из большего количества символов состоит алфавит, тем большее количество информации несет один знак. Полное число символов алфавита принято называть мощностью алфавита.
Молекулы ДНК (дезоксирибонуклеиновой кислоты) состоят из четырех различных составляющих (нуклеотидов), которые образуют генетический алфавит. Информационная емкость знака этого алфавита составляет:
4 = 2I, т.е. I = 2 бит.
Каждая буква русского алфавита (если считать, что ё=е) несет информацию 5 бит (32 = 2I).
При таком подходе в результате сообщения о результате бросания кубика, получим различное количество информации, Чтобы его подсчитать, нужно умножить количество символов на количество информации, которое несет один символ.
Количество информации, которое содержит сообщение, закодированное с помощью знаковой системы, равно количеству информации, которое несет один знак, умноженному на число знаков в сообщении.
Из курса физики вы знаете, что прежде, чем измерять значение какой-либо физической величины, надо ввести единицу измерения. У информации тоже есть такая единица - бит, но смысл ее различен при разных подходах к определению понятия “информация”.
I ПОДХОД.
Неизмеряемость информации в быту(информация как новизна)
Вы получили какое-то сообщение, например, прочитали статью в любимом журнале. В этом сообщении содержится какое-то количество информации. Как оценить, сколько информации Вы получили? Другими словами, как измерить информацию? Можно ли сказать, что чем больше статья, тем больше информации она содержит?
Разные люди, получившие одно и то же сообщение, по-разному оценивают его информационную ёмкость, то есть количество информации, содержащееся в нем. Это происходит оттого, что знания людей о событиях, явлениях, о которых идет речь в сообщении, до получения сообщения были различными. Поэтому те, кто знал об этом мало, сочтут, что получили много информации, те же, кто знал больше, могут сказать, что информации не получили вовсе. Количество информации в сообщении, таким образом, зависит от того, насколько ново это сообщение для получателя.
В таком случае, количество информации в одном и том же сообщении должно определяться отдельно для каждого получателя, то есть иметь субъективный характер. Но субъективные вещи не поддаются сравнению и анализу, для их измерения трудно выбрать одну общую для всех единицу измерения.
Таким образом, с точки зрения информации как новизны, мы не можем однозначно и объективно оценить количество информации, содержащейся даже в простом сообщении. Что же тогда говорить об измерении количества информации, содержащейся в научном открытии, новом музыкальном стиле, новой теории общественного развития.
Поэтому, когда информация рассматривается как новизна сообщения для получателя, неставится вопрос об измерении количества информации.
II ПОДХОД - объемный.
Измерение информации в технике(информация как сообщения в форме знаков или сигналов, хранимые, передаваемые и обрабатываемые с помощью технических устройств).
В технике, где информацией считается любая хранящаяся, обрабатываемая или передаваемая последовательность знаков, сигналов, часто используют простой способ определения количества информации, который может быть назван объемным. Он основан на подсчете числа символов в сообщении, то есть связан только с длиной сообщения и не учитывает его содержания.
Длина сообщения зависит от числа знаков, употребляемых для записи сообщения. Например, слово “мир” в русском алфавите записывается тремя знаками, в английском - пятью (peace), а в КОИ-8 - двадцатью четырьмя битами (111011011110100111110010).
Пример
Исходное сообщение | Количество информации | |||
на языке | в машинном представлении (КОИ - 8) | в символах | в битах | в байтах |
рим | 11110010 11101001 11101101 | |||
мир | 11101101 11101001 11110010 | |||
миру мир! | 11101101 11101001 11110010 11110101 00100000 11101101 1110101 11110010 00100001 | |||
(** */ | 00101000 00101010 00101010 00100000 00101010 00101111 |
В вычислительной технике применяются две стандартные единицы измерения: бит (англ. binary digit -двоичная цифра) и байт (byte).
Конечно, будет правильно, если Вы скажете: “В слове “Рим” содержится 24 бита информации, а в сообщении “Миру мир!” - 72 бита”. Однако, прежде, чем измерить информацию в битах, Вы определяете количество символов в этом сообщении. Нам привычней работать с символами, машине - с кодами. Каждый символ в настоящее время в вычислительной технике кодируется 8-битным или 16-битным кодом. Поэтому, для удобства была введена более “крупная” единица информации в технике (преимущественно в вычислительной) - байт. Теперь Вам легче подсчитать количество информации в техническом сообщении - оно совпадает с количеством символов в нем.
Поскольку компьютер предназначен для обработки больших объемов информации, то используют производные единицы - килобайт (Кб), мегабайт (Мб),гигабайт (Гб).
Обычно приставка “кило” означает тысячу, а приставка “мега” - миллион, но в вычислительной технике все “привязывается” к принятой двоичной системе кодирования.
В силу этого один килобайт равен не тысяче байтов, а 210 = 1024 байтов.
Аналогично, 1 Мб = 210 Кб = 1024 Кб = 220 байт = 1 048 576 байт.
1 Гб = 210 Мб = 220 Кб = 230 байт = 1 073 741 824 байт.
Пример
В 100 Мб можно “уместить”:
страниц текста | 50 000 или 150 романов |
цветных слайдов высочайшего качества | |
аудиозапись речи видного политического деятеля | 1.5 часа |
музыкальный фрагмент качества CD -стерео | 10 минут |
фильм высокого качества записи | 15 секунд |
протоколы операций с банковским счетом | за 1000 лет |
III ПОДХОД - вероятностный. Измерение информации в теории информации(информация как снятая неопределенность)
Получение информации (ее увеличение) одновременно означает увеличение знания, что, в свою очередь, означает уменьшение незнания или информационной неопределенности.
За единицу количества информации принимают выбор одного из двухравновероятных сообщений (“да” или “нет”, “1” или “0”). Она также названа бит. Вопрос ценности этой информации для получателя - это уже из иной области.
Пример
Книга лежит на одной из двух полок - верхней или нижней. Сообщение о том, что книга лежит на верхней полке, уменьшает неопределенность ровно вдвое и несет 1 бит информации.
Сообщение о том, как упала монета после броска - “орлом” или “решкой”, несет один бит информации.
В соревновании участвуют 4 команды. Сообщение о том, что третья команда набрала большее количество очков, уменьшает первоначальную неопределенность ровно в четыре раза (дважды по два) и несет два бита информации.
Очень приближенно можно считать, что количество информации в сообщении о каком-то событии совпадает с количеством вопросов, которые необходимо задать и ответом на которые могут быть лишь “да” или “нет”, чтобы получить ту же информацию. Причем событие, о котором идет речь, должно иметь равновероятные исходы.
Пример
Сколько вопросов надо задать, чтобы отгадать одну из 32 карт (колода без шестерок), если ответами могут быть лишь “да” или “нет”?
Оказывается достаточно всего лишь 5 вопросов, но задавать их надо так, чтобы после каждого ответа можно было “отбрасывать” из рассмотрения ровно половину карт, среди которых задуманной не может быть. Такими , например, являются вопросы о цвете масти карты (“Задуманная карта красной масти?”), о типе карты (“Задуманная карта - “картинка”?”) и т.п.
То есть сообщение о том, какая карта из 32 задумана несет 5 бит информации.
Во всех приведенных примерах число равновероятных исходов события, о котором идет речь в сообщении, было кратным степени числа 2 (4 = 22, 32 = 25). Поэтому сообщение “несло” количество бит информации всегда было целым числом. Но в реальной практике могут встречаться самые разные ситуации.
Пример
Сообщение о том, что на светофоре красный сигнал, несет в себе информации больше, чем бит. Объясните почему (письменно).
Пример
Известно, что Иванов живет на улице Весенней. Сообщение о том, что номер его дома есть число четное, уменьшило неопределенность. Получив такую информацию, мы стали знать больше, но информационная неопределенность осталась, хотя и уменьшилась.
Почему в этом случае мы не можем сказать, что первоначальная неопределенность уменьшилась вдвое (иными словами, что мы получили 1 бит информации)? Если Вы не знаете ответа на этот вопрос, представьте себе улицу, на четной стороне которой, например, четыре дома, а на нечетной - двадцать. Такие улицы не такая уж большая редкость.
Последние примеры показывают, что данное выше определение количества информации слишком упрощено. Уточним его. Но прежде разберем еще один пример.
Пример
Пылкий влюбленный, находясь в разлуке с объектом своей любви, посылает телеграмму: “Любишь?”. В ответ приходит не менее лаконичная телеграмма: “Да!”. Сколько информации несет ответная телеграмма? Альтернатив здесь две- либо Да, либо Нет. Их можно обозначить символами двоичного кода 1 и 0. Таким образом, ответную телеграмму можно было бы закодировать всего одним двоичным символом.
Можно ли сказать, что ответная телеграмма несет одну единицу информации?
Если влюбленный уверен в положительном ответе, то ответ “да” почти не даст ему никакой новой информации. То же самое относится и к безнадежно влюбленному, уже привыкшему получать отказы. Ответ “нет” также принесет ему очень мало информации. Но внезапный отказ уверенному влюбленному (неожиданное огорчение) или ответ “да” безнадежному влюбленному (нечаянная радость) несет сравнительно много информации, настолько много, что радикально изменяется все дальнейшее поведение влюбленного, а, может быть, его судьба!
Таким образом, с точки зрения на информацию как на снятую неопределенность количество информации зависит от вероятности получения данного сообщения. Причем, чем больше вероятность события, тем меньше количество информации в сообщении о таком событии.
Иными словами, количество информации в сообщении о каком-то событии зависит от вероятности свершения данного события.
Научный подход к оценке сообщений был предложен еще в 1928 году Р.Хартли. Расчетная формула имеет вид:
I = log2 N или 2I = N,
где N – количество равновероятных событий (число возможных выборов),
I - количество информации.
Если N = 2 (выбор из двух возможностей), то I = 1 бит.
Бит выбран в качестве единицы количества информации потому, что принято считать, что двумя двоичными словами исходной длины k или словом длины 2k можно передать в 2 раза больше информации, чем одним исходным словом. Число возможных равновероятных выборов при этом увеличивается в 2k раз, тогда как I удваивается.
Иногда формула Хартли записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность p = 1 / N, то N = 1 / p и формула имеет вид:
I = log2 (1/p) = - log2 p
Познакомимся с более общим случаем вычисления количества информации в сообщении об одном из N, но уже неравновероятных событий. Этот подход был предложен К.Шенноном в 1948 году.
Пусть имеется строка текста, содержащая тысячу букв. Буква “о” в тексте встречается примерно 90 раз, буква ”р” ~ 40 раз, буква “ф” ~ 2 раза, буква “а” ~ 200 раз. Поделив 200 на 1000, мы получим величину 0.2, которая представляет собой среднюю частоту, с которой в рассматриваемом тексте встречается буква “а”. Вероятность появления буквы “а” в тексте (pa)можем считать приблизительно равной 0.2. Аналогично, pр = 0.04, pф = 0.002, ро = 0.09.
Далее поступаем согласно К.Шеннону. Берем двоичный логарифм от величины 0.2 и называем то, что получилось количеством информации, которую переносит одна-единственная буква “а” в рассматриваемом тексте. Точно такую же операцию проделаем для каждой буквы. Тогда количество собственной информации, переносимой одной буквой равно
hi = log2 1/pi = - log2 pi,
где pi - вероятность появления в сообщении i-го символа алфавита.
Удобнее в качестве меры количества информации пользоваться не значением hi , а средним значением количества информации, приходящейся на один символ алфавита
H = Sum pi hi = - Sum pi log2 pi
Значение Н достигает максимума при равновероятных событиях, то есть при равенстве всех pi
pi = 1 / N.
В этом случае формула Шеннона превращается в формулу Хартли.
В технике (теория кодирования и передачи сообщений) под количеством информации понимают количество кодируемых, передаваемых или хранимых символов.
Бит - двоичный знак двоичного алфавита {0, 1}.
Бит- минимальная единица измерения информации.
Байт - единица количества информации в системе СИ.
Байт - это восьмиразрядный двоичный код, с помощью которого можно представить один символ.
Единицы измерения информации в вычислительной технике
1 бит | ||
1 байт | = 8 бит | |
1 Кбайт (килобайт) | = 210 байт = 1024 байт | ~ 1 тысяча байт |
1 Мбайт (мегабайт) | = 210 Кбайт = 220 байт | ~ 1 миллион байт |
1 Гбайт (гигабайт) | = 210 Мбайт = 230 байт | ~ 1 миллиард байт |
Информационный объем сообщения (информационная емкость сообщения) - количество информации в сообщении, измеренное в битах, байтах или производных единицах (Кбайтах, Мбайтах и т.д.).
В теории информации количеством информации называют числовую характеристику сигнала, которая не зависит от его формы и содержания и характеризует неопределенность, которая исчезает после получения сообщения в виде данного сигнала. В этом случае количество информации зависит от вероятности получения сообщения о том или ином событии.
Для абсолютно достоверного события (событие обязательно произойдет, поэтому его вероятность равна 1) количество информации в сообщении о нем равно 0. Чем невероятнее событие, тем большее количество информации несет сообщение о нем. Лишь при равновероятных ответах ответ “да” или “нет” несет один бит информации.
Количество информации при вероятностном подходе можно вычислить, пользуясь следующими формулами:
1). Формула Хартли.
I = log2 N или 2I = N,
где N - количество равновероятных событий (число возможных выборов),
I - количество информации.
2). Модифицированная формула Хартли.
и формула имеет вид
I = log2 (1/p) = - log2 p
где p - вероятность наступления каждого из N возможных равновероятных событий.
3). Формула Шеннона.
H = S pi hi = - S pi log2 pi
где pi - вероятность появления в сообщении i-го символа алфавита;
hi = log2 1/pi = - log2 pi - количество собственной информации, переносимой одним символом;
Н - среднее значением количества информации
Задания.