Энтропийная характеристика информации

Количество информации в сообщении определяется при энтропийном методе тем, насколько уменьшится неопределенность в появлении некоторых событий после получения сообщения и выражается математической зависимостью от совокупности вероятности этих событий.

H = log 2 N,

Данную формулу предложил в 1928 г Хартли, США.

Если исходов N, но их вероятности различны: p1, p2… pN, то применяют формулу Клода Шеннона, США, предлженную в середине 40-х

H= - (p1 log2 p1 + p2 log2 p2 + … + pN log2 pN).

Легко заметить, что если вероятности p1, … , pN равны, то каждая из них равна 1/N, и формула Шеннона превращается в формулу Хартли.

В вычислительной технике вся обрабатываемая информация не зависимо от ее природы (текст, число, изображение и т.д.) представляется в двоичной форме записи числа, т.е. состоящая из двух символов 0и 1.Один такой символ называется битом.

Бит в теории информации — количество информации, необходимое для различения двух равновероятных сообщений, уменьшающее неопределенность знаний в 2 раза.

Битом в вычислительной технике называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Примеры:

- «Орел–решетка» при бросании монеты. 2 исхода, исходы равновероятны. В сообщении: «Монета выпала орлом» – 1 бит информации. Было два возможных исхода, остался 1.

- Опыт по выбору загаданной карты из восьми карт одной масти: 7, 8, 9, 10, В, Д, К, Т. Загадана 10. Вопросы надо ставить так, чтобы ответы "Да", "Нет" уменьшали неопределенность в два раза.

- Тогда: картинка? Нет! 1 бит

две старшие? Да! 1 бит

девятка? Нет! 1 бит.

Ясно, что это десятка. Понадобилось 3 бита при 8 равновероятных исходах. В колоде из 32 карт для однозначного выбора десятки надо задать 5 вопросов, т.е. в сообщении: «Я загадал 10 ¨» содержится 5 бит информации.

3.2 Объемный (символьный) метод определения количества информации

Объемный (символьный) метод определения количества информации представляет собой определение количества символов, содержащихся в конкретном сообщении.

Например, одно и тоже число можно записать разными способами:

- первый способ – 20;

- второй способ – “двадцать”;

- третий способ – ХХ;

- четвертый способ – 011 000.

Любой из этих способов чувствителен к форме представления (записи) числа.

Символьный метод не связывает количество информации в сообщении с его содержанием.

Алфавит– все множество символов данного языка, включая цифры, знаки препинания и даже пробел.

Полное количество символов – мощность алфавита N. В русском языке N=54 (все буквы + пробел + цифры + знаки препинания). При этом (принимаем, что появление символов равновероятно)

I54 = log254 = 5,755.

Если количество символов в тексте равно М, то текст несет объем информации I54×М или 5,755 М (при любом содержании!)

Количество информации – функция от мощности алфавита и объема текста.

Книга толще – при прочих равных условиях – объем информации больше (если язык один и тот же!)

Одна страница текста на разных языках – разные объемы информации.

Мощность алфавита может быть любой.

Достаточный алфавит содержит 256 символов – русский и латинский алфавиты, цифры, знаки препинания и др. символы, включая элементы псевдографики.

Бит слишком мелкая единица измерения. На практике чаще применяется более крупная единица – байт, равная восьми битам.

Именно восемь бит требуется для того, чтобы закодировать любой из 256 символов. Считая появление различных символов равновероятным, находим, что энтропия достаточного алфавита составляет

I256 = log2 256 = 8 бит = 1 байт.

Значит, любая книга, набранная на компьютере, имеет объем информации 8S байт, где S – число символов. При 40 строках по 60 символов 1 страница содержит 2400 байт информации.

При строгом подходе для определения объема информации на одной странице надо брать формулу Шеннона.

Широко используются также еще более крупные производные единицы информации:

1 Килобайт (Кбайт) = 1024 байт = 210 байт,

1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт,

1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

Скорость передачи информации измеряется в Кбайт/с, бит/с, байт/с.

3.3 Алгоритмический метод определения количества информации

Алгоритмический метод определения количества информации характеризуется сложностью (размером) программы, которая позволяет ее произвести.

Так например, компьютерная программы, печатающее слово из одних 0 достаточна проста, а программа, печатающее слово из 0 и 1 уже более сложная. При разных машинах и разных языках программирования (алгоритмах) это все разное. Поэтому задаются некоторой вычислительной машиной (чаще всего машиной Тьюринга), а предлагаемая количественная оценка информации определяется сложностью слова, как минимальное число внутренних состояний машины, требуемой для его воспроизведения.

Наши рекомендации