Коды и кодирование дискретных сообщений
С помощью отдельных знаков, наборов знаков и алфавитов (наборов знаков с линейным порядком) можно записывать дискретные сообщения. Поскольку аналоговая информация непрерывна, записать ее с помощью вышеперечисленных понятий нельзя.
Пусть имеется предложение некоторого естественного языка, тогда его можно рассматривать как последовательность знаков, по крайней мере, тремя различными способами:
а) как последовательность букв, цифр и знаков препинания;
б) как последовательность слов, которые в другом контексте могут сами рассматриваться как знаки (например, в стенографии);
в) все предложение целиком можно рассматривать как знак (например, при переводе пословицы на другой язык она не переводится дословно, а подбирается аналогичная по смыслу).
Таким образом, можно констатировать следующее:
дискретные сообщения представляют собой последовательности знаков (конечных или бесконечных). При этом их обычно разбивают на конечные последовательности знаков, называемые словами.
На более высоком уровне каждое слово может снова рассматриваться как знак, при этом соответственно набор знаков будет шире первоначального (алфавит - 33 буквы, слов - 150 тысяч).
Сформулируем ряд определений.
В процессе обмена информацией часто приходится производить операции кодирования и декодирования, поэтому:
@ Кодом называется правило, описывающее отображение одного набора знаков в другой набор знаков (или слов). Кодом также называют и множество образов, то есть конкретных графических изображений знаков.
@ Если каждый образ при кодировании является отдельным знаком (но не словом!), то такое отображение называют шифровкой, а образы - шифрами.
@ Процесс возврата этого отображения к первоначальному виду, если оно однозначно, называется декодированием, или дешифровкой.
Схематично процессы шифровки и дешифровки сообщения изображены на рисунке, где в качестве примера приведена буква «Е», являющаяся образом (то есть отдельным знаком алфавита), представленная соответствующим шифром - шерлок-холмсовским «пляшущим человечком».
Нас, прежде всего, будут интересовать технические коды, так как в ПК информация представлена в двоичном коде, алфавит которого состоит из двух цифр 0 и 1.
То есть, чтобы вывести на монитор или записать на жесткий диск какую либо информацию (текстовую, звуковую или графическую) эта информация должна быть закодирована с помощью двоичного алфавита.
Технология кодирования и измерения количества информации
Существует 2 подхода к измерению количества информации: определение К. Шеннона, применяемое в математической теории информации, и определение А. Н. Колмогорова, применяемое в отраслях информатики, связанных с использованием компьютеров (computer science).
1. Содержательный подход - информативность сообщения характеризуется содержащейся в нем полезной информацией - той частью сообщения, которая уменьшает неопределенность какой-либо ситуации. Неопределенность некоторого события - это количество возможных исходов данного события. Так, например, неопределенность погоды на завтра обычно заключается в диапазоне температуры воздуха и возможности выпадения осадков.
2. С позиций computer science носителями информации являются любые последовательности символов, которые хранятся, передаются и обрабатываются с помощью компьютера При алфавитном подходе всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. Информативность последовательности символов не зависит от содержания сообщения, а определяется минимально необходимым количеством символов для ее кодирования. Алфавитный подход является объективным, т.е. он не зависит от субъекта, воспринимающего сообщение. Смысл сообщения учитывается на этапе выбора алфавита кодирования либо не учитывается вообще. На первый взгляд содержательный и алфавитный подходы кажутся разными, тем не менее, они хорошо согласуются при выборе единиц измерения.