Кодом называется правило для преобразования одного набора знаков в другой набор знаков
Знак – это элемент конечного множества отличных друг от друга элементов, с помощью которых кодируется сообщение.
Набор знаков, в котором определен порядок их следования, называется алфавитом.
Алфавит, состоящий из двух знаков, называется двоичным алфавитом.
В вычислительной технике в настоящее время широко используется двоичное кодирование с алфавитом {0,1} (рисунок 3). Наиболее распространенными кодами являются ASCII (American standart code for information interchange – американский стандартный код для обмена информацией), ДКОИ-8 (двоичный код обмена информации), Win1251 или СР1251 (code page), Unicode.
Рисунок 3 Пример универсального кодирования с помощью алфавита {0,1}.
Длиной кода называется то количество знаков кодирующего алфавита, которое используется при кодировании одного знака кодируемого сообщения.
Код может быть постоянной и переменной длины.
В естественных языках используются в основном коды переменой длины (слова русского языка бывают длиной в 1, 2, 3 и т.д. букв); в технике чаще используются коды постоянной длины. Так длина кода ASCII 8 бит или 1 байт, длина кода Unicode 16 бит или 2 байта.
Если длина кода равняется n, то алфавитом, состоящим из k знаков, можно закодировать М = kn различных состояний.
С помощью двоичного алфавита (k = 2) в ASCII (n = 8) таблица кодировки включает 28 = 256 символов, в Unicode (n = 16) таблица кодировки включает 216 = 65536 символов.
Чтобы закодировать М различных состояний с постоянной длиной кода, используя алфавит из k знаков, длина кода должна быть не менее n = [ logk M +1].