Эффективное кодирование

(4.3)

Для кодирования символов исходного алфавита используют двоичные коды переменной длины: чем больше частота символа, тем короче его код. Эффективность кода определяется средним числом двоичных разрядов для кодирования одного символа – l_ср по формуле (4.3):

где k – число символов исходного алфавита;

n_s – число двоичных разрядов для кодирования символа s;

f_s – частота символа s; причем

Существуют два классических метода эффективного кодирования: методы Шеннона-Фано и Хаффмена. Входными данными для обоих методов является заданное множество исходных символов для кодирования с частотами; результат - эффективные коды.

Метод Шеннона-Фано

Этот метод требует упорядочения исходного множества символов по не возрастанию их частот. Затем выполняются следующие шаги:

а) список символов делится на две части (назовем их первой и второй частями) так, чтобы суммы частот обеих частей (назовем их S₁ и S₂) были точно или примерно равны. В случае, когда точного равенства достичь не удается, разница между суммами должна быть минимальна;

б) кодовым комбинациям первой части дописывается 1, кодовым комбинациям второй части дописывается 0;

в) анализируют первую часть: если она содержит только один символ, работа с ней заканчивается, – считается, что код для ее символов построен, и выполняется переход к шагу г) для построения кода второй части. Если символов больше одного, переходят к шагу а) и процедура повторяется с первой частью как с самостоятельным упорядоченным списком;

г) анализируют вторую часть: если она содержит только один символ, работа с ней заканчивается и выполняется обращение к оставшемуся списку (шаг д). Если символов больше одного, переходят к шагу а) и процедура повторяется со второй частью как с самостоятельным списком;

д) анализируется оставшийся список: если он пуст – код построен, работа заканчивается. Если нет, – выполняется шаг а).

Пример 4.6. Даны символы a, b, c, d с частотами f_a = 0,5; f_b = 0,25; f_c = 0,125; f_d= 0,125. Построить эффективный код методом Шеннона-Фано.

Сведем все построение в таблицу (табл. 4.7), где разместим исходные данные, упорядочив их, как требует метод.

Первая линия деления проходит под символом a: соответствующие суммы S₁ и S₂ равны между собой и равны 0,5. Тогда формируемым кодовым комбинациям дописывается 1 для верхней (первой) части и 0 для нижней (второй) части. Поскольку это первый шаг формирования кода, двоичные цифры не дописываются, а только начинают формировать код. В силу того, что верхняя часть списка содержит только один элемент (символ а), работа с ней заканчивается, а эффективный код для этого символа считается сформированным.

Второе деление выполняется под символом b: суммы частот S₁ и S₂вновь равны между собой и равны 0,25. Тогда кодовой комбинации символов верхней части дописывается 1, а нижней части – 0. Таким образом, к полученным на первом шаге фрагментам кода, равным 0, добавляются новые символы. Поскольку верхняя часть нового списка содержит только один символ (b), формирование кода для него закончено.

Третье деление проходит между символами c и d: к кодовой комбинации символа c приписывается 1, коду символа d приписывается 0.

Таким образом, получили коды:

a - 1,

b - 01,

c - 001,

d - 000.

Определим эффективность построенного кода по формуле (4.3):

l_ср = 0,5*1 + 0,25*01 + 0,125*3 + 0,125*3 = 1,75.

При кодировании четырех символов кодом постоянной длины требуется два двоичных разряда (см. пример 4.1).

Таким образом, сэкономлено 0,25 двоичного разряда в среднем на один символ.

Таблица 4.7

Исход- ные сим- волы

Час- тоты символов

Этапы построения кода

Формируемый код

первое деление

второе деление

третье деление

первое деление

второе деление

третье деление

0,5

S₁ = 0,5

код для символа a сформирован

0,25

S₁ = 0,25

код для символа b сформирован

линия деления

0,125

S₂=0,25+0,125+

S₂= 0,125+0,125 = 0,25

S₁ = 0,125 S₂= 0,125

0,125

0,125=0,5

Метод Хаффмена

Этот метод имеет два преимущества по сравнению с методом Шеннона-Фано: он устраняет неоднозначность кодирования, возникающую из-за примерного равенства сумм частот при разделении списка на две части (линия деления проводится неоднозначно), и имеет, в общем случае, большую эффективность кода.

Исходное множество символов упорядочивается по не возрастанию частоты и выполняются следующие шаги:

1) объединение частот:

· две последние частоты складываются, а соответствующие символы исключаются из списка;

· оставшийся после исключения символов список пополняется суммой частот и вновь упорядочивается;

· предыдущие шаги повторяются до тех пор, пока ни получится единица в результате суммирования и список ни уменьшится до одного символа;

2) построение кодового дерева:

· строится двоичное кодовое дерево: корнем его является вершина, полученная в результате объединения частот, равная 1; листьями – исходные вершины; остальные вершины соответствуют либо суммарным, либо исходным частотам, причем для каждой вершины левая подчиненная вершина соответствует большему слагаемому, а правая – меньшему; ребра дерева связывают вершины-суммы с вершинами-слагаемыми. Структура дерева показывает, как происходило объединение частот;

· ребра дерева кодируются: каждое левое кодируется единицей, каждое правое – нулем;

3) формирование кода: для получения кодов листьев (исходных кодируемых символов) продвигаются от корня к нужной вершине и «собирают» веса проходимых ребер.

Пример 4.7. Даны символы a, b, c, d с частотами f_a = 0,5; f_b = 0,25; f_c = 0,125; f_d= 0,125. Построить эффективный код методом Хаффмена.

1) объединение частот:

Таблица 4.8

Исходные символы s	Частоты f_s	Этапы объединения
первый	второй	третий
a	0,5	0,5	0,5
b	0,25	0,25	0,5
c	0,125	0,25
d	0,125