Синтаксическая мера информации
Проблемы синтаксического уровня касаются создания теоретических основ построения систем связи, основные показатели функционирования которых были бы близки к предельно возможным, а также совершенствования существующих систем с целью повышения эффективности их использования. Это чисто технические проблемы совершенствования методов передачи сообщений и их материального воплощения — сигналов. Другими словами, на этом уровне изучают проблемы доставки получателю сообщений как совокупности знаков, полностью абстрагируясь от их смыслового и прагматического содержания.
Основу теории информации составляют результаты решения ряда проблем именно этого уровня. Она опирается на понятие «количество информации», являющееся мерой частоты употребления знаков передаваемых сообщений.
Для измерения информации вводятся два параметра:
1. количество информации I;
2. объем данных Vд.
Объем данных
Объем данных Vд в сообщении измеряется количеством символов (разрядов) в сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных:
• в двоичной системе счисления единица измерения — бит (bit — binary digit — двоичный разряд);
• в десятичной системе счисления единица измерения — дит (десятичный разряд).
Пример. Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных Vд = 8 бит. Сообщение в десятичной системе в виде шестиразрядного числа 275903 имеет объем данных Vд = 6 дит.
Количество информации
Получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является функция H(α), которая в то же время служит и мерой неопределенности состояния системы.
После получения некоторого сообщения β получатель приобрел некоторую дополнительную информацию Iβ(α), уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения β) неопределенность состояния системы стала Hβ(α).
Тогда количество информации Iβ(α) о системе, полученной в сообщении β, определится как
т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.
Если конечная неопределенность Hβ(α) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации Iβ(α) = Н(α).
Другими словами, энтропия системы Н(α) может рассматриваться как мера недостающей информации.
Энтропия системы Н(α), имеющая N возможных состояний, согласно формуле Шеннона, равна:
где Pi — вероятность того, что система находится в i-м состоянии.
Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны Pi = 1/N, ее энтропия определяется соотношением (Хартли, 1923)
Таким образом, количество информации зависит от вероятностных характеристик первичного алфавита, а объем зависит от длины сообщения во вторичном алфавите и равен , где l длина сообщений, а k - количество передаваемых букв алфавита.
Пример. Определить количество информации и объем информации от сообщения “Ночью ожидается ураган ” переданному по 7 элементному телеграфному коду.
Решение. Число букв k=23. Тогда
. Энтропия русского алфавита без учета статистических характеристик равна
Таким образом, мы видим, что объем информации, занимает больше памяти, чем количество информации.