Взаимосвязь структурного и статистического подходов к измерению информации
Несмотря на видимые различия между введенными подходами к измерению информации, они взаимосвязаны, и эта взаимосвязь имеет практическое значение (прагматику). Для исследования этого вопроса введем следующие исходные данные и зависимости:
1) дан алфавит А исходных символов: А = {ak, am, …, ah}. Очевидно, мощность данного множества |A| = h;
2) известно, что из символов алфавита А формируются сообщения М длиной l по правилу комбинаторики «размещение из h элементов по l с повторениями»: М = aiaj …al. Очевидно, число таких сообщений, т.е. |{М}|, определяется по формуле (П3.6) и является комбинаторной мерой информации (обозначим ее Iкомб):
Iкомб = hl . (5.13)
3) вероятность, или частота, появления сообщения М – pм - при условии, что все сообщения равновероятны, определяется по формуле:
pм = |{M}| = (hl)-1 . (5.14)
4) количество информации, содержащейся в одном сообщении М, рассчитанной различными методами, приведено ниже:
· геометрическая мера – Iгеом = l, (5.15)
· аддитивная мера – Iадд = llog2h. (5.16)
В силу (5.15) Iадд = Iгеом log2h,
· статистический подход – Iс = -pм log2 pм. (5.17)
(5.18) |
(5.19) |
5)
(5.20) |
Тогда
Iср = Iадд, (5.21)
а для двоичного алфавита, когда h = 2, имеем:
Iср = l = Iгеом. (5.22)
Таким образом, число символов, из которых состоит двоичное сообщение, определяет среднее количество информации, рассчитанной статистическим методом и содержащейся в этом сообщении. Этот вывод очень важен, так как позволяет сделать следующие заключения:
1)
уменьшение объема кода (или сообщения), т.е. уменьшение l, ведет к уменьшению и, возможно, потере информации. При эффективном кодировании (см. раздел 4.3) существует предел сжатия, ниже которого не «спускается» ни один метод эффективного кодирования. Этот параметр определяется предельным значением двоичных разрядов возможного эффективного кода – lпр:
где n – мощность кодируемого алфавита,
pi – вероятность (или частота) i-го символа кодируемого алфавита.
2) увеличение объема кода, т.е. увеличение l, увеличивает переносимую кодом информацию, что является основным принципом помехозащитного кодирования: введение дополнительных разрядов в кодовые комбинации позволяет переносить также и информацию о заложенных в коде ошибках. Количество необходимых и достаточных разрядов для выявления и исправления ошибок определенной кратности определялось нами в разделе 4.4.
В силу того, что при измерении информации структурным и статистическими методами учитывается длина сообщения l, рассмотренные подходы исходят из