Вопрос 10.энтропия и избыточность языка.

Более глубокие свойства текстов изучаются методами теории информации, разработанной К. Шенноном. Речь идет о “количестве информации”, содержащейся в сообщении. Для выяснения этого необходимо ввести разумную меру количества информации.

К. Шеннон предложил признать формулу прирост информации = устраненной неопределенности, на основании которой неопределенность и информация должны измеряться одной и той же мерой.

Единицу измерения энтропии вероятностной схемы предлагает так называемая теорема кодирования, утверждающая, что любой исход можно закодировать символами 0 и 1 так, что полученная длина кодового слова будет сколь угодно близка сверху к вопрос 10.энтропия и избыточность языка. - student2.ru .На основании этого единицей количества информации естественно считать 1 бит.

Мерой среднего количества информации, приходящейся на одну букву открытого текста языка вопрос 10.энтропия и избыточность языка. - student2.ru (рассматриваемого как источник случайных текстов), служит величина НА, называемая энтропией языка вопрос 10.энтропия и избыточность языка. - student2.ru . Естественно вычислять ее последовательными приближениями: Н0, Н1, где Нх -энтропия позначной модели открытого текста, то есть величина (2), в которой pt совпадает с вероятностью появления буквыа, в открытом тексте.

Термин “избыточность языка” возник в связи с тем, что максимальная информация, которую в принципе могла бы нести каждая буква сообщения, равна Н0 = logaп (где п — число букв в алфавите). Как было отмечено выше, так было бы в случае, если буквы сообщения появлялись случайно и равновероятно. В то же время средняя энтропия буквы в открытом тексте значительно меньше и, следовательно, буква несет меньше информации, чем log^ п. Величина вопрос 10.энтропия и избыточность языка. - student2.ru характеризует, таким образом, неиспользованные возможности в передаче информации с помощью текста, а отношение

вопрос 10.энтропия и избыточность языка. - student2.ru

в некотором смысле показывает, какую часть букв открытого текста можно опустить без потери содержания. Имеется в виду, что потерянная информация будет восстановлена другими буквами сообщения вследствие закономерностей языка.

Согласно исследованиям Б. Б. Пиотровского, имеют место следующие приближения величины вопрос 10.энтропия и избыточность языка. - student2.ru :

  HЛ (бит/букву) RЛ (в процентах)
  Русский язык язык Франц. язык Русский язык Франц. язык
Язык в целом 1,37 1,40 72,6 70,6
Разговорная речь 1,40 1,50 72,0 68,4
Литературный текст 1,19 1,38 76,2 71,0
Деловой текст 0,83 1,22 83,4 74,4

Из приведенной таблицы видно, что языки имеют весьма большую избыточность. Что означает, например, избыточность, составляющая 75%? Это не означает буквально то, что любые 3 из 4 букв текста можно вычеркнуть без потери информации. Более точно это означает, что при оптимальном кодировании текста (при использовании, например, кода Хаффмена, кода Фано или другого оптимального кода его можно сжать до четверти длины без потери информации.



Наши рекомендации