Измерение и представление информации

Любая классификация всегда относительна. Один и тот же объект может быть классифицирован по разным признакам или критериям. Часто в зависимости от условий внешней среды объект может быть отнесен к разным классификационным группировкам. В основу классификации информации, циркулирующей между объектами, положены пять наиболее общих признаков:

q место возникновения информации;

q стадия ее обработки;

q способ отображения информации;

q стабильность информации;

q функция управления информациией.

По первому признаку информацию можно разделить на входную, выходную, внутреннюю и внешнюю. Входная информация – — это информация, поступающая на вход какого-нибудь устройства или объекта. Выходная информация – — это информация на выходе объекта, предназначенная для передачи другому объекту. Одна и та же информация может быть входной для одного объекта и выходной для другого. Внутренняя информация возникает внутри объекта, внешняя за его пределами.

По второму признаку информация разделяется на первичную, вторичную, промежуточную и результатную. Первичная информация возникает непосредственно в процессе деятельности объекта и регистрируется на начальной стадии. Вторичная получается в результате обработки первичной информации, промежуточная используется в качестве исходных данных для последующих расчетов, результатная применяется для выработки управленческих решений.

По способу отображения информация подразделяется на текстовую и графическую. Текстовая информация – — это совокупность алфавитных, цифровых и специальных символов, графическая – — это различного рода графики, диаграммы, схемы, рисунки.

По стабильности информация может быть переменной (текущей) и постоянной. Постоянная информация подразделяется на справочную, нормативную и плановую.

Наконец, по функциям управления обычно классифицируют информацию экономического типа. При этом информация подразделяется на плановую, нормативно-справочную и оперативную (текущую). Плановая информация – — это информация о параметрах объекта на будущий период, нормативно-справочная содержит различные нормативные и справочные данные, оперативная характеризует текущий момент.

Определить понятие “"количество информации”" довольно сложно. При анализе информации социального плана на первое место выходят такие ее свойства, как истинность, своевременность, ценность, полнота и т. п. Обращение к качественной стороне информации породило синтаксический, семантический и прагматический подход к ее оценке.

При синтаксическом подходе учитывают формально-структурные характеристики информации без рассмотрения ее смыслового содержания. Это тип носителя, способ представления информации, скорость передачи и обработки, размеры кодов и т. п. Все это – — внешняя сторона структурных характеристик информации.

Семантический (смысловой) подход определяет степень соответствия образа объекта и самого объекта. Эта сторона учитывает смысловые связи, содержание информации, служит для формирования понятий и их обобщения.

Прагматический подход отражает отношение информации и еёе потребителя, соответствие информации целям управления. Этот подход связан с ценностью и полезностью использования информации для принятия решений.

Все эти соображения, тем не менее, не противоречат важному результату теории информации о том, что в определенных, весьма широких условиях, можно, пренебрегая качественными особенностями информации, выразить еёе количество числом, а следовательно, сравнивать количество информации, содержащейся в различных группах данных. Количеством информации называют числовую характеристику информации, отражающую ту степень неопределенности, которая исчезает после получения информации.

Исторически возникли два подхода к определению количества информации в синтаксическом смысле: вероятностный и “"объемный”". Вероятностный подход развил в конце 1940 гг. американский математик Шеннон[1]*, а “"объемный”" возник с изобретением ЭВМ. Понятия “"информация”", “"неопределенность”", “"возможность выбора”" тесно связаны. Получаемая информация уменьшает число возможных вариантов выбора (т. е. неопределенность), а полная информация не оставляет вариантов вообще. “"Объемный”" подход самый простой. За единицу информации здесь принимается один бит. При этом невозможно нецелое число битов. Это количество информации, при котором неопределенность уменьшается вдвое, т. е. это ответ на вопрос, требующий односложного разрешения – — да или нет. Однако бит слишком мелкая единица измерения информации. На практике чаще применяются более крупные единицы, например, байт и производные от него:

q 1 Килобайт (Кбайт) = 1024 байт = Измерение и представление информации - student2.ru байт;

q 1 Мегабайт (Мбайт) = 1024 Кбайт = Измерение и представление информации - student2.ru байт;

q 1 Гигабайт (Гбайт) = 1024 Мбайт = Измерение и представление информации - student2.ru байт;

q 1 Терабайт (Тбайт) = 1024 Гбайт = Измерение и представление информации - student2.ru байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации. Такая единица существует, но используется в компьютерной технике редко, что связано с аппаратными возможностями компьютеров.

При вероятностном подходе необходимо определить величину, измеряющую неопределенность – — энтропию, которая обычно обозначается буквой Измерение и представление информации - student2.ru H. За количество информации, которое получено в ходе осуществления опыта принимается разность неопределенностей “"до”" и “"после”" опыта: Измерение и представление информации - student2.ru . Очевидно, что в случае, когда получен конкретный результат, имевшаяся неопределенность снята Измерение и представление информации - student2.ru , и, таким образом, количество полученной информации совпадает с первоначальной энтропией, т. е. неопределенность, заключенная в опыте, совпадает с информацией об исходе этого опыта. Таким образом, количество информации об объекте обратно пропорционально энтропии объекта, а сама энтропия является мерой недостающей информации.

Рассмотрим в качестве примера опыт, связанный с бросанием правильной игральной кости, имеющей Измерение и представление информации - student2.ru граней. Величина Измерение и представление информации - student2.ru и энтропия данного опыта Измерение и представление информации - student2.ru связаны между собой некоторой функциональной зависимостью Измерение и представление информации - student2.ru . Определим вид этой функции. Если варьировать число граней Измерение и представление информации - student2.ru и число бросаний кости Измерение и представление информации - student2.ru , то общее число исходов опыта будет равно Измерение и представление информации - student2.ru . Ситуацию с бросанием кости Измерение и представление информации - student2.ru раз можно рассматривать как некую сложную систему, состоящую из независимых друг от друга подсистем – — “"однократных бросаний кости”". Энтропия такой системы в Измерение и представление информации - student2.ru раз больше, чем энтропия одной системы, т. е. Измерение и представление информации - student2.ru . Но Измерение и представление информации - student2.ru , отсюда Измерение и представление информации - student2.ru . Подставим полученное значение Измерение и представление информации - student2.ru в формулу для Измерение и представление информации - student2.ru , тогда Измерение и представление информации - student2.ru . Обозначая через Измерение и представление информации - student2.ru положительную константу Измерение и представление информации - student2.ru , т. к. Измерение и представление информации - student2.ru , получим Измерение и представление информации - student2.ru . Обычно принимают Измерение и представление информации - student2.ru , таким образом получаем формулу Хартли[2]*

Измерение и представление информации - student2.ru (1.11.1)

Очевидно, что Измерение и представление информации - student2.ru будет равно единице, если Измерение и представление информации - student2.ru , т. е. в качестве единицы информации принимается еёе количество, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов. Если рассматривать Измерение и представление информации - student2.ru равновероятных исходов, то можно считать, что на долю каждого исхода приходиться одна Измерение и представление информации - student2.ru -я часть общей неопределенности опыта Измерение и представление информации - student2.ru , а вероятность Измерение и представление информации - student2.ru -го исхода Измерение и представление информации - student2.ru равна Измерение и представление информации - student2.ru . Тогда

Измерение и представление информации - student2.ru . (1.11.2)

Формула (1.11.2) называется формулой Шеннона.

Пример 1. Определим количество информации, связанное с появлением каждой буквы в сообщении: “"Жил-был у бабушки серенький козлик”".

В этом сообщении 34 знака. Частоты и вероятности появлений букв в сообщении приведены в табл. 1.11.

По формуле Хартли имеем Измерение и представление информации - student2.ru бит, аналогично по формуле Шеннона Измерение и представление информации - student2.ru бит. Это значение меньше предыдущего. Величина Измерение и представление информации - student2.ru , вычисленная по формуле (1.10.1), является максимальным количеством информации, приходящейся на один знак в сообщении.

Таблица 1.11. Частоты и вероятности букв в сообщении

Номер Буква Частота Измерение и представление информации - student2.ru Номер Буква Частота Измерение и представление информации - student2.ru
ж 0.0294 к 0.1176
и 0.1176 с 0.0294
л 0.0883 е 0.0589
- 0.0294 р 0.0294
б 0.0883 н 0.0294
ы 0.0294 ь 0.0294
пробел 0.1176 й 0.0294
а 0.0294 о 0.0294
у 0.0589 з 0.0294
ш 0.0294        

Измерение и представление информации - student2.ru бит. Это значение меньше предыдущего. Величина Измерение и представление информации - student2.ru , вычисленная по формуле (1.10.1), является максимальным количеством информации, приходящейся на один знак в сообщении.

Изложенный подход хорошо применим при анализе технической информации. В информации социального плана на первый план выступают такие ее свойства, как истинность, своевременность, ценность, полнота и т. п. Обращение к качественной стороне информации породило иные подходы к ее оценке. При семантическом подходе информация рассматривается с точки зрения как формы, так и содержания. Для измерения смыслового содержания информации, т. е. ее количества на семантическом уровне наибольшее признание получила тезаурусная мера. Эта мера связывает семантические свойства информации со способностью пользователя принимать поступившие сообщения.

 
  Измерение и представление информации - student2.ru

Рис. 1.6. Зависимость количества информации, воспринимаемой потребителем, от его тезауруса Измерение и представление информации - student2.ru

Тезаурусом называется словарь или свод данных, полностью охватывающий термины и понятия какой-нибудь специальной сферы, т. е. это совокупность сведений, которыми располагает объект. В зависимости от соотношений между смысловым содержанием информации Измерение и представление информации - student2.ru и тезаурусом пользователя Измерение и представление информации - student2.ru изменяется количество семантической информации Измерение и представление информации - student2.ru , воспринимаемой пользователем. При Измерение и представление информации - student2.ru пользователь не воспринимает, т. е. не понимает поступающую информацию; при Измерение и представление информации - student2.ru пользователь все знает, и поступающая информация ему не нужна (см. рис. 1.6). Максимальное количество семантической информации Измерение и представление информации - student2.ru пользователь приобретает при согласовании еёе смыслового содержания Измерение и представление информации - student2.ru со своим тезаурусом Измерение и представление информации - student2.ru . В этом случае информация понятна пользователю и несет ему ранее не известные сведения (они отсутствуют в его тезаурусе).

Теоремы Шеннона

При передаче сообщений по каналам связи всегда возникают помехи, приводящие к искажению принимаемых сигналов. Исключение помех при передаче сообщений является очень серьезной теоретической и практической задачей. Еёе значимость только возрастает в связи с повсеместным внедрением компьютерных телекоммуникаций. Все естественные человеческие языки обладают большой избыточностью, что позволяет сообщениям, составленным из знаков таких языков, иметь заметную помехоустойчивость.

Избыточность могла бы быть использована и при передаче кодированных сообщений в технических системах. Самый простой способ повышение избыточности – — передача текста сообщения несколько раз в одном сеансе связи. Однако большая избыточность приводит к большим временным затратам при передаче информации и требует большого объема памяти. К настоящему времени вопрос об эффективности кодирования изучен достаточно полно.

Пусть задан алфавит Измерение и представление информации - student2.ru , состоящий из конечного числа букв, конечная последовательность символов Измерение и представление информации - student2.ru из Измерение и представление информации - student2.ru называется словом, а множество всех непустых слов в алфавите Измерение и представление информации - student2.ru обозначим через Измерение и представление информации - student2.ru . Аналогично для алфавита Измерение и представление информации - student2.ru слово обозначим Измерение и представление информации - student2.ru , а множество всех непустых слов Измерение и представление информации - student2.ru .

Рассмотрим соответствие между буквами алфавита Измерение и представление информации - student2.ru и словами алфавита Измерение и представление информации - student2.ru : Измерение и представление информации - student2.ru . Это соответствие называется схемой алфавитного кодирования и обозначается Измерение и представление информации - student2.ru . Алфавитное кодирование определяется следующим образом: каждому слову Измерение и представление информации - student2.ru ставится в соответствие слово Измерение и представление информации - student2.ru , называемое кодом слова Измерение и представление информации - student2.ru . Слова Измерение и представление информации - student2.ru называются элементарными кодами. Ограничением задачи передачи кодов является отсутствие помех. Требуется оценить минимальную среднюю длину кодовой комбинации.

При разработке различных систем кодирования данных получены теоретические результаты, позволяющие получить сообщение с минимальной длиной кодов. Два положения из теории эффективности кодирования известны как теоремы Шеннона.

Первая теоремаговорит о существовании системы эффективного кодирования дискретных сообщений, у которой среднее число двоичных символов (букв алфавита Измерение и представление информации - student2.ru ) на единицу сообщения (букву алфавита Измерение и представление информации - student2.ru ) асимптотически стремитьсястремится к энтропии источника сообщения, т. е. кодирование в пределе не имеет избыточности.

Рассмотрим вновь пример 1 из раздела 1.11, закодировав рассмотренное анализированное сообщение по алгоритму Фано[3]*. В таблице . 1.12 приведены коды букв в сообщении (слова Измерение и представление информации - student2.ru ), длина кода Измерение и представление информации - student2.ru , вероятности букв сообщения Измерение и представление информации - student2.ru , величины Измерение и представление информации - student2.ru и Измерение и представление информации - student2.ru .

Таблица 1.12

Но- мер Бук- ва Код Измерение и представление информации - student2.ru Измерение и представление информации - student2.ru Измерение и представление информации - student2.ru Измерение и представление информации - student2.ru
ж 0.0294 0.1470 –-0.1496
и 0.1176 0.3528 –-0.3632
л 0.0883 0.3532 –-0.3092
- 0.0294 0.1470 –-0.1496
б 0.0883 0.3532 –-0.3092
ы 0.0294 0.1470 –-0.1496
пробел 0.1176 0.3528 –-0.3632
а 0.0294 0.1470 –-0.1496
у 0.0589 0.2356 –-0.2406
ш 0.0294 0.1470 –-0.1496
к 0.1176 0.3528 –-0.3632
с 0.0294 0.1470 –-0.1496
е 0.0589 0.2356 –-0.2406
р 0.0294 0.1470 –-0.1496
н 0.0294 0.1470 –-0.1496

Продолжение таблицы 1.12

Но- мер Бук- ва Код Измерение и представление информации - student2.ru Измерение и представление информации - student2.ru Измерение и представление информации - student2.ru Измерение и представление информации - student2.ru
ь 0.0294 0.1470 -–0.1496
й 0.0294 0.1470 –-0.1496
о 0.0294 0.1470 –-0.1496
з 0.0294 0.1470 –-0.1496
        Измерение и представление информации - student2.ru Измерение и представление информации - student2.ru Измерение и представление информации - student2.ru

Математическое ожидание количества символов из алфавита Измерение и представление информации - student2.ru при кодировании равно Измерение и представление информации - student2.ru . Этому среднему числу символов соответствует максимальная энтропия Измерение и представление информации - student2.ru . Для обеспечения передачи информации, содержащейся в сообщении, должно выполняться условие Измерение и представление информации - student2.ru . В этом случае закодированное сообщение имеет избыточность. Коэффициент избыточности определяется следующим образом:

Измерение и представление информации - student2.ru , (1.12.1)

Измерение и представление информации - student2.ru . В нашем случае Измерение и представление информации - student2.ru , т. е. код практически не имеет избыточности. Видно, что среднее число двоичных символов стремится к энтропии сообщения.

Вторая теорема Шеннона устанавливает принципы помехоустойчивого кодирования. Оказывается, что даже при наличии помех в канале связи всегда можно найти такую систему кодирования, при которой сообщение будет передано с заданной достоверностью. Основная идея всех таких кодов таковазаключается в следующем: для исправления возможных ошибок вместе с основным сообщением нужно передавать какую-то дополнительную информацию. Для реализации контроля возможных ошибок используются так называемые самокорректирующие коды, а по каналу связи вместе с Измерение и представление информации - student2.ru символами основного сообщения передаются ещёещёе Измерение и представление информации - student2.ru дополнительных символов, обеспечивающих избыточность кодирования и позволяющих противодействовать помехам.

Наши рекомендации