Вероятностный подход к определению количества информации; единицы измерения количества информации
Количество информации зависит от новизны сведений об интересном для получателя информации явлении, другими словами, получая информацию, мы уменьшаем неполноту знаний, т.е. неопределенность. Если в результате полученного сообщения неопределенность полностью исчезнет, то есть будет достигнута полная ясность, то говорят, что полученная информация была исчерпывающей, полной.
Существует формула, связывающая между собой количество возможных событий (N) и количество информации (I):
N = 2I
Воспользовавшись этой формулой можно определить и количество информации по заданному количеству событий.
Большой вклад в теорию информации внес К. Шеннон. В частности, он ввел количественную оценку информации как меру снятой неопределенности. Для понимания формулы количества информации необходимо ознакомиться с понятием случайных процессов как математической модели сигналов, с понятием энтропии и неопределенности.
Концепция К. Шеннона, отражая количественно- информационный подход, определяет информацию как меру неопределенности (энтропию) события. Количество информации в том или ином случае зависит от вероятности его получения: чем более вероятным является сообщение, тем меньше информации содержится в нем. Этот подход оказался весьма полезным в технике связи и вычислительной технике и послужил основой для измерения информации и оптимального кодирования сообщений. Кроме того, он представляется удобным для иллюстрации такого важного свойства информации, как новизна, неожиданность сообщений. При таком понимании информация — это снятая неопределенность, или результат выбора из набора возможных альтернатив.
Шеннон вывел формулу для вычисления количества информации в случае различных вероятностей событий:
где I — количество информации,
N — количество возможных событий,
рi — вероятность i-ro события.
Обмен информацией происходит при помощи сигналов. Сигналы, передаваемые по радио и телевидению, а также используемые в магнитной записи, имеют форму непрерывных быстро изменяющихся во времени кривых линий. Такие сигналы называются непрерывными, или аналоговыми, сигналами. В противоположность этому в телеграфии и вычислительной технике сигналы имеют импульсную форму и именуются дискретными сигналами. Другими словами, информация передается в двух формах: дискретной и аналоговой.
Для определения количества любой информации, как символьной, так и текстовой или графической, нужно найти способ представить ее в едином, стандартном, виде. Таким видом стала двоичная форма представления информации — записи любой информации в виде последовательности только двух символов, например: цифрами 0 или 1, буквами А или Б; словами ДА, НЕТ. Однако ради простоты записи применяют цифры 1 и 0. В компьютере эти сигналы рассматриваются как наличие или отсутствие напряжения.
Можно пояснить принцип информации в двоичной форме, проведя следующую игру. Нам нужно получить интересующую нас информацию у собеседника, задавая любые вопросы, но получая в ответ «ДА» либо «НЕТ».
Для получения двоичной формы информации необходимо перечисление всех возможных событий. Например, задаем один вопрос: «Вы сегодня обедали?». С одинаковой вероятностью следует ожидать ответ: «ДА» или «НЕТ», причем любой из этих ответов несет самое малое количество информации. Эту минимальную единицу измерения информации называют БИТОМ. Благодаря введению понятия единицы информации появилась возможность определения размера любой информации в битах.
Единицы измерения информации.Минимальной единицей информации в компьютере является один бит, то есть двоичный разряд, который может принимать значение 0 или 1. Как правило, компьютер работает не с отдельными битами, а с восемью битами сразу. Восемь последовательных битов составляют байт. В одном байте можно закодировать значение одного символа из 256 возможных (256 = 28).
Байт записывается в памяти машины, читается и обрабатывается обычно как единое целое. Наряду с битами и байтами для измерения количества информации используются и более крупные единицы:
1 Килобайт (Кбайт, Кб) = 210 (1024) байт;
1 Мегабайт (Мбайт, Мб) = 220 (1 048 576)байт, или 1024 Кбайт;
1 Гигабайт (Гбайт, Гб) = 230 (1 073 741 824)байт, или 1024 Мбайт.
1 Терабайт (Тбайт, Тб) = 240 (1 099 511 627 776) или 1024 Гбайт.
На один компакт-диск CD-ROM можно записать в среднем 650 Мбайт информации.