Вопрос №4. Представление информации в ЭВМ
В ЭВМ применяется двоичная система счисления, т.е. все числа в компьютере представляются с помощью нулей и единиц, поэтому компьютер может обрабатывать только информацию, представленную в цифровой форме.
Для преобразования числовой, текстовой, графической, звуковой информации в цифровую необходимо применить кодирование. Кодирование – это преобразование данных одного типа через данные другого типа. В ЭВМ применяется система двоичного кодирования, основанная на представлении данных последовательностью двух знаков: 1 и 0, которые называются двоичными цифрами (binary digit – сокращенно bit).
Таким образом, единицей информации в компьютере является один бит, т.е. двоичный разряд, который может принимать значение 0 или 1. Восемь последовательных бит составляют байт. В одном байте можно закодировать значение одного символа из 256 возможных (256 = 2 в степени 8). Более крупной единицей информации является килобайт (Кбайт), равный 1024 байтам (1024 = 2 в степени 10). Еще более крупные единицы измерения данных: мегабайт, гигабайт, терабайт (1 Мбайт = 1024 Кбайт; 1 Гбайт = 1024 Мбайт; 1 Тбайт = 1024 Гбайт).
Целые числа кодируются двоичным кодом довольно просто (путем деления числа на два). Для кодирования нечисловой информации используется следующий алгоритм: все возможные значения кодируемой информации нумеруются и эти номера кодируются с помощью двоичного кода.
Например, для представления текстовой информации используется таблица нумерации символов или таблица кодировки символов, в которой каждому символу соответствует целое число (порядковый номер). Восемь двоичных разрядов могут закодировать 256 различных символов.
Вопрос №5. Количество информации. Формулы Шеннона, Хартли.
Единицы измерения информации
Единицы измерения информации служат для измерения объёма информации — величины, исчисляемой логарифмически. Это означает, что когда несколько объектов рассматриваются как один, количество возможных состояний перемножается, а количество информации — складывается. Не важно, идёт речь о случайных величинах в математике, регистрах цифровой памяти в технике или в квантовых системах в физике.
Чаще всего измерение информации касается объёма компьютерной памяти и объёма данных, передаваемых по цифровым каналам связи.
В качестве единицы информации Клод Шеннон предложил принять один бит (англ. bit — binary digit — двоичная цифра). Бит в теории информации — это количество информации, необходимое для различения двух равновероятных событий. В вычислительной технике битом называют наименьшую “порцию” памяти компьютера, необходимую для хранения одного из двух знаков “0″ и“1”, используемых для внутримашинного представления данных и команд. Бит, выбран в качестве единицы количества информации потому, что принято считать, что двумя двоичными словами исходной длины N или словом длины 2N можно передать в 2 раза больше информации, чем одним исходным словом. Число возможных равновероятных выборов при этом увеличивается в 2N раз, тогда как I удваивается.
Бит — слишком мелкая единица измерения. На практике чаще применяется более крупная единица — байт, равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28). В принципе, байт определяется для конкретного компьютера как минимальный шаг адресации памяти.
Широко используются также ещё более крупные производные единицы информации:
1 Килобайт (Кбайт) = 1024 байт = 2 10 байт,
1 Мегабайт (Мбайт) = 1024 Кбайт = 2 20 байт,
1 Гигабайт (Гбайт) = 1024 Мбайт = 2 30 байт.
Формулы Шеннона, Хартли
Вероятностный подход
Количество информации как мера уменьшения неопределённости.
Получение информации одновременно означает увеличение знания, что, в свою очередь, означает уменьшение незнания или информационной неопределенности.
За единицу количества информации принимают выбор одного из двух равновероятных сообщений (“да” или “нет”, “1” или “0”). Она также названа бит. Вопрос ценности этой информации для получателя — это уже из иной области.
Очень приближенно можно считать, что количество информации в сообщении о каком-то событии совпадает с количеством вопросов, которые необходимо задать, и ответом на которые могут быть лишь “да” или “нет”, чтобы получить ту же информацию. Причем событие, о котором идет речь, должно иметь равновероятные исходы.
Будем считать события равновозможными, если мы не располагаем заранее никакой информацией (статистическими данными, логическими умозаключениями и т.д.), о том, что шансы одного из событий выше или ниже, чем шансы любого другого. При этом имеется в виду, что в результате опыта обязательно наступит какое-либо событие и притом только одно.
Так, например, при подбрасывании монеты выпадение орла или решки можно считать равновозможными событиями.
Чем больше равновозможных событий, тем больше неопределенность ситуации. Минимальный размер сообщения о том, что произошло одно из двух равновозможных событий, равен одному биту. Информацию о том, что произошло первое событие, можно закодировать в двоичном алфавите нулем, а о том, что произошло второе событие – единицей.
Для уменьшения неопределенности в два раза (вместо двух возможных событий – одно реально произошедшее) требуется один бит информации. Иначе говоря, сообщение, уменьшающее неопределенность ситуации в два раза, несет один бит информации. Если его длина, подсчитанная с использованием алфавитного подхода больше, значит, сообщение несет избыточную, с точки зрения уменьшения неопределенности, информацию.
Можно рассчитать длину сообщения в двоичном алфавите, необходимую для передачи информации. Для уменьшения неопределенности ситуации в 2n раз необходимо n бит информации.
Научный подход к оценке сообщений был предложен еще в 1928 году Р.Хартли. Он процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N.
Расчетная формула имеет вид:
I = log 2 N,
где N — количество равновероятных событий (число возможных выборов),
I — количество информации.
Иногда формула Хартли записывается иначе. Так как наступление каждого из N возможных событий имеет одинаковую вероятность P =, то N = и формула имеет вид:
I = log() = — logP
Но не все события имеют одинаковые вероятности. Существует много таких ситуаций, у которых вероятности реализации различаются.
Определим, являются ли равновероятными сообщения «первой выйдет из дверей здания женщина» и «первым выйдет из дверей здания мужчина». Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.
Для задач такого рода американский учёный Клод Шеннон предложил в 1948г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.
Если I — количество информации,
N — количество возможных событий,
P - вероятности отдельных событий,
то количество информации для событий с различными вероятностями можно определить по формуле:
I = — (PlogP + PlogP + . . . + PlogP),
или
I= - P logP
Легко заметить, что если вероятности P,P, …, P равны, то каждая из них равна , и формула Шеннона превращается в формулу Хартли.
Согласно Шеннону, информативность сообщения характеризуется содержащейся в нем полезной информацией — той частью сообщения, которая снимает полностью или уменьшает неопределенность какой-либо ситуации.
Неопределенность некоторого события — это количество возможных исходов данного события.
Вероятностный подход часто называют субъективным, так как разные люди (субъекты) информацию об одном и том же предмете оценивают по-разному.
Но если число исходов не зависит от суждений людей, то информация о наступлении одного из возможных исходов является объективной.
В теории информации количеством информации называют числовую характеристику сигнала, которая не зависит от его формы и содержания и характеризует неопределенность, которая исчезает после получения сообщения в виде данного сигнала. В этом случае количество информации зависит от вероятности получения сообщения о том или ином событии.
Для абсолютно достоверного события (событие обязательно произойдет, поэтому его вероятность равна 1) количество информации в сообщении о нем равно 0. Чем невероятнее событие, тем большее количество информации несет сообщение о нем. Лишь при равновероятных ответах ответ “да” или “нет” несет один бит информации.