Символизация (кодирование) информации
Как мы выяснили из первой главы информация – это нематериальная составляющая окружающего нас мира. Для ее материализации (однозначного отображения и передачи) используется символизация информации, то есть определение количества и качества (значения) информации. Для символизации информации люди используют различные языки. Различают естественные и искусственные(формальные) языки. Естественные языки развивались веками и используются для общения людей между собой. Формальные языки разрабатываются для специального применения. Примером формальных языков могу служить языки программирования, языки кодирования информации для ее передачи, хранения и т.п.
Каждый язык имеет свой алфавит. Под алфавитом языка понимают набор символов. То есть символизация информации – это описание объектов или явлений с помощью символов того или иного алфавита. Под мощностью алфавита понимают количество символов, составляющий данный алфавит, что в свою очередь определяет количество возможных комбинаций (слов) которые можно составить из символов данного алфавита в соответствии с определенными правилами.
Кодом называют совокупность знаков (символов), предназначенных для представления той или иной информации в соответствии с определенными правилами. Символизацию информации (представление в виде символов) называют кодированием. Кодируют информацию с целью ее передачи или хранения.
Для примера кодирования возьмем предмет мебели стол. Для кодирования информации об этом предмете на русском языке нам понадобиться записать последовательность символов «СТОЛ», а кодирования информации об этом предмете на английском «TABLE».
Естественные языки очень часто имеют одинаковый код для определения различных объектов. Так например слово «коса» может означать девичью косу, речную отмель и инструмент для скашивания травы. В формальных языках такое кодирование недопустимо. Это определяется тем, что естественные языки оперируют контекстом (набором слов) при анализе и классификации информации, а формальные непосредственно словами.
Количество и графическое отображение символов в алфавитах естественных языков сложилось исторически и характеризуется особенностями языка (произносимыми звуками). Например русский алфавит имеет 33 символа, латинский – 26, китайский несколько тысяч.
Минимальное количество знаков алфавита равно единице. Допустим, что алфавит имеет один знак и пусть это будет * (звездочка). Тогда цвета радуги будут кодироваться как: * - красный, ** - оранжевый, *** - желтый, **** - зеленый, ***** - голубой, ****** - синий, ******* - фиолетовый.
Двоичный алфавит.
В информатике и вычислительной технике широко используется алфавит, имеющий два знака, например «1» и «0». Этими символами в логике и технике приводят в соответствие понятия «да» и «нет», «есть сигнал» и «нет сигнала», «истина» и «ложь». Такой алфавит называют двоичным или бинарным (binary) в соответствии с этим вводится наименьшая единица информации бит (bit).
Одного бита информации достаточно для кодирования текущего состояния объекта, имеющего два статических состояния, например лампочки «0» - выключено, «1» - включено. То есть одноклавишный выключатель является носителем одного бита информации, которого нам достаточно для определения состояния лампочки.
В реальной жизни крайне редко встречаются объекты состояние которых можно закодировать одним битом информации и нет объектов, которые можно описать одним битом. Для кодирования от трех до четырех состояний или признаков объекта требуется уже два бита информации. Для кодирования от четырех до девяти состояний объекта уже требуется три бита. 9-16 состояний 4 бита, 17-32 состояний 5 бит. В общем случае количество бит, необходимых для кодирования N состояний или диапазона значений свойств объектов или явлений определяется по формуле 1:
(1) |
где
N – количество состояний или диапазон значений свойств объектов,
q – количество бит информации необходимых для кодирования требуемого количества состояний или диапазона свойств объектов.
Было принято, что следующей базовой единицей информации будет являться байт – это последовательность бит длина которой равна 8 битам. Одним байтом можно закодировать от 1 до 256 различных объектов, например символов.
На практике используются более объемные единицы измерения информации, приведенные в таблице 1.
Таблица 1.
1 байт | =8 бит |
1 слово | =2 байта = 16 бит |
1 двойное с слово | =2 слова = 4 байта=32 бита |
1 килобайт (Кб) | =1024 байт |
1 мегабайт (Мб) | =1024 килобайт = |
1 гигабайт (Гб) | =1024 мегабайт = |
1 терабайт (Тб) | =1024 гигабайт = |
Пример 1.
Подсчитаем объем памяти, требуемый для хранения книги объемом 100 страниц, при учете, что в среднем на каждой странице по 40 строк, а в каждой строке в среднем по 60 символов.
ü Определяем количество символов находящихся в книге:
ü При условии, что символ занимает 1 байт памяти для хранения книги потребуется 240000 байт памяти или
Системы счисления.
Любую информацию окружающего нас мира можно представить в виде числовых значений, характеризующих положение свойства объекта относительно какой либо нулевой отметки. Совокупность способов построения, записи и наименования чисел называют системой счисления.
История развития способов счета насчитывает многие тысячелетия. Менялись средства счета: пальцы, камешки, счеты, арифмометры, компьютеры. Но их назначение оставалось неизменным: определение качественных и количественных характеристик объектов.
Различают два вида систем счисления это: позиционная система и непозиционная система.
Позиционная система счисления – количество определяемое цифрой числа зависит от позиции этой цифры в записи числа. Например в записи десятичной системы счисления одна и та же цифра 1 определяет различные количества: сто, десять и один.
Непозиционная система счисления – количество определяемое цифрой числа не зависит от ее позиции. К непозиционным системам относиться римская система счисления. Например число XXX – означает тридцать, а каждый символ означает десть, то есть X+X+X=XXX.