Непрерывная и дискретная информация
Чтобы сообщение было передано от источника к получателю, необходима некоторая материальная субстанция - носитель информации. Сообщение, передаваемое с помощью носителя, назовем сигналом. В общем случае сигнал - это изменяющийся во времени физический процесс. Такой процесс может содержать различные характеристики (например, при передаче электрических сигналов могут изменяться напряжение и сила тока). Та из характеристик, которая используется для представления сообщений, называется параметром сигнала.
В случае когда параметр сигнала принимает последовательное во времени конечное число значений (при этом все они могут быть пронумерованы), сигнал называется дискретным, а сообщение, передаваемое с помощью таких сигналов - дискретным сообщением. Информация, передаваемая источником, в этом случае также называется дискретной. Если же источник вырабатывает непрерывное сообщение (соответственно параметр сигнала - непрерывная функция от времени), соответствующая информация называется непрерывной. Пример дискретного сообщения - процесс чтения книги, информация в которой представлена текстом, т.е. дискретной последовательностью отдельных значков (букв). Примером непрерывного сообщения служит человеческая речь, передаваемая модулированной звуковой волной; параметром сигнала в этом случае является давление, создаваемое этой волной в точке нахождения приемника - человеческого уха.
Непрерывное сообщение может быть представлено непрерывной функцией, заданной на некотором отрезке. Непрерывное сообщение можно преобразовать в дискретное, такая процедура называется дискретизацией.
Единицы количества информации
Определить понятие «количество информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно, конце 40-х годов XX века. Работы Джон фон Неймана по созданию ЭВМ привели к объемному подходу измерения количества информации, а один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации.
Объемный подход
В двоичной системе счисления знаки 0 и 1 будем называть битами (от английского выражения Binary digits - двоичные цифры). Отметим, что создатели компьютеров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п. В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).
Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один, байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта - мегабайт (Мбайт), а 1024 мегабайта - гигабайт (Гбайт), 1024 гигабайта – терабайт (Тбайт), 1024 терабайта – петабайт (Пбайт).
Кодирование информации
Абстрактный алфавит
Информация передается в виде сообщений. Дискретная информация записывается с помощью некоторого конечного набора знаков, которые будем называть буквами, не вкладывая в это слово привычного ограниченного значения (типа «русские буквы» или «латинские буквы»). Буква в данном расширенном понимании - любой из знаков, которые некоторым соглашением установлены для общения. Например, при привычной передаче сообщений на русском языке такими знаками будут русские буквы - прописные и строчные, знаки препинания, пробел; если в тексте есть числа - то и цифры. Вообще, буквой будем называть элемент некоторого конечного множества (набора) отличных друг от друга знаков. Множество знаков, в котором определен их порядок, назовем алфавитом (общеизвестен порядок знаков в русском алфавите: А, Б,..., Я).
Рассмотрим некоторые примеры алфавитов.
1, Алфавит прописных русских букв:
А Б В Г Д Е Е Ж З И Й К Л М Н О П Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я
2. Алфавит Морзе:
3. Алфавит клавиатурных символов ПЭВМ IBM (русифицированная клавиатура):
5. Алфавит арабских цифр:
6. Алфавит шестнадцатиричных цифр:
0123456789ABCDEF
Этот пример, в частности, показывает, что знаки одного алфавита могут образовываться из знаков других алфавитов.
7. Алфавит двоичных цифр:0 1
Алфавит 7 является одним из примеров, так называемых, «двоичных» алфавитов, т.е. алфавитов, состоящих из двух знаков. Другими примерами являются двоичные алфавиты 8 и 9:
8. Двоичный алфавит «точка, «тире»:. _
9. Двоичный алфавит «плюс», «минус»: + -
10. Алфавит прописных латинских букв:
ABCDEFGHIJKLMNOPQRSTUVWXYZ
11. Алфавит римской системы счисления:
I V Х L С D М
12. Алфавит языка блок-схем изображения алгоритмов:
КОДОВАЯ ТАБЛИЦА – это внутреннее представление символов клавиатуры. Во всем мире используют таблицу ASC II (Аmerican Standart Code for Iformation, Interchange). Для хранения 2-чного кода одного символа выделен 1 байт = 8 бит. Учитывая, что 1 бит = 0 или 1, то количество разных сочетаний в 1 байте = 28 = 256. Следовательно, с помощью 1 байта можно получить 256 различных двоичных комбинаций – символов, которые составляют таблицу ASC II.
Для сокращения записи используют 16-чную систему, состоящую из 16 символов: 10 цифр + A, B, C, D, E, F. Каждый символ в таблице ASC II кодируется с помощью 8 2-чных или двух 16-чных (1 разряд = 4 бит) чисел. Стандарт ASC II определяет первые 128 символов: цифры, буквы лат. алфавита (0-127). 2-я половина (128-255) – национальные символы, псевдографику и математические символы.
Символы. Это еще одна дискретная величина, поскольку компьютер оперирует с определенным ограниченным набором символов. Такой набор вполне можно назвать алфавитом машины, а в алфавите все символы имеют свои фиксированные позиции. Отсюда основная идея хранения символов в памяти ЭВМ состоит в замене каждого из них номером в алфавите, т.е. числом.
Примеры кодовых таблиц:
· КОИ-7, КОИ-8 – кодирование русских букв и символов (семи-, восьми -битное кодирование)
1) #154 неразрывный пробел.
Рис.1 Кодировка КОИ8-Р
· ASCII –American Standard Code for Information Interchange (американский стандарт кодов для обмена информацией) – это восьмиразрядная кодовая таблица, в ней закодировано 256 символов (127- стандартные коды символов английского языка, спецсимволы, цифры, а коды от 128 до 255 – национальный стандарт, алфавит языка, символы псевдографики, научные символы, коды от 0 до 32 отведены не символам, а функциональным клавишам).
1) #32 - пробел.
Рис. 2 Международная кодировка ASCII
· Unicode – стандарт, согласно которому для представления каждого символа используется 2 байта. (можно кодировать математические символы, русские, английские, греческие, и даже китайские). C его помощью можно закодировать не 256, а 65536 различных символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов
· СР1251 - наиболее распространенной в настоящее время является кодировка Microsoft Windows, ("CP" означает "Code Page", "кодовая страница").
1) #160 неразрывный пробел,
2) #173 мягкий перенос.
Рис. 3 Кодировка CP1251
· СР866 - кодировка под MS DOS
1) #255 неразрывный пробел.
Рис. 4 Кодировка СР866
· Мас – кодировка в ПК фирмы Apple, работающих под управлением операционной системы Mac OS.
1) #202 неразрывный пробел.
Рис. 5 Кодировка Mac
· ISO 8859-5 -Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку.
1) Коды 128-159 не используются;
2) #160 неразрывный пробел,
3) #173 мягкий перенос.
.