Непрерывная и дискретная информация
Основные понятия
Информационная деятельность – это действия, выполняемые в целях сбора, переработки, хранения, поиска и распространения информации (в том числе, научной).
Информатика – это научная дисциплина, изучающая структуру и свойства (а не конкретное содержание) информации, а также закономерности информационной деятельности, ее теорию, историю, методику, организацию.
Информатика - это научное направление, изучающее модели, методы и средства сбора, хранения, обработки и передачи информации. (Наука о структуре, свойствах, закономерностях и методах создания, хранения, поиска, преобразования, передачи и использования информации).
Цель информатики – разработка оптимальных способов и средств представления (записи), сбора, переработки, хранения, поиска и распространения информации. Информатика имеет дело со смысловой (семантической) информацией, но не занимается качественной оценкой этой информации.
1. Теоретическая задача информатики – это выяснение закономерностей, в соответствии с которыми происходит создание семантической информации, ее преобразование, передача и использование в различных сферах деятельности.
2. Прикладной характер исследований предполагает разработку наиболее рациональных методов осуществления информационных процессов, определение способов оптимальной организации связи (внутри науки, науки и производства).
Информатика исследует три группы основных вопросов: 1) технические, связанные с изучением методов и средств надежного сбора, хранения, передачи, обработки и выдачи информации; 2) семантические, определяющие способы описания смысла информации, изучающие языки ее описания; 3) прагматические, описывающие методы кодирования информации.
Информация – это совокупность фактов, явлений, событий, представляющих интерес и подлежащих регистрации и обработке.
Информация - мера устранения неопределённости в отношении исхода интересующего нас события.
Данные - материальные объекты произвольной формы, выступающие в качестве средства предоставления информации.
Термин данные определяется как величина, число или отношение, вводимые в процесс или получаемые из него. Данные могут быть и не числовыми (факты, принципы, утверждения, на которых основываются аргументы). В этом смысле, информация – знание, полученное из анализа данных (данные, сами по себе, не являются информацией). Данные, полученные из наблюдения явлений, могут перестраиваться осмысленным образом, но без искажений или фундаментальных изменений. Данные в информатике – это факты или идеи, выраженные средствами формальной системы, обеспечивающей возможность их хранения, обработки или передачи.
Информационные технологии – это совокупность методов и приемов решения типовых задач обработки данных.
Информационная технология – создаваемая прикладной информатикой совокупность систематических и массовых способов и приемов обработки информации во всех видах человеческой деятельности с использованием современных средств связи, полиграфии, вычислительной техники и программного обеспечения.
Непрерывная и дискретная информация
Информация о различных природных явлениях и технологических процессах воспринимается человеком (при помощи органов чувств и/или различной измерительной аппаратуры) в виде каких-либо полей. С математической точки зрения такие поля представляют собой функции , где t – время, x – точка, в которой измеряется поле, y – величина поля в этой точке. При измерениях поля в фиксированной точке x=a функция вырождается в функцию времени , которую можно изобразить в виде графика. В большинстве случаев все скалярные величины, входящие в соотношение (т.е. t, y и координаты точки x), могут принимать непрерывный ряд значений, измеряемых вещественными числами.
Под непрерывностью здесь понимается то, что рассматриваемые величины могут изменяться сколь угодно мелкими шагами. Поэтому представленную таким образом информацию называют непрерывной информацией. Иногда для этой цели используется термин аналоговая информация.
Если применительно к той же самой информации о поле установить минимальные шаги изменения всех характеризующих ее скалярных величин, то получим так называемое дискретное представление информации, или по-другому, говорят – дискретная информация. Т. к. точность измерений (как и человеческого восприятия) всегда ограничена, то, даже имея дело с непрерывной информацией, человек воспринимает ее в дискретном виде. Однако, любая непрерывная информация может быть аппроксимирована дискретной информацией с любой степенью точности. Поэтому можно говорить об универсальности дискретной формы представления информации.
Результаты измерения любых скалярных величин представляются в конечном итоге в числовом виде. И т.к. при заданной точности измерений эти числа представимы в виде конечных наборов цифр (с запятой или без нее), то дискретную форму представления информации часто отождествляют с цифровой информацией.
2.2.Кодирование
Для начала введем необходимое понятие абстрактного алфавита. Ведь цифровая информация в действительности представляет собой частный случай так называемого алфавитного способа представления дискретной информации. Его основа – это произвольный фиксированный конечный набор символов любой природы, который и называют абстрактным алфавитом или просто алфавитом.
Примеры алфавитов. 1) совокупность десятичных цифр вместе с запятой для отделения дробной части числа можно рассматривать в качестве частного случая абстрактного алфавита с 11 символами – буквами этого алфавита; 2) алфавит естественного человеческого языка (русского); 3) язык математических и других научных текстов может включать в себя наряду с обычными буквами данного языка буквы других языков (греческого), а также различные специальные символы (символы арифметических операций +, - и др.).
При обработке информации часто возникает необходимость в представлении средствами одного алфавита буквы других алфавитов. Такое представление носит в информатике свое специальное название – кодирование. Задача имеет простое решение, если требуется закодировать буквы алфавита X с меньшим числом букв, чем у кодирующего алфавита Y.
Пример. Пусть X – алфавит десятичных цифр, Y – обычный русский алфавит. Тогда для кодирования X в Y достаточно положить 0=а, 1=б, 2=в, 3=г,ююю,9=к. Возможны и другие способы кодирования, в том числе такие, в которых буквы алфавита X кодируются несколькими буквами алфавита Y. Одним из наиболее естественных способов такого кодирования является простая замена десятичных цифр их русскими названиями: нуль, один, два и т.д.
При кодировании алфавитов с большим числом букв в алфавите использование для кодирования последовательностей букв является обязательным условием для возможности различения кодов различных букв, что есть непременное условие правильного кодирования.
Пример. Буквы русского алфавита можно закодировать парами десятичных цифр: а=01, б=02,…, к=10, л=11,…
Можно сказать, что кодирование – это, вообще говоря, перевод сообщений с одного языка на другой; этот термин применяется чаще всего при передаче информации по каналам связи. При этом предназначенное кодирующее устройство сопоставляет каждому символу передаваемого текста, или целым словам, или фразам (сообщениям) определенную комбинацию сигналов (приемлемую для передачи по данному каналу связи), называемую кодом или кодовым словом. Именно эту операцию перевода сообщений в определенные последовательности сигналов принято называть кодированием, а обратную операцию, восстанавливающую по принятым сигналам (кодовым словам) передаваемые сообщения, - декодированием. Чтобы передать информацию по каналу, необходимо предварительно перевести сообщение с помощью преобразователя в сигналы той природы, которая соответствует носителю информации в канале, например, в электрические сигналы, дискретные или непрерывные. При использовании сигналов непрерывного характера обычно не возникает каких-либо особенных проблем кодирования. Однако, сигналы непрерывного характера более уязвимы к воздействию всякого рода помех и трудно поддаются процедуре защиты. На электрические каналы связи воздействуют помехи непрерывного характера: природные – молнии и др. разряды, а также «индустриальные» помехи. Каналы для передачи непрерывных сигналов являются «малоскоростными», т.е. с малой пропускной способностью. Примерами каналов с передачей непрерывных сигналов, являются каналы: 1) телефонной связи, 2) радиосвязи (эфирной), в том числе, телевидение. Примеры каналов с передачей дискретных сигналов, это: 1) телеграфные, 2) любые, так называемые, каналы цифровой связи – для передачи «компьютерной информации» (например, по Интернет) – телевизионной информации, преобразованной в дискретные («цифровые») сигналы. Каналы связи с дискретной информацией более продуктивны. Это связано, в первую очередь, с уменьшением избыточности при преобразовании сообщений человека в дискретные сигналы. Кодирование, выполняемое при переводе сообщений в письменной или устной форме в дискретные сигналы по соответствующим каналам связи с максимально возможным уменьшением избыточности и создают основные проблемы, которые рассматриваются теорией кодирования.
Теперь попытаемся определить основное понятие кода (раздел дискретной математики). Задача уменьшения избыточности передаваемых сообщений – задача противоречивая: с одной стороны, требуется уменьшение избыточности с целью улучшения пропускной способности канала передачи информации; с другой стороны, необходим достаточный уровень избыточности, чтобы обеспечить достоверность передаваемой информации при помощи ее контроля и устранения помех, возникающих в каналах связи при воздействии помех. Намеренно вводимая избыточность необходима как для определения искажений дискретных сигналов, так и выделения «чужих» сигналов (из «чужих» сообщений).
Определение. Код – это набор правил, которые устанавливают однозначное соответствие между элементами информации (словами, числами, фразами, химическими структурными группами и т.д.) и символическими метками. Т.о, код включает в себя: 1) элементы информации; 2) символические метки; 3) способы установления однозначного соответствия между теми и др.
Элементы информации составляют основу кода и выбираются в зависимости от решаемой задачи. Выбору элементов информации предшествует тщательный анализ информации; сущность анализа состоит в выборе характерных, специфических ее особенностей, которые наиболее четко отвечают требованиям поставленной задачи. Число выбранных элементов информации согласуется с емкостью носителя (кода) и его способом кодирования. Можно сказать, что коды и кодирование – средство для экономной, удобной и практически безошибочной передачи сообщений.
Примечание. Коды появились в древности в виде криптограмм (тайнописи); ими пользовались для засекречивания важного сообщения от тех, кому оно было предназначено. Греческий историк Геродот (V в. до н.э.) приводил примеры писем, понятных лишь для одного адресата. Спартанцы имели специальный механический набор, при помощи которого важные сообщения можно было писать особым способом, обеспечивающим сохранность тайны. Собственная секретная азбука была у Юлия Цезаря. В средние века и эпоху Возрождения над изобретением тайных шифров трудились: Фрэнсис Бэкон, Франсуа Виет, Джераламо Кардано, Джон Валлис. Много позднее Шеннон показал, что можно построить криптограмму, которая не поддается никакой расшифровке, если, конечно, не известен способ ее составления.
Различные символы или сообщения должны кодироваться различными кодовыми словами, в противном случае по кодовым словам невозможно восстановить передаваемые сообщения.
2.2.1. Двоичный алфавит. Простейший абстрактный алфавит, являющийся достаточным для кодирования любого другого алфавита, это алфавит, состоящий из двух букв. Такой алфавит называется двоичным, а его буквы принято отождествлять с цифрами 0 и 1. Кодовые слова могут быть представлены как последовательности из нулей и единиц. Число двоичных последовательностей длины n равно .
Следовательно, M сообщений можно закодировать двоичными последовательностями длины n тогда и только тогда, когда выполняется следующее условие , т.е. когда .
Примечание. Френсис Бэкон был первый, кто понял, что для кодирования достаточно двух символов.
Наряду с двоичными кодами применяют коды, использующие не два, а большее число элементарных сигналов (кодовых символов). Их число d называют основанием кода, а множество кодовых символов называют кодовым алфавитом.
Общее число n-буквенных слов, использующих d символов равно .
1.2.1.1. Подстановочное и перестановочное кодирование. Как упоминалось выше, алфавита из двух (подавно - из большего числа) символов достаточно для кодирования любого множества сообщений. Однако, кодирование всех сообщений словами одинаковой длины не всегда бывает выгодно. Наиболее часто передаваемые сообщения лучше кодировать более короткими словами, оставив более длинные слова для кодирования сообщений, появляющихся реже. В результате такого подхода кодовый текст станет в среднем короче и на его передачу потребуется меньше времени. Именно так обеспечивается экономия. Впервые эта идея была реализована американским инженером Морзе в предложенном им коде.
Мерой частоты появления того или иного события (сообщения) является его вероятность. Пусть - доля тех случаев, в которых событие (сообщение) появляется, от общего числа появившихся сообщений.
Примером экономных кодов могут служить так называемые неравномерные коды, коды Фано.
Показателем экономности или эффективности неравномерного кода являются не длины отдельных кодовых слов, а «средняя» их длина , где - длина кодового обозначения для сообщения , - вероятность появления сообщения , N – общее число сообщений. Т.о., наиболее экономный код – это код с наименьшей средней длиной .
Перечислим основные свойства оптимального кода. Пусть сообщения имеют вероятности ( ) соответственно, и кодируются двоичными словами , имеющими длины .
- В оптимальном коде менее вероятное сообщение не может кодироваться более коротким словом, т.е. если , то .
- Если код оптимален, то всегда можно так перенумеровать сообщения и соответствующие им кодовые слова, что и при этом . Из неравенств следует, что сообщение кодируется словом наибольшей длины .
- В оптимальном двоичном коде всегда найдется, по крайней мере, два слова наибольшей длины, равной , и таких, что они отличаются друг от друга лишь в последнем символе.
Определение. Величина, способная принимать лишь два различных значения, представляет собой некий информационный атом, который имеет специальное название – бит (минимальная единица информации).
2.2.2. Байтовый алфавит. По причине простоты двоичный алфавит наиболее широко распространен в различных технических информационных устройствах и, в первую очередь, в ЭВМ. Выше было сказано, что последовательностями из n двоичных цифр можно закодировать различных символов. При n=8 их число равно 256 – этого достаточно для кодирования большинства встречающихся на практике алфавитов (исключая иероглифическое письмо).
Определение. Последовательность из 8 двоичных цифр получила специальное наименование – байт. Составляемый различными подобными последовательностями алфавит из 256 букв называют байтовым алфавитом.
Замечание. Ранее в информатике употреблялись 7-, 6- и даже 5-битовые байты, но 8-битовый байт – это установившийся международный стандарт.
В практике использования ЭВМ укоренился единый стандарт байтового кодирования строчных и прописных букв латинского алфавита, знаков препинания, десятичных цифр с десятичной запятой (десятичной точкой), а также ряда наиболее употребительных математических символов (знаки арифметических и логических операций, знаки равенства и неравенства и др.); специальный байтовый код закрепился за знаком пробела.
Мощность (число букв) байтового алфавита оказывается достаточной для представления, кроме этих символов, строчных и прописных букв русского алфавита, отличных по написанию от латинских букв. Остается резерв для кодировки других символов, например, греческих букв. Следует заметить, что реальные алфавиты, используемые ЭВМ, ограничиваются чаще всего, меньшим, чем 256 числом символов. Часто на практике в ЭВМ используют 96 буквенный алфавит, который называют базисным.
Энтропия и информация
Центральными понятиями математической теории информации является понятие информации и меры для измерения ее количества. Здесь определение информации выводится из статистических рассуждений и игнорирует смысловую сторону передаваемых сообщений, отвлекается от содержательной, семантической стороны информации. Методы математической теории информации используются в информатике для обеспечения оптимального кодирования семантической информации, вводимой в ЭВМ, для ее долговременного хранения, поиска, передачи на расстояние и выдачи, при переработке текстов документов на естественных языках (например, сокращение их объема без потери смысла информации и т.д.). В математической теории информации одна из основных задач – рассмотрение процесса передачи информации по каналу связи.