Понятие информации. Характеристики информации
Основополагающим понятием в информатике является понятие «информации». Это фундаментальное и достаточно трудное для восприятия понятие, которое имеет глубокий физический, математический и философский смысл. В силу этого в различных учебниках формулировки этого понятия могут иметь различный вид. Часто это понятие трактуется, весьма произвольно, в стиле гуманитарных наук, что недопустимо в рамках информатики как инженерной науки. Между тем к настоящему времени это понятие получило в естественных науках достаточно ясное и физически непротиворечивое наполнение [24,28].
Трудность восприятия понятия информации связана с тем, что это естественно научное понятие имеет глубокие корни в явлениях психики человека и его сознания. Информационные явления еще недостаточно изучены в рамках естественных наук и их связи с понятием информация часто уточняются средствами гуманитарных наук (философской логики, гносеологии, лингвистики и семиотики).
Еще одна трудность состоит в том, что термин «информация» вошел в обыденную речь и кажется студентам столь понятным и очевидным, что не требует определения. Подобная ситуация нетерпима, ибо в информатике приходится количественно характеризовать явление «информации» и более того на основе количественных характеристик требуется оценивать технические и экономические аспекты информационных явлений. Схожая ситуация существует в энергетике, где сложные естественно научные явления и понятия (электрическая, тепловая энергия) требуют строгих научных определений без которых невозможны экономические отношения. Однако информационные явления более сложны для понимания ибо, являясь сугубо физическими явлениями, они тесно связаны с человеческим сознанием.
Далее делается попытка более четко разграничить тот круг явлений связанных с понятием информации, который носит естественно научный характер и тот круг явлений, который связан гуманитарными аспектами информационных явлений. Это тем более является важным и актуальным для студентов экономических, юридических и социальных специальностей, поскольку именно в этих областях деятельности осознанное использование технических средств информатики требует четкого разграничения физических аспектов информационных явлений и их гуманитарных характеризаций.
В качестве исходного определения «информации» используем достаточно распространенное определение, которое кажется, интуитивно понятным и вместе с тем может быть интерпретируемо достаточно строго с точки зрения точных наук.
Информация - это сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состояниях, которые уменьшают имеющуюся о них степень неопределенности, неполноты знаний.
В данном определении подчеркивается, что информатика рассматривает информацию как связанные между собой сведения, изменяющие наши знания (представления) о явлении или объекте окружающего мира. Здесь слово «сведения» и «знания» уже трактуются как чисто гуманитарные понятия в рамках семиотики.С этой точки зрения (семиотика) информацию можно рассматривать как совокупность специфических знаний о явлениях окружающего мира и зависимостях между ними. Специфика знаний трактуемых как информация такова, что они (знания) не зависят от формы их представления. Все эти идеи зафиксированы в определении понятия информации заданным в Федеральном законе «Об информации, информационных технологиях и защите информации» от 27 июля 2006 г. №149-Ф3.
Информация - это сведения независимо от формы их представления.
Данное определение предполагает и соответствующую строго научную трактовку этого понятия. Эта научная трактовка учитывает все выше сказанное кроме того, и требует сформулировать такие специфичные для информационных явлений понятия как структура и форма информации.
Другими словами в контексте трактовки информации как специфического явления отражения окружающего нас мира (предметной области) в нашем сознании (т.е. в виде специфических знаний) можно говорить о том, что информация должна иметь структуру и форму. Можно сказать, что эти понятия детализируют специфичность научно-технического (рационального) отражения в нашем сознании объектов окружающего мира. Эта специфичность достигается на первом этапе с помощью, естественного языка, а на втором этапе с помощью формальных языков, которые позволяют при отражении в нашем сознании окружающего мира выделить его структурные особенности и формы. Рассмотрим как это делается.
Хорошо известно из обыденной практики (и строго фиксируется в семиотике), что описание предметной области первоначально дается на естественном языке. Язык характеризуется набором знаков (знаковая система). Знаки представляют собой разновидность символов. Как хорошо известно, символы это множество отличимых друг от друга и легко воспроизводимых материальных объектов («вещей»), которые используются для обозначения других объектов или явлений (эти явления, в отличие от символов, называются денотат). Разумеется, все они могут отражаться в нашем сознании в виде свойств этих объектов. Само это отражение называется концепт. Именно тройка (отношения между денотатом, символом и концептом) и формирует то, что, мы называем понятием (так называемый треугольник Фреге). Символы, в свою очередь, подразделяются на иконы, иероглифы («рисунки» графически похожие на явление, которое они представляют), индексы и знаки («объекты-рисунки», которые совсем не похожи на те объекты, которые они представляют и они выбираются согласно всеобщим соглашениям между людьми). Разумеется, раз символы образуются как соглашения между людьми, то можно создавать различные системы знаков. Напомним и уточним, что рисунки как таковые тоже являются символами. Кроме того, поскольку в качестве символов могут выступать любые материальные объекты, то символами могут являться звуковые колебания и волны, создаваемые человеком. Это то, что в гуманитарных науках называется человеческая речь. В качестве символов могут выступать тактильные ощущения и обоняние. Такие знаковые системы очень развиты у общественных насекомых и других представителей животного царства. В качестве символов и знаков могут выступать и более сложные формы материи, которые активно используются современной цивилизацией – это электромагнитные волны, и движения заряженных частиц, электронов, ионов и т.д. Именно такими знаками и пользуются в современной вычислительной технике и связи.
Итак, язык состоит из последовательности знаков или символов, которые дают описание отдельных явлений с помощью заранее установленных соглашений - понятий. Причинно следственные связи между явлениями отражаются в языке в виде предложений (суждений) этого языка. Суждения представляют собой отношения (связи) между понятиями. Напомним читателю, что предложения естественного языка есть утверждение о том, что между конкретными объектами существуют определенные взаимоотношения (взаимодействия).
Правила определения понятий и правила организации предложений в естественных языках весьма сложны и не однозначны. Для преодоления этой трудности были предложены наборы строгих правил, которые получили название законов логики. Эти правила устанавливают порядок объединения аргументов между собой с помощью понятия или отношения (эта связь называется предикатом). Такая конструкция из предиката и аргументов между ними называется атомарным суждением. Этот набор правил получил название математической логики. Поскольку компьютер предназначен для манипуляций (действий) с символами или знаками, то естественно, что эти манипуляции осуществляются согласно правилам (законам) математической логики включай теорию алгоритмов. Таким образом, функционирование компьютера описывается и осуществляется по законам математической логики. Для описания последовательности действий над совокупностью символов требуется последовательность инструкций. Последовательность инструкций представляет собой особый язык. Языки, построенные на основе формализации, получили название формальных языков.
Такие языки, обеспечивающие предельную конкретность в описании окружающего нас мира и действий в нем, нашли широкое применение в естественных науках и в технике. В частности именно формальные языки послужили основой при создании компьютеров, систем связи и управления. Компьютерные программы, которые составляют неотъемлемую часть ЭВМ написаны на специализированных формальных языках.
Под описанием предметной области на формальном языке предполагается соотнесение с ее описанием на естественном языке. По другому можно сказать, что явление информации, понимаемое как специфическое явление отражения окружающего нас мира (предметной области) в нашем сознании (т.е. в виде специфических знаний) может быть представлено в виде текста на формальном языке. Для более удобного восприятия человеком этих знаний можно использовать и пояснения на естественном языке.
Признаком наличия структуры информации является существование рассмотренных выше элементов информации (знаки, предикаты, логические высказывания)и их взаимосвязь.
Еще раз напомним и подведем итог:
1. В качестве элементов информациимогут выступать логически неделимые структуры языка – символы или их объединения в виде суждений.
2. Формы представления информации в нашем сознании могут быть различны.Основными из них являются: символьная(основана на использовании различных символов), и ее разновидности текстовая (текст - это символы, знаки,расположенные в определенном порядке), графическая (различные виды рисунков или изображений), звуковая, тактильная.
Отметим, что компьютер это техническое устройство, предназначенное для манипуляции с символами, которые с одной стороны являются естественными явлениями (частицы краски, электрические импульсы), а с другой стороны они являются элементами формального языка. Очень важно, что этот формальный язык согласован с конструкцией данного устройства. Здесь следует особо отметить, что явление «информации» представленное в виде фрагментов формального языка готово для манипуляции с помощью компьютеров. Поэтому явление информации, преобразованное во фрагменты формального языка, готовые для обработки в компьютере, получило специальное название (термин) – данные.
Важно отметить, что если такие фрагменты текстов формального или естественного языка (напомним, что они есть материальные объекты-символы) предполагается перемещать в пространстве, то они называются сообщениями. В повседневной практике, в обыденном сознании, однако, такие понятия, как информация, сообщения, сведения и данные, часто рассматриваются как синонимы, что и является источником бесконечных недоразумений. На самом деле между ними имеются принципиальные различия. Итак, более кратко в полном соответствии со стандартными определениями.
Данные – это информация, представленная в виде удобном для обработки на компьютере (на электронно-вычислительной машине - ЭВМ).
Более строго- данные в информатикеэто совокупность символов, соглашений и правил, используемых для общения, отображения, передачи информации в электронном виде.
Одной из важнейших характеристик информации является ее адекватность.
Адекватность информации - это уровень соответствия образа, создаваемого в сознании с помощью информации, реальному объекту, процессу, явлению. От степени адекватности информации зависит правильность принятия решения человеком.
Согласно идеям семиотики, адекватность информации может выражаться в трех формах: синтаксической, семантической и прагматической.
Синтаксическая адекватностьотображает формально-структурные характеристики информации (структура информации), не затрагивая ее глубокого семантического (смыслового) содержания.
На синтаксическом уровне учитываются физический и математический способ описания такого явления как информация (физический тип носителя и физический способ представления информации, скорость ее передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.д.). Здесь уточняется система представления информации в виде символов или знаков. Информацию, рассматриваемую с таких позиций, обычно определяют как сообщения, если ее надо передать на большие расстояния, или как данные, если с ней необходимо осуществлять манипуляции на компьютере.
Поскольку возможны различные формы представления символьной информации, то существуют специальные алгоритмы ее преобразования из одной знаковой системы в другую. Такие преобразования получили название кодирование. Такие алгоритмы могут представлять группы символов в одной системе одним символом или группой символом в другой знаковой системе. Результат преобразования называется кодом. Обратные операции называются декодированием.
Если предполагается транспортировка сообщений и данных на большие расстояния, то для этого используется специальное физическое преобразование сообщения в другую физическую форму, более удобную для транспортировки на большие расстояния. (Например, в виде импульсов тока или электромагнитных волн.) Все дело в том, что другая форма физического представления сообщения (она называется сигналом) может быть более удобна для перемещения на большие расстояния (шутливый пример: сообщение - письмо, а его более удобное представление это письмо в сумке всадника – всадник с письмом это сигнал). Такая физическая форма представления сообщения получила специальное название - сигнал. Процедура такого преобразования получила название модуляции.Обратная операция получила название демодуляция или детектирование. Устройства, выполняющие обе эти операции, называются модемами.
В рамках синтаксического подхода, возможно дать чисто естественно научное описание информации как природного явления суть которого сводится к понижению неопределенности состояния открытых термодинамических систем любой природы. С этой точки зрения информационные явления возможны (при определенных условиях) в открытых термодинамических системах на физическом, химическом и биологическом уровне. Эти явления описываются в рамках второго обобщенного закона термодинамики и теоремы Пригожина.
Еще раз отметим, что специфика информационных явлений применительно к человеку определяется таким фундаментальным явлением как сознание человека. Достаточно полное естественно научное описание этого явления пока не получено. И поэтому приходится здесь ограничиваться менее полными описаниями, которые разработаны в семиотике и теории познания (гносеологии). Этот уровень описания дается в семиотике в ее разделе под названием семантика.
Семантическая адекватность определяет степень соответствия образа объекта в сознании самому объекту. Здесь учитывается смысловое содержание информации. На этом уровне человеком анализируются сведения, отражаемые информацией, рассматриваются смысловые связи. Таким образом, семантическая адекватность проявляется при наличии единства информации и пользователя. Эта форма служит для определения понятий и представлений, выявления смысла, содержания информации и ее обобщения.
Прагматическая адекватность отражает соответствие информации цели управления, реализуемой на ее основе. Прагматические свойства информации проявляются при наличии единства информации, пользователя и цели управления. На этом уровне анализируются потребительские свойства информации, связанные с практическим использованием информации, с соответствием ее целевой функции деятельности системы.
Каждой форме адекватности соответствует своя мера количества информации.
Синтаксическая мера информации
Для количественной меры в символьном представлении данных используется количественная характеристика (физическая или математическая величина) называемая объем данных в сообщении. Объем данных в сообщении измеряется количеством символов в этом сообщении (рис. 1.1).
Сообщение состоит из последовательности символов. Число символов в сообщении конечно и равно n. Здесь говорят о длине сообщения или объеме данных в сообщении. Символы могут быть разного типа. Число типов символов обозначается как m. Полный набор типов символов называется алфавитом сообщения.
Итак - объем данных Vд – в сообщении измеряется количеством символов (разрядов) n в этом сообщении. В различных системах счисления один разряд имеет различный вес и соответственно меняется единица измерения данных. Для количественного описания синтаксической информации используется еще ряд характеристик, которые рассматриваются далее в Главе 2.
Если источник сообщения имеет алфавит размером m, а число возможных символов в сообщении равно n, то число возможных оригинальных сообщений будет равно: M=mn .
Примером сообщения является текст. Любой текст состоит из конечного числа символов (букв). Полный набор букв называется алфавитом. Отметим, что от символов букв легко прейти к числам. Этот процесс и называется кодированием. Еще раз подчеркнем, что при кодировании происходит преобразование букв в соответствующие числа (кодовые символы). Сами числа могут задаваться в разных системах счисления. Естественно, что одно и то же количество разрядов в разных системах счисления может передать разное число состояний отображаемого объекта, что можно представить в виде соотношения
M=mn ,
где M – число всевозможных отображаемых состояний;
m – основание системы счисления (разнообразие символов, применяемых в алфавите), n – число разрядов (символов) в сообщении.
Если m =2 то это двоичная система счисления. Именно эта система счисления и является основной для архитектуры ЭВМ. Поэтому в современных ЭВМ минимальной единицей измерения данных является бит- один двоичный разряд. Широко используются также более крупные единицы измерения: байт, равный 8 битам; килобайт, равный 1024 байтам; мегабайт, равный 1024 килобайтам и т.д.
Семантическая мера информации используется для измерения смыслового содержания информации. В семиотике наибольшее распространение здесь получила тезаурусная мера, связывающая семантические свойства информации со способностью пользователя понимать поступившее сообщение.
Тезаурус - множество смысловыражающих единиц некоторого языка с заданной на нём системой семантических отношений. В широком смысле тезаурус интерпретируют как описание системы знаний о действительности, которыми располагает индивидуальный носитель информации или группа носителей.
Максимальное количество семантической информации потребитель получает при согласовании ее смыслового содержания со своим тезаурусом, когда поступающая информация понятна пользователю и несет ему ранее неизвестные сведения. С семантической мерой количества информации связан коэффициент содержательности, определяемый как отношение количества семантической информации к общему объему данных.
I c== CVд
Относительной мерой количества семантической информации может служить коэффициент содержательности С.
Прагматическая мера информации определяет ее полезность, ценность для процесса управления. Обычно ценность информации измеряется в тех же единицах, что и целевая функция управления системой.