Структура информационной технологии
Информационная технология обладает комплексным составом компонентов, поэтому полезно определить структуру и состав типовой информационной технологии. Назовем информационную технологию базовой, если она ориентирована на определенную область применения. Базовая информационная технология должна задавать модели, методы и средства решения задач. Она создается на основе базовых аппаратно-программных средств. Базовая технология должна быть подчинена основной цели - решению функциональных задач в той области, где она используется. Это могут быть задачи управления, проектирования, научного эксперимента, комплексного испытания и обучения. На вход базовой информационной технологии как системы поступает комплекс решаемых задач, для которых должны быть найдены типовые решения на основе моделей, методов и средств информационной технологии. Использование базовой информационной технологии рассмотрим на концептуальном, логическом и физическом уровнях.
Концептуальный уровень задает идеологию автоматизированного решения задач. Начальным этапом является постановка задачи. Задача автоматизированного управления представляет собой совокупность взаимосвязанных алгоритмов, которые обеспечивают автоматизацию функции управления.
Постановка задачи означает содержательное описание задачи, куда входят целевое назначение задачи, возможная экономико-математическая модель и метод ее решения, функциональная и информационная взаимосвязь ее с другими задачами. Содержание задачи раскрывается в рабочем документе проектировщика системы "Постановка задачи и алгоритм решения". При постановке задачи важна корректность описания с точки зрения экономических критериев, для этого должны быть правильно выбраны ограничения. Следующим этапом является формализация задачи. На этом этапе разрабатывается математическая модель решения ее либо подбирается одна из известных моделей. При решении комплексов задач автоматизированного управления получили широкое применение экономико-математические модели в виде производственных функций, балансовых моделей, моделей объемного, календарного, объемно-календарного и сетевого планирования и управления, моделей управления запасами и оперативного управления. Если выбрана или разработана математическая модель, то ответственным этапом решения является алгоритмизация задачи. Алгоритмизация означает задание алгоритма либо совокупности алгоритмов, определяющих процесс преобразования исходных данных в искомый результат за конечное число шагов. В алгоритме могут быть выделены относительно самостоятельные части (блоки) и элементы алгоритма (операторы). Реализация алгоритмов на основе конкретных вычислительных средств осуществляется на базе программирования задачи. Программирование задачи при известном алгоритме может отличаться трудоемкостью, однако не содержит в себе принципиальных сложностей, поскольку разработаны типовые технологии программирования и существует большой класс специалистов в этой области.
При наличии программы осуществляется решение задачи, т.е. получение конкретных результатов для входных данных и принятых ограничений. Этап анализа решения необходим для того, чтобы проверить полученное решение на соответствие постановке задачи и исходным данным. В современном представлении понятие первоначальной задачи соответствует понятию предметной области. В условиях базовой информационной технологии возникает проблема разработки модели предметной области, ориентированной на широкий спектр решаемых задач. При этом необходимо попытаться автоматизировать этап формализации задачи, т.е. переход от модели предметной области к модели решения задачи. На основании математической модели возможен переход к алгоритмической модели, от нее - к программе, а далее - к реализации процедур и операций. Процесс формирования модели предметной области и использования ее для решения каких-то конкретных задач различны по содержанию творческого элемента. Поэтому выделяют проблему автоматизированного проектирования задачи, которая решается разработчиком-системщиком, и проблему автоматизированного применения спроектированных решений для конкретных условий, которая решается пользователем.
На логическом уровне следует установить модели решения задачи и организации информационных процессов, обеспечивающих обработку информации в процессе нахождения решения. Рассмотрим взаимосвязь моделей базовой информационной технологии. На этом уровне цель базовой информационной технологии - построение модели решаемой задачи и ее реализация на основе организации взаимодействия информационных процессов. Общая модель управления содержит в себе закономерности построения требуемой модели решения задачи. Если информационная технология ориентирована на область применения, то в базе знаний должны содержаться фрагменты модели предметной области, представляющие собой обобщенные информационные структуры. На этапе проектирования решаемой задачи осуществляется настройка обобщенных структур на конкретные данные задачи.
Получаемые конкретные структуры подвергаются анализу, т.е. последовательно строится модель предметной области. На основе модели предметной области и обобщенной модели управления формируется модель решения задачи. В условиях выбранной базовой информационной технологии модель решения задачи должна быть согласована с моделью организации информационных процессов, включающей в себя модели обмена, управления, накопления, обработки данных и модели представления знаний. Каждая их этих моделей при раскрытии является базой построения частных математических моделей для анализа характеристик конкретного информационного процесса.
Модель обмена обеспечивает оценку вероятностно-временных характеристик процесса обмена с учетом маршрутизации, коммутации и передачи информации. Объектом исследования модели является система обмена, функционирующая в условиях воздействия внешней среды. В качестве воздействий выделяют входные, ошибок, управляющие. На основании этой модели реализуется синтез системы обмена данными с выбором оптимальной топологии и структуры сети, наилучшего метода коммутации, протоколов и процедур доступа, адресации и маршрутизации.
Модель накопления данных определяет каноническую схему информационной базы и раскрывается на логическом уровне организацией информационных массивов, а на физическом уровне - их размещением. Информационный массив является основным элементом внутримашинного информационного обеспечения. Под информационным массивом понимают совокупность данных о группе однородных объектов, характеризуемых одинаковым набором сведений. Массивы могут различаться по семантическому содержанию, технологии использования носителя информации и техническим характеристикам.
Логический уровень организации информационных массивов обладает тем преимуществом, что он может быть не увязан с условиями их физической организации, т.е. видом носителя, типом ЭВМ и т. д. Идеология логической организации информационных массивов совершенствовалась с развитием вычислительной техники.
Модель обработки данных определяет организацию вычислительного процесса, который включает в себя решение разнообразных задач, возникающих у пользователя. Ввиду большого различия областей применения информационной технологии содержание и характер решаемых задач могут быть разными, однако на уровне обработки данных все задачи сводятся к задачам арифметической обработки. Последовательность и процедуры решения вычислительных задач должны быть подобраны так, чтобы оптимизировать вычислительный процесс с точки зрения используемого объема памяти, ресурса, числа обращений и т. д. Принципы организации вычислительного процесса зависят от той проблемной области, на которую ориентирована информационная технология. Поэтому на уровне базовой технологии можно говорить об оптимальном использовании той или иной операционной системы, которая поддерживает вычислительный процесс. Свойства операционной системы должны соответствовать требованиям организации вычислительного процесса.
Структура вычислительного процесса обычно задается числом задач с их составом, объемами оперативной памяти. При этом наиболее важным являются требования к моментам запуска и выпуска решаемых задач. Эти моменты определяют динамику получения промежуточных и конечных результатов решения вычислительных задач, которые используются при управлении производством. Обобщенным критерием оптимальной организации вычислительного процесса при ограничениях на ресурс можно считать эффективность удовлетворения всех запросов пользователя либо той системы, в которую встроена информационная технология. Реальные возможности по управлению вычислительным процессом задает операционная система. Первые операционные системы были ориентированы на пакетную обработку информации. Это вызывало значительную задержку перед загрузкой программ в машину, поскольку задачи собирались в пакеты. Такой режим оказался непригодным для задач высокой размерности при необходимости решения их в оперативном режиме. Переход к системам разделения времени позволил в условиях прерывания отдавать предпочтение приоритетным задачам. Оказалось возможным планировать вычислительный процесс по моменту выпуска задач. Новые возможности для пользователя дал переход к виртуальным операционным системам. Система виртуальных машин предоставила пользователю (в его представлении) возможность иметь неограниченный вычислительный ресурс и не замечать параллельной работы соседних пользователей.
В условиях распределенной обработки данных необходимо рационально распределить вычислительный ресурс не только между вычислительными задачами, но и топологически между пользователями. Возникают задачи взаимодействия вычислительного процесса с локальными базами данных, меняется структура организации вычислительного процесса.
Базовая информационная технология на технологическом уровне представляет собой совокупность базовых информационных процессов. Взаимная их увязка, синхронизация осуществляются через модель организации информационных процессов, которая реализуется в виде модели управления данными. Управление данными означает управление процессом накопления, обмена и обработки данных. Накопление данных осуществляется в условиях современных баз данных, причем управляющие воздействия должны обеспечить ввод информации, обновление базы данных, а на физическом уровне размещение информационных массивов в базе. Это реализуется на основе аппаратно-программных комплексов в виде СУБД. Существуют типовые СУБД, которые получили большое развитие и могут считаться базовыми в информационной технологии. Этими системами определяются условия доступа различных пользователей к данным. Руководители различных рангов могут получить доступ к данным только через специальную службу управления данными, которая существует на современных предприятиях. Переход к распределенным базам данных изменяет ситуацию, у пользователя появляются собственные локальные базы данных, к которым он имеет прямой доступ. В этих условиях должны разрабатываться и новые системы управления.
На этапе обмена информацией управление данными означает их маршрутизацию, коммутацию и организацию передачи. Это реализуется на уровне сообщений, которые имеют адресную часть и могут самостоятельно перемещаться по сети в зависимости от адреса потребителя. Методы коммутации в сетях обычно реализуются на физическом уровне достаточно жестко. Сообщения следуют по заданным маршрутам в соответствии с "зашитыми" в сети принципами коммутации. На уровне передачи данных управление заключается в определении требуемого числа передач, уровня избыточности, применяемых методов кодирования и модуляции с целью обеспечения требуемой помехоустойчивости передачи. Здесь могут реализовываться различные варианты систем с обратной связью, адаптивных систем, в которых управление осуществляется по результатам приема. Управление обработкой информации реализуется в соответствии с моделями организации вычислительного процесса. Отметим, что в условиях распределенной обработки данных может увеличиваться число функций управления данными, которые передаются пользователю: размещение данных на физическом уровне, выбор операционной системы, выбор методов организации данных и т. д. Особая роль принадлежит проектировщику задач на этапе формирования знаний при структурировании данных в соответствии с заданной предметной областью. Формирование предметной области из отдельных фрагментов зачастую является чисто творческой задачей пользователя, и в этом смысле не все функции управления данными могут быть формализованы.
Модели представления знаний являются основой автоматизированного решения задач управления. Практическое использование при построении модели предметной области и математических моделей получили логическое, алгоритмическое, семантическое, фреймовое и интегральное представления знаний.
Физический уровень базовой информационной технологии определяет возможность ее реализации на типовых программно-аппаратных средствах. Он включает в себя подсистемы накопления, обмена, обработки, управления данных, а также подсистему формализации знаний, с которой взаимодействуют проектировщик и пользователь. Подсистема накопления данных реализуется на основе типовых банков, обеспечивает организацию, хранение и накопление данных, которые отражают характеристики реальных объектов либо информацию по решению конкретных задач. В условиях распределенной обработки информации подсистема накопления может реализовываться в виде совокупности централизованной и локальной баз данных. Подсистема обмена строится на основе типовых локальных информационно-вычислительных сетей различных уровней, позволяющих осуществлять обмен вычислительным ресурсом между абонентскими и главными вычислительными машинами, т.е. предоставлять пользователю различные возможности. В качестве реализационных элементов могут выступать типовые сети, средства передачи данных в виде модемов, специализированные вычислительные комплексы обмена информацией и доступа к сетям. Подсистема обработки данных реализуется на базе стандартных ЭВМ различных уровней. На верхнем уровне - главные вычислительные машины, реализуемые в виде универсальных ЭВМ; на среднем уровне - абонентские вычислительные машины; на нижнем уровне - персональные либо управляющие ЭВМ. Обработка данных осуществляется на основе существующих пакетов прикладных программ в соответствии с той предметной областью, в которой используется базовая информационная технология. Подсистема управления данными реализуется в виде системы управления базой данных, системы управления сетью и системы управления организацией вычислительного процесса. Эта подсистема может быть представлена и определенными службами управления данными на предприятии, которые реализуют доступ к данным, возможность их обновления, изменяют режимы использования, обработки и накопления. Подсистема формализации знаний базируется на основе баз знаний, которые формируются в рамках интеллектуальных систем.
Информационные процессы
Информационная технология базируется на реализации информационных процессов, разнообразие которых требует выделения базовых, характерных для любой информационной технологии. К ним можно отвести управление, обмен, обработку, накопление данных и формализацию знаний [4, 6, 7, 8]. На логическом уровне должны быть построены математические модели, обеспечивающие объединение процессов в информационную технологию. Модель процесса передачи может быть представлена совокупностью моделей каналов связи и ошибок, являющихся следствием воздействия помех на передаваемые коды сообщений. Модель процесса обработки отображается моделью планирования и моделью реализация вычислений. В ходе обработки на основе входных данных формируются промежуточные и выходные, поэтому существенным становится процесс накопления, в основе которого должны лежать модели, обеспечивающие построение информационной базы.
В условиях персонализации вычислений особую роль играют модели представления знаний. Распространение получили логическая, алгоритмическая, семантическая и фреймовая модели, а также их совместное использование.
Под информационным процессом понимают процесс взаимодействия между двумя объектами материального мира, в результате которого возникает информация. Ранее отмечалось, что информация есть результат отражения одного объекта другим. При отражении создается модель системы, которая по своему характеру является информационной. Однако наличия процесса отражения еще недостаточно для формирования модели окружающего нас мира. Информационный процесс при отражении должен обладать свойством обогащения информации. Различают структурное, статистическое, семантическое и прагматическое обогащения. Структурное обогащение предполагает изменение параметров сообщения, отображающего информацию, в зависимости от частотного спектра исследуемого процесса, скорости обслуживания источников информации, требуемой точности. При статистическом обогащении осуществляют накопление статистических данных, обработку выборок из генеральных совокупностей накопленных данных, вычисление дисперсии и т.д. Целью статистического обогащения при передаче информации является снижение избыточности исходных сообщений. Семантическое обогащение означает минимизацию логической формы, исчислений и высказываний, выделение и классификацию понятий, содержания информации, переход от частных понятий к более общим. В итоге семантического обогащения удается обобщенно представить обрабатываемую либо передаваемую информацию и устранить логическую противоречивость в ней. Наиболее важной ступенью для принятия решения является прагматическое обогащение информации, при котором из полученной информации отбирается наиболее ценная, отвечающая целям и задачам пользователя.
Условия реализации информационного процесса в системе. Сообщение, отображающее информацию, всегда представляется в виде сигнала. Под сигналом можно понимать изменение состояний некоторого объекта. В зависимости от физической среды объекта различают механические, электрические, световые, звуковые и другие сигналы. В этом смысле можно считать, что сигнал является отображением сообщения, однако в реальной жизни возможен и обратный процесс: от материального объекта поступает сигнал, который далее становится источником сообщений. Например, в АСУ от объекта управления могут поступать статические и динамические сигналы. Статические сигналы отображают устойчивое состояние объектов и могут быть представлены в виде положения элемента системы, состояния электронного прибора, текста в документе и т. д. Эти сигналы находят практическое применение при подготовке, хранении и накоплении информации. Динамические сигналы характеризуются быстрым изменением во времени и могут отображать изменения электрических параметров в системе. Они используются для передачи информации и управления.
На логическом уровне сигналы разделяют на непрерывные и дискретные. Непрерывный сигнал отображается непрерывной функцией и физически представляет собой непрерывно изменяющееся значение колебаний. Дискретный сигнал определяется конечным множеством значений, .которые отображают определенные состояния физической системы. При формализации реальные сигналы отображаются следующими видами функций.
1. Непрерывная функция непрерывного аргумента. Функция f(t) непрерывна на всем отрезке рассмотрения и описывает реальный сигнал в любой момент времени своим мгновенным значением. Никаких ограничений на выбор значений функций и моментов времени не накладывается.
2. Непрерывная функция дискретного аргумента. Функция f непрерывна, но определяется лишь для дискретных моментов времени ti, которые выбираются с шагом квантования по времени Dt. Шаг квантования задается, исходя из спектральных свойств исходного физического процесса. Данная функция находит применение при переходе от непрерывного представления сигнала к дискретному на основе теоремы Котельникова. Этот процесс получил название квантования непрерывной величины по времени.
3. Дискретная функция непрерывного аргумента. Функция fj(t) определяется набором конечных дискретных значений на всем интервале времени t для любого момента его. Дискретизация функции осуществляется за счет выбора определенной шкалы квантования по уровню. Реальный физический процесс переводится в дискретизированный непрерывный процесс с заданным шагом квантования по амплитуде. Это используется при конструировании датчиков, в которых шаг квантования задается требуемой точностью воспроизведения измеряемой величины. Шаг квантования может быть равномерным и неравномерным. Функция характеризуется набором своих дискретных отсчетов, возможности кодирования которых показаны выше.
4. Дискретная функция дискретного аргумента. Функция fj(ti) может принимать дискретные значения из конечного множества и определяется лишь в моменты времени ti. В этом случае осуществляются квантование по времени и квантование по уровню. Физический процесс преобразуется в дискретизированный непрерывный процесс с определенным шагом квантования.
Таким образом, исходный сигнал, снимаемый с реального объекта, по своей природе имеет непрерывный характер. С целью повышения точности измерения он может быть превращен в набор дискретных значений. Как непрерывный, так и дискретный сигналы далее преобразуются в сообщение, что является начальной процедурой информационного процесса. Последующей процедурой, связанной с передачей, является обратное преобразование (сообщение в сигнал). По назначению информационные процессы разделяют на процессы сбора, подготовки, передачи, хранения, накопления, обработки и представления информации. Как было показано выше, информация, переданная в систему информационной технологии, превращается в данные, а данные отображаются в виде некоторого носителя-сигнала, т.е. наблюдается непрерывная цепь преобразования: материальный объект - сигнал - информация - данные - сигнал. Сигнал, возникающий как переносчик данных, должен обладать свойствами, соответствующими требуемому информационному процессу. При подготовке информации на машинном носителе в качестве сигнала, отображающего данные, выступают некоторые символы в соответствии с принятой системой классификации и кодирования информации. При передаче в качестве сигнала выступает переносчик, воздействуя на параметры которого, т.е. модулируя его, можно осуществить передачу данных на требуемое расстояние по выбранному каналу связи. При хранении данные отображаются сигналом, фиксируемым в виде состояний ячеек (физической среды) памяти вычислительных средств.
Любой динамический сигнал, отображающий сообщение, может быть обобщенно оценен физическими характеристиками, к которым относятся длительность сигнала Т, ширина спектра сигнала F, превышение сигнала над помехой Н. Знание этих характеристик необходимо для оценки возможности реализации сигнала на соответствующих программно-аппаратных средствах в реальной системе. Для этого сравнивают физические характеристики сигнала с физическими характеристиками той системы, в которой реализуется информационный процесс. Определим физические характеристики сигнала, отображающего код некоторого сообщения.
Пусть сигнал описывается непрерывной функцией f(t) с плотностью амплитудного спектра: s(w) = òTf(t)e-iwtdt, где Т - длительность сигнала; w - угловая частота. Заметим, что данному спектру соответствует функция f(t)=(2p)-1òF s(w)eiwtdw, где F - принятая ширина спектра сигнала.
Если элемент кода представляет собой на физическом уровне прямоугольный импульс амплитуды A и длительности t, то плотность амплитудного спектра сигнала
s(w) = ò-t/2t/2Ae-iwtdt = 2A w-1sin(wt/2)=[At sin(wt/2)]/(wt/2).
Видно, что sin(wt/2)=0 для w=2np/t, т.е. s(w)=0 при w=2np/t. В зависимости от требований к форме импульса принимают разные целые значения n. Если n=m, где m>1, то ширина спектра F=m/t, т.е. m определяется желаемым числом гармоник, входящих в состав рассматриваемого импульса. Чем больше m, тем выше качество импульса. Характерно, что ширина спектра импульса и его длительность являются взаимно обратными величинами. Поэтому с увеличением быстродействия информационного процесса расширяется ширина спектра сигнала, реализующего этот процесс. В общем случае произведение длительности сигнала на его спектр пропорционально длине кода и коэффициенту m. Превышение сигнала над помехой определяется как Н=log2(Pc/Pп), где Pc, Pп - мощности сигнала и помехи соответственно. Значения этих мощностей должны замеряться на входе потребителя информации. Обобщенную оценку физических характеристик сигнала дает понятие объема V=TFH. Эта величина соответствует объему параллелепипеда, сторонами которого являются физические характеристики сигнала. Геометрическое изображение может быть дано в системе координат: время - t, частота - f, параметр мощности - h=log2P.
Для системы, реализующей информационный процесс, могут быть приняты такие же физические характеристики, т.е. время, предоставляемое системой для данного сигнала, Тc, ширина полосы пропускания системы Fc, допустимое превышение сигнала над помехой в данной системе Hc. Обобщением этих характеристик может быть физический объем системы Vc=TcFcHc. Для реализации сигналов в данной системе необходимым условием является V£Vc, а достаточными условиями будут T£Тc, F£Fc, Н£Нc. Если соблюдается необходимое условие, то принципиально сигнал может быть реализован в данной системе. Невыполнение при этом достаточных условий может быть преодолено за счет преобразования сигнала с помощью отдельных процедур. Постоянство произведения длительности сигнала на ширину спектра позволяет осуществить взаимный обмен между этими величинами, т.е. возможны запись и воспроизведение сигнала с различными скоростями при соответствующем изменении ширины спектра. Взаимный обмен между превышениями сигнала и другими физическими характеристиками возможен за счет операций кодирования либо модуляции. Данный подход нашел широкое использование для процесса передачи данных, поскольку при передаче органично присутствуют и кодирование, и модуляция.
При ограниченной мощности сигнала, что соответствует реальной ситуации в технической системе, количество сведений (информации), которое содержит сигнал, может быть определено как I=ТF log2AP, где A - постоянный коэффициент.
Информация, поступающая с реальных объектов в виде сигналов, зачастую существует на фоне действующих помех. В этих условиях возникает проблема выделения полезного сигнала, т.е. полезной информации, если имеют место помехи. Пусть с материального объекта поступает общее количество сведений Iо, включающее в себя информацию сигнала и информацию помех. Если считать, что сигнал и помеха аддитивны, то выделение сигнала возможно в виде Ic = Iо - Iп, где Ic - количество сведений в сигнале; Iп - количество сведений, вносимых помехой. Учитывая, что Iо = ТF log2A(Pc+Pп); Iп=ТF log2APп, получим
Ic=ТF log2(1+Pc/Pп).
Отсюда следует, что выявление сигнала, поступающего от реального объекта, на фоне помех возможно даже в случае, если Pc<Pп, так как при этом условии Ic>0. Это создает теоретическую предпосылку реализации информационных процессов при чрезвычайно малых уровнях сигналов относительно действующих помех. Количество сведений в сигнале резко уменьшается с ростом уровня помехи.
Потеря при информационном взаимодействии. Оценим потери информации, возникающие по причине внешних и внутренних мешающих воздействий, используя результаты теории информации. Процесс информационного взаимодействия источника и потребителя может осуществляться с помощью системы путем последовательного обмена сообщениями. Тогда система реализует процесс отражения, т.е. информация от источника в виде последовательности сообщений с помощью системы выдается потребителю. Рассмотрим случай, когда множества сообщений X0, Y0 конечны. Будем считать, что в процессе отражения сообщение x0j, возникшее на входе системы, порождает на выходе y0i. Сообщение y0i возникает как результат сообщения x0j в итоге реализации информационного процесса в системе. Качественное функционирование системы предполагает минимизацию потерь информации при таком преобразовании. Поэтому полезно сравнить количество информации, которое содержится в сообщении x0j, и количество информации в сообщении y0i относительно сообщения x0j. Количество собственной информации сообщения x0j составит: I(x0j)=-log2P(x0j), где P(x0j) - вероятность возникновения на выходе источника сообщения x0j. Значение собственной информации в сообщении x0j потребителю неизвестно. Он судит о нем лишь по сообщению y0i. Тогда количество собственной информации в сообщении y0i составит I(y0i)=-log2P(y0i), где P(y0i) - вероятность возникновения сообщения y0i на входе потребителя. Как было показано выше, для нахождения полезной информации необходимо устранить информацию, вносимую помехами, выражаемую в виде условной собственной информации I(y0i/х0j)= - log2Р(y0i/х0j). Тогда количество информации в сообщении y0i относительно сообщения х0j составит
I(х0j, y0i)=I(y0i)-I(y0i/х0j)=-lоg2Р(y0i)+lоg2Р(y0i/х0j)= lоg2[Р(y0i/х0j)/Р(y0i)].
Усредняя полученное выражение по множествам сообщений X0, Y0, найдем количество взаимной информации, т.е. среднее количество информации, которое связывает ансамбли I(X0 Y0)=М{I(х0j, y0i)}. Учитывая, что сообщение х0j возникает с вероятностью Р(х0j), а сообщение y0i с вероятностью Р(y0i)=Р(х0j)Р(y0i/х0j), окончательно получим
I(X0 Y0)= SX0SY0 Р(х0j)Р(y0i/х0j)I(х0j, y0i)=-SX0SY0Р(х0j)Р(y0i/х0j)1оg2[Р(х0j)Р(y0i/х0j)]+
+SX0SY0Р(х0j)Р(y0i/х0j)1оg2Р(y0i/х0j)=H(Y0)-H(Y0/X0),
где H(Y0) - безусловная энтропия по множеству сообщений Y0; H(Y0/X0) - условная энтропия по множеству сообщений Y0 при условии, что множество событий X0 известно. Если сообщение y0i тождественно сообщению x0j, то вероятность Р(y0i)=Р(х0j), т.e. Р(y0i/х0j)=1. Тогда условная энтропия H(Y0/X0)=0 и взаимная информация есть энтропия H(Y0). Это означает, что имеем идеальную систему, которая высококачественно отображает реальность, и информационный процесс реализуется в системе без потерь.
В реальных условиях имеют место внутренние и внешние возмущения, которые вызывают потери информации, отображаемые членом H(Y0/X0). Это означает выделение в рамках системы С идеально функционирующей системы ИС, в которой отсутствуют потери информации, и последовательно связанного с ней канала возмущений, куда включены внешние и внутренние случайные воздействия. В канале возмущений осуществляется преобразование множества сообщений Х0 во множество сообщений Y0, и взаимная информация I(Х0, Y0) может рассматриваться как количество информации, проходящей через канал возмущений. К этому каналу тогда могут быть отнесены потери информации при реализации информационного процесса, выражаемые членом H(Y0/X0). Рассматривая канал возмущения как обобщенный канал связи, можно попытаться скомпенсировать потери информации за счет введения избыточности.
Избыточность может быть направлена на обнаружение и исправление ошибок. Численно вносимая избыточная информация должна соответствовать информации потерь H(Y0/X0), поэтому H(Y0/X0)=H0+Hи, где H0, Hи - количество информации, необходимое для обнаружения и исправления ошибок соответственно. Физически H0 - энтропия двух событий, одно из которых отображает наличие ошибки с вероятностью P0, а второе - отсутствие ошибок с вероятностью 1-P0. Тогда H0=-P0log2P0 -(1-P0)log2(1-P0),
где P0 - вероятность ошибки, одинаковая для каждого сообщения.
Если вероятность ошибки зависит от номера принимаемого сообщения, то определяют среднюю вероятность ошибки P0=Si=1M P(y0i)P(err/y0i);
где P(err/y0i) = S i=1M P(x0j)Р(y0i/х0j) при i¹j - вероятность ошибки в i-м сообщении.
Количество избыточной информации, необходимое для исправления ошибки, найдем из условия равновероятности переходов сообщения в любое другое. Каждое сообщение из множества X0 может при переходе через обобщенный канал связи с одинаковой вероятностью трансформироваться в любое из (М-1) сообщений. Воспользуемся формулой энтропии для равновероятных событий, тогда неопределенность попадания любого сообщения в одну из точек множества М-1 составит H=log2(M-1). Так как такое попадание имеет место с вероятностью ошибки P0, то Hи=P0log2(М-1). Окончательно получаем, что количество избыточной информации, необходимой для компенсации потерь, возникающих при реализации информационного процесса:
H(Y0/X0)=H0+Hи=-P0log2P0-(1-P0)log2(1-P0)+P0log2(M-1).
Отметим, что полученное выражение задает нижний уровень избыточности для случая независимых ошибок, который может быть реализован за счет рационального выбора кода при согласовании источника и потребителя информации. Таким образом, потери информации, выражаемые условной энтропией, могут служить обобщенной характеристикой качества реализации информационного процесса.
Для компенсации потерь информации в информационные системы вводят избыточность, которая может реализовываться на концептуальном, логическом и физическом уровнях. Концептуальный уровень введения избыточности означает наличие избыточных сообщений за счет существования коррелированных значений информации, снимаемых с реального объекта. Избыточной является и человеческая речь. На логическом уровне избыточность закладывается в код, отображающий сообщение, путем специального конструирования обнаруживающих и исправляющих кодов. Здесь же могут находить применение системы с обратной связью, позволяющие поднять верность преобразования информации. На физическом уровне избыточность закладывается в сигнал, отображающий отдельные составные части кода, т.e. его элементы. По существу избыточность сигнала тем больше, чем сильнее различаются отдельные значения сигналов.