Надежность АСУ ТП как совокупности комплекса технических средств, программного обеспечения и оперативного персонала
Автоматизированную систему управления, как и любую сложную систему, можно представить в виде совокупности элементов и затем рассмотреть взаимосвязь этих элементов между собой. Выбор элементов в зависимости от способа декомпозиции АСУ ТП может быть различен. При декомпозиции по составу в качестве элементов могут быть приняты комплекс технических средств (техническое обеспечение), информационное обеспечение (включающее в себя нормативно-справочную информацию, системы классификации и кодирования информации и др.) и организационное обеспечение (совокупность документов, регламентирующих действия персонала). Свойства информационного и организационного обеспечения влияют на надежность АСУ ТП косвенно, через функционирование технических средств, программного обеспечения и персонала, поэтому ниже при решении вопросов надежности отдельно не будут учитываться.
При функциональной декомпозиции АСУ ТП как многофункциональной системы в качестве элементов системы рассматриваются ее отдельные функции.
Рассмотрим АСУ ТП как совокупность комплекса технических средств, программного обеспечения и оперативного персонала.
Надежность комплекса технических средств. Надежность комплекса технических средств оказывает наиболее существенное влияние на надежность АСУ ТП, поэтому приближенно надежность АСУ ТП зачастую оценивают с учетом только комплекса технических средств.
Критерии отказов технических средств (ТС), как правило, устанавливаются в соответствии с требованиями, указанными в стандартах, технических условиях или другой технической документации на эти ТС. Поскольку большинство ТС имеют общепромышленное назначение, то требования задаются безотносительно к тем системам, в которых эти ТС функционируют. Критерии отказов ТС при этом не зависят от характеристик управляемого объекта и требований к качеству управления.
Конкретизируем определение времени восстановления ТС, для чего рассмотрим его основные составляющие. Время восстановления всегда включает в себя время поиска причины отказа и время его устранения (рис. 6,а). Оперативное время восстановления
(2.1)
При эксплуатации ТС в (2.1) могут быть добавлены времена:
– ожидание от момента обнаружения отказа до начала поиска его причины;
– обеспечение персонала инструментами, материалами, запасными частями;
– ожидание от момента окончания устранения отказа до момента включения ТС;
и – демонтаж и монтаж ТС.
На рис.6,б приведена структура, времени восстановления, проведенного непосредственно на месте установки отказавшего ТС без его замены. Общее время восстановления:
(2.2)
На рис.6,в рассмотрен случай, когда восстановление проведено путем демонтажа отказавшего технического средства, его последующего ремонта в мастерской и монтажа на прежнем месте. При этом общее время восстановления:
, (2.3)
где – длительность ожидания ремонта в мастерской; – время устранения отказа в мастерской.
Р и с. 6. Примеры структуры времени восстановления
Надежность программного обеспечения (ПО). Теория надежности развивалась для описания технических объектов, включая технические средства АСУ ТП. Отказы происходят из-за разрушения и старения компонентов, причем восстановление требует ремонта, регулировки, замены компонентов или технического средства. Разрушение и старение не свойственно ни программному обеспечению системы в целом, ни отдельным программам. Тем не менее, возможно перенесение некоторых понятий, терминов и методов надежности и на ПО (принимая при этом определенную условность такого подхода).
При разработке ПО может возникнуть ряд причин, приводящих к возникновению ошибок: неправильное понимание программистом алгоритма; неправильное составление общей структуры ПО и взаимосвязи программ; неправильный выбор методов защиты программ; ошибки в переносе программ на носители и др.
Отладка ПО не может устранить все ошибки, так как число возможных сочетаний входных данных и состояний системы при ее функционировании настолько велико, что заранее проверить все возможные ветви прохождения программ практически невозможно. Поэтому поток моментов проявления ошибок ПО при функционировании АСУ ТП носит случайный характер: ошибки проявляются в случайные моменты времени, когда программа выйдет на тот участок, где имеется ошибка.
Основные отличия ошибок ПО от отказов ТС заключаются в следующем. После исправления ошибки в программе эта же ошибка в дальнейшем не может повториться. Более того, ошибки, выявленные в ПО одной из нескольких однотипных систем, обычно исправляются во всех таких системах. Поток ошибок ПО нестационарный, так как по мере выявления ошибок параметр их потока уменьшается. Отказы ТС по одной и той же причине носят повторяющийся характер; после восстановления такой же отказ и этого, и иных аналогичных средств по той же причине может повториться вновь. Поток отказов ТС в установившемся режиме с тем или иным приближением можно принять стационарным.
Существуют два подхода к выбору показателей надежности ПО. С одной стороны, возможно использовать обычные показатели надежности, такие как вероятность отсутствия ошибок за время t; среднее время между ошибками; среднее время восстановления ПО после прекращения функционирования и т.п. Данные показатели характеризуют проявление ошибок ПО во времени, поэтому их целесообразно использовать для ПО, непрерывно эксплуатируемого при управлении технологическим объектом. Для программ, используемых нерегулярно (при необходимости), возможно применение таких показателей, как вероятность успешного выполнения одного прогона программы, вероятность того, что данное ПО сумеет решить произвольную задачу из потока реальных задач.
С другой стороны, для описания надежности ПО могут быть использованы специальные показатели, характерные только для ПО и отражающие, главным образом, качество выполнения ПО. Прежде всего, это показатели корректности ПО: предполагаемое число ошибок в ПО или плотность ошибок (число ошибок на одну команду). Другие показатели характеризуют такие свойства ПО, как устойчивость – способность ПО функционировать в условиях возмущений внешней среды, исправляемость – способность ПО к внесению исправлений, защищенность ПО от внесения искажений при постороннем вмешательстве и др. Однако к настоящему времени отсутствуют методики практического определения показателей данного вида для ПО в АСУ ТП.
Наличие в АСУ ТП программно-управляемых вычислительных комплексов приводит к необходимости рассмотрения специфического для них вида нарушения функционирования – сбоев. Под сбоем понимается кратковременное нарушение работоспособности комплекса, при котором функционирование восстанавливается без применения ремонтных работ. Сбои могут проявляться в виде останова, зацикливания, выдачи неправильного результата, причем либо нарушения самоустраняются, либо восстановление проводится персоналом путем перезапуска или перезагрузки комплекса. Причинами сбоев могут быть изменения условий эксплуатации (температуры, воздействий электрических и магнитных нолей), неисправности технических средств, ошибки программного обеспечения. Согласно действующим стандартам на вычислительные комплексы должны задаваться показатели, описывающие их сбои (например, средняя наработка на сбой).
Надежность оперативного персонала. Оперативный персонал (оператор-технолог) в составе АСУ ТП принимает непосредственное участие в реализации ее функций. Роль оперативного персонала заключается в следующем: наблюдение за ходом технологического процесса и правильностью функционирования АСУ ТП; настройка, ввод уставок, запуск и коррекция работы технических средств; принятие решения по управлению технологическим процессом по неалгоритмизированным правилам; непосредственное воздействие на ход технологического процесса включением и отключением регулирующих органов и механизмов в некоторых режимах работы объекта (например, пусковых) или при отказах технических средств.
Использование оперативного персонала в качестве резервного звена системы управления позволяет повысить надежность выполнения функций АСУ ТП. В то же время недостаточная надежность этого персонала при выполнении им основных функций управления снижает общую надежность функционирования АСУ ТП.
Под надежностью человека-оператора понимается совокупность его свойств, проявляющихся при его участии в функционировании АСУ ТП и влияющих на надежность АСУ ТП. Основными из этих свойств являются: безошибочность – способность человека-оператора выполнять все заданные операции в заданном порядке; своевременность – способность человека-оператора выполнять заданные операции за заданное время.
Оператор как элемент АСУ ТП в задачах надежности имеет ряд существенных особенностей. К ним относятся адаптация к условиям труда, существенное отличие характеристик различных операторов друг от друга, утомляемость, подверженность эмоциональным воздействиям. Общим для всех операторов являются единые требования к уровню их профессиональной подготовки при допуске к работе по управлению объектом.
Алгоритмизируемой деятельности оператора по выполнению какой-либо функции АСУ ТП можно поставить в соответствие набор процедур, каждая из которых состоит в реализации определенных операций в заданной последовательности. Поток требований (запросов) на выполнение процедуры, во всяком случае при установившемся режиме работы объекта, можно принять простейшим. Длительность выполнения процедуры различна (от нескольких секунд при однократном обращении к дисплею при контроле по вызову до нескольких часов при неавтоматическом управлении после отказа технических средств).
Показателями надежности человека-оператора могут быть:
- вероятность Rб безошибочного выполнения процедуры, т. е. вероятность того, что при выполнении рассматриваемой процедуры будут правильно выполнены именно те операции, которые составляют данную процедуру, и именно в заданной последовательности [например, вероятность безошибочного выполнения требования по управлению запорной (двухпозиционной) арматурой];
- вероятность Rс своевременного выполнения процедуры, т.е. вероятность того, что совокупность всех операций, составляющих данную процедуру, будет выполнена за время, не превышающее допустимое (например, вероятность своевременного переключения регулятора с автоматического режима на неавтоматический за время не более заданного). Если же длительность t выполнения процедуры имеет порядок часа и более, то показателем надежности может быть вероятность Р(t) безошибочных, своевременных (а также точных) действий оператора за время t (например, по неавтоматической стабилизации некоторого параметра) .