Понятия надежности и отказа системы (элемента)

Шегал А.А.

НАДЕЖНОСТЬ ИНФОРМАЦИОННЫХ СИСТЕМ

Конспект лекций

Екатеринбург

УДК 004(042.4)

Автор А.А. Шегал

Надежность инфориационных систем: конспект лекций / А.А. Шегал. Екатеринбург: ГОУ ВПО УГТУ-УПИ, 2006. 104 с.

Изложены основные концепции и понятия дисциплины « Надежность информационных систем». Уделено внимание вопросам анализа и расчетов надежности аппаратного и программного обеспечения ИС и влияния человека-оператора на надежность систем. Рассматриваются факторы, влияющие на надежность и качество ИС, способы повышения надежности аппаратного и программного обеспечения ЭВМ.

Библиогр.: 22 назв. Табл. 6. Рис. 22.

Подготовлено кафедрой « Технология и средства

связи»

© ГОУ ВПО « Уральский государственный

технический университет – УПИ», 2006

Оглавление

Введение.. 6

1. Основные понятия, термины и определения.. 8

1.1. Система и ее элементы.. 8

1.2. Понятия надежности и отказа системы (элемента) 9

1.3 Основные определения в области качества и надежности программного обеспечения (ПО) ИС 12

1.4. Основные определения в области надежности подсистемы человек - оператор ИС.. 14

1.5. Проблема стандартизации в области надежности и качества. 14

2. Факторы, влияющие на надежность информационных систем.. 18

2.1. Общая характеристика факторов, влияющих на надежность ИС.. 18

2.2. Влияние внешних воздействующих факторов при эксплуатации ИС.. 20

2.3. Общие принципы обеспечения надежности сложных технических систем.. 21

3. Показатели надежности аппаратуры ИС и используемые модели надежности.. 23

3.1. Основные показатели надежности невосстанавливаемых объектов. 23

3.1.1. Вероятность безотказной работы.. 23

3.1.2. Вероятность отказа. 24

3.1.3. Средняя наработка до отказа. 25

3.1.4. Интенсивность отказов. 26

3.2. Показатели надежности восстанавливаемых объектов. 30

3.2.1. Показатели безотказности восстанавливаемых объектов. 30

3.2.1.1. Параметр потока отказов. 31

3.2.1.2. Средняя наработка на отказ объекта. 32

3.2.2. Показатели ремонтопригодности. 32

3.2.2.1. Вероятность восстановления. 33

3.2.2.2. Среднее время восстановления. 33

3.2.2.3. Интенсивность восстановления. 33

3.2.3. Показатели долговечности. 34

3.2.3. Комплексные показатели надежности. 35

3.2.3.1. Коэффициент готовности. 35

3.2.3.2. Коэффициент оперативной готовности. 36

3.2.3.3. Коэффициент технического использования. 36

3.2.3.4. Коэффициент сохранения эффективности. 37

3.3. Математические модели надежности аппаратуры ИС.. 37

3.3.1. Модели потоков событий. 38

3.3.1.1. Простейший поток отказов. 38

3.3.1.2. Потоки Эрланга. 39

3.3.2. Законы распределения дискретных случайных величин. 40

3.3.2.1. Биномиальный закон распределения числа n появления события А в m независимых испытаниях. 40

3.3.2.2. Пуассоновское распределение появления n событий за время наблюдения t 40

3.3.3. Законы распределения непрерывных случайных величин. 40

3.3.3.1. Экспоненциальное распределение. 40

3.3.3.2. Нормальное распределение. 43

3.3.3.3. Гамма - распределение. 45

3.3.4. Марковские процессы.. 45

4. Расчет аппаратурной надежности ИС на этапе проектирования 47

4.1. Составление логических схем.. 47

4.2. Расчет надежности нерезервированной невосстанавливаемой системы.. 48

4.3. Учет влияния режимов работы элементов на надежность систем.. 50

4.4. Расчет надежности невосстанавливаемых резервированных систем.. 52

4.4.1. Резервирование с целой кратностью k с постоянно включенным резервом или нагруженное резервирование замещением с абсолютно надежными переключателями. 54

4.4.1.1. Общее резервирование. 55

4.4.1.2 Раздельное резервирование. 55

4.4.1.3. Общее резервирование с дробной кратностью.. 56

4.4.2. Резервирование замещением ненагруженное и облегченное с абсолютно надёжными переключателями. 57

4.4.2.1.Общее ненагруженное резервирование замещением.. 57

4.4.2.2. Облегченное резервирование замещением.. 58

4.4.3. Резервирование с учетом надежности переключателей. 59

4.4.4. Скользящее резервирование. 59

4.5. Расчет надежности ремонтируемых систем.. 60

4.5.1. Общая характеристика методов расчета надежности ремонтируемых систем.. 60

4.5.2. Вычисление функций готовности и простоя нерезервированных систем.. 62

4.5.3. Особенности расчета резервированных восстанавливаемых систем.. 65

4.5.3.1. Ненагруженное резервирование с восстановлением.. 65

4.5.3.2. Нагруженное резервирование замещением с восстановлением.. 66

4.5.4. Расчет надежности восстанавливаемых систем, перерывы, в работе которых в процессе эксплуатации недопустимы.. 68

4.5.5. Примеры решения типовых задач. 69

5. Методы обеспечения контроля и диагностики аппаратуры ИС.. 66

5.1. Контроль технического состояния ИС в процессе эксплуатации. 66

5.1.1. Основные определения в области контроля ИС.. 66

5.1.2. Методы контроля аппаратуры ИС.. 67

5.1.2.1. Оперативные методы контроля аппаратуры.. 67

5.1.2.2. Тестовый контроль аппаратуры.. 70

5.2. Основы диагностирования информационных систем.. 70

5.2.1. Метод построения квазиоптимальных тестов Шеннона – Фано. 71

5.2.2. Организация тестирования персонального компьютера. 73

6. Основы моделирования и расчета надежности программного обеспечения 75

6.1. Модель анализа надежности программных средств. 75

6.2. Статистика ошибок ПО ИС.. 76

6.3. Количественные характеристики надежности ПО ИС.. 77

6.4. Модели надежности программного обеспечения. 78

6.4.1. О возможности построения априорных МНП.. 78

6.4.2. Непрерывные эмпирические модели надежности ПО (НЭМП) 79

6.4.3. Дискретные эмпирические модели надежности ПО (ДЭМП) 81

6.5. Способы обеспечения и повышения надежности ПО.. 83

6.5.1. Основы организации тестирования программ.. 83

6.5.1.1. Особенности тестирования « белого ящика». 84

6.5.1.2. Особенности функционального тестирования ПО ( методы тестирования «черного ящика») 85

6.5.1.3. Организация процесса тестирования программного обеспечения. 86

6.5.2. Способы повышения оперативной надежности ПО.. 87

7. Основы организации испытаний ИС на надежность.. 89

7.1. Виды испытаний на надежность. 89

7.2. Принципиальные особенности организации испытаний на надежность ИС.. 90

7.3. Основы организации определительных испытаний на надежность. 91

7.3.1. Точечные оценки показателей безотказности и ремонтопригодности 92

7.3.2. Оценка показателей надежности доверительным интервалом.. 94

7.3.2.1. Определение доверительного интервала для средней наработки на отказ. 94

7.3.2.2. Определение доверительного интервала для вероятности безотказной работы по числу обнаруженных при испытаниях отказов. 95

7.4. Основы организации контрольных испытаний. 95

8. Основы надежности подсистемы «человек-оператор» ИС.. 99

8.1. Основные понятия и определения. 99

8.2. Влияние человека - оператора на надежность ИС.. 100

8.2.1. Показатели безошибочности человека-оператора. 101

8.2.2. Способы борьбы с ошибками оператора. 102

Заключение.. 104

Введение

Надежностьявляется одним из основных показателей качества любых технических устройств и систем, в том числе информационных систем (ИС). От надежности зависит безопасность, экономичность, ресурс работы системы, ее конкурентоспособность.

Ведущей концепцией, на основе которой решается задача исследования и повышения надежности любого изделия, является системность. Системы обеспечения надежности охватывают весь жизненный цикл изделия от разработки до эксплуатации. При этом методы обеспечения надлежащего уровня надежности специфичны для каждого этапа жизненного цикла. Так, для обеспечения проектной надежности ИС необходимо:

- для аппаратуры системы выбрать соответствующие материалы, запасы прочности, конструкции, оптимальные схемы резервирования, и т.д.,

- для разработки программного обеспечения избрать оптимальные алгоритмы работы системы.

Технологическая надежность аппаратуры обеспечивается бездефектными, стабильными технологическими процессами производства, для разработки программного обеспечения (ПО) необходимо воспользоваться современными Case- технологиями.

Эксплуатационная надежность определяется организацией технического обслуживания аппаратуры и сопровождения ПО. Решение этих задач базируется на использовании всего опыта, накопленного к настоящему времени в научно- техническом направлении « надежность».

Наука о надежности – сравнительно молодая наука. Она занимается изучением причин, вызывающих отказы, определением закономерностей, которым они подчиняются, разработкой способов измерения надежности, методов расчета и испытаний, а также поиском средств по повышению надежности .

Первые шаги в области исследования надежности относятся к концу 40-х годов ХХ века и связаны с мощным развитием технических систем, вызванным окончанием II мировой войны. Можно выделить следующие основные направления развития теории надежности:

1. Развитие математических основ теории надежности. Обобщение статистических материалов об отказах, определение математических закономерностей, которым подчиняются отказы, а также разработка методов количественного измерения надежности и инженерные расчеты ее показателей. В результате сформировалась математическая теория надежности.

2. Развитие методов сбора и обработки статистических данных о надежности. Работы в этом направлении привели к формированию статистической теории надежности.

3. Наука о надежности не может развиваться без исследований физико-химических процессов, происходящих в аппаратуре и приводящих к отказу, изучению разнообразных внешних и внутренних воздействий, влияющих на работоспособность. Эти исследования послужили основой физической теории надежности.

4. В конкретных областях техники разрабатывались и продолжают разрабатываться прикладные вопросы надежности. При этом решается вопрос о наиболее рациональном использовании общей теории надежности в конкретной области применения, например в ИС. Так возникли прикладные теории надежности.

Конспект лекций включает основные вопросы анализа и обеспечения надежности информационных систем, в том числе:

· важнейшие понятия и определения теории надежности систем ( раздел 1);

· основные факторы, влияющие на надежность ИС (раздел 2);

· количественные показатели надежности аппаратуры и используемые модели надежности (раздел 3);

· расчет аппаратурной надежности ИС на этапе проектирования, включая резервированные и восстанавливаемые в процессе эксплуатации системы (раздел 4);

· методы обеспечения контроля и диагностики ИС ( раздел 5);

· основы обеспечения и расчета надежности программных средств информационных систем ( раздел 6);

· общие вопросы организации испытаний систем (раздел 7);

· основы обеспечения надежности подсистемы человек-оператор (раздел 8).

1. Основные понятия, термины и определения

Для изучения надежности ИС воспользуемся положениями системного анализа. Будем именовать конкретное техническое устройство обобщенным понятием «объект».

Объект- это предмет целевого назначения, который рассматривается в течение всего жизненного цикла. Объектами могут быть системы и элементы.

Система и ее элементы

Под системойпонимается совокупность совместно действующих объектов, предназначенных для выполнения определенной практической задачи.

Элемент-это часть системы, не имеющая специального эксплуатационного назначения, а выполняющая в ней определенную функцию.

Например, ИС – это система, а ее элементами являются аппаратные средства (ЭВМ и разнообразное периферийное оборудование), программное обеспечение (ПО), человек- оператор.

Понятия элемент и система – относительны. Если объектом изучения являются аппаратные средства ИС, то системой, например, является ЭВМ, а ее элементы - процессор, основная память, внешние запоминающие устройства и т.д.

При анализе надежности системы (элементы) в зависимости от условий эксплуатации классифицируются:

по способу применения - однократного и многократного действия;

по способу обслуживания - восстанавливаемые и невосстанавливаемые;

по способу изменения работоспособности (определение работоспособного состояния будет дано ниже) – простые и сложные.

Простая система имеет всего два состояния: работоспособное и неработоспособное.

Сложная система имеет несколько состояний, в каждом из которых работоспособность характеризуется различной эффективностью.

Эффективность - свойство системы давать некоторый полезный результат ( целевое назначение).

Эффективность системы определяется двумя способами:

· Вероятностью выполнения цели при определенных условиях эксплуатации ( техническая эффективность);

· Затратами на достижение цели с указанной вероятностью (экономическая эффективность).

Информационная система как сложная система характеризуется следующими особенностями [1.2]:

- большое число разнородных, в том числе нетехнических компонентов: состояния программ, организация потоков информации, влияние человека- оператора, стратегия обслуживания;

- технические средства различной физической природы: механические, оптические, электрические, электронные;

- многообразие функциональных задач, решаемых системой;

- сложная сеть передачи информации;

- иерархическая структура управления;

- реальный масштаб времени работы ЭВМ;

- периодическое решение относительно небольшого класса задач;

- наличие различных видов избыточности (структурной, временной, функциональной, информационной и др.), чтобы обеспечить отказоустойчивость при работе системы.

Понятия надежности и отказа системы (элемента)

Согласно действующему стандарту 27.002-89« Надежность в технике. Основные понятия. Термины и определения» любое состояние объекта относится к одному из ниже перечисленных: исправное, неисправное, работоспособное, неработоспособное, предельное.

Введем наиболее важные для дальнейшего изложения материала определения, приводимые в указанном стандарте.

Исправное состояние. Состояние объекта, при котором он соответствует всем требованиям нормативно-технической и (или) конструкторской (проектной) документации.

Неисправное состояние. Состояние объекта, при котором он не соответствует хотя бы одному из требований нормативно-технической и (или) конструкторской (проектной) документации.

Работоспособное состояние. Состояние объекта, при котором значения всех параметров, характеризующих способность выполнять заданные функции, соответствуют требованиям нормативно-технической и (или) конструкторской (проектной) документации.

Неработоспособное состояние.Состояние объекта, при котором значения хотя бы одного параметра, характеризующего способность выполнять заданные функции, не соответствует требованиям нормативно-технической и (или) конструкторской (проектной) документации.

Предельное состояние. Состояние объекта, при котором его дальнейшая эксплуатация недопустима или нецелесообразна, либо восстановление его работоспособного состояния невозможно или нецелесообразно.

Надежность – свойство объекта сохранять во времени в установленных пределах значения всех параметров, характеризующих способность выполнять требуемые функции в заданных режимах и условиях применения, технического обслуживания, ремонтов, хранения и транспортирования.

Надежность – комплексное свойство, которое в зависимости от условий работы и назначения изделия определяется четырьмя составляющими: безотказностью, долговечностью, ремонтопригодностью, сохраняемостью.

Безотказность – свойство объекта непрерывно сохранять работоспособное состояние в течение некоторого времени в заданных условиях эксплуатации.

Долговечность - свойство объекта сохранять работоспособное состояние до наступления предельного состояния с необходимыми перерывами для технического обслуживания и ремонтов.

Ремонтопригодность - свойство объекта, заключающееся в приспособленности к поддержанию и восстановлению работоспособного состояния путем технического обслуживания и ремонта.

Сохраняемость - свойство объекта сохранять в заданных пределах значения параметров, характеризующих способность объекта выполнять требуемые функции, в течение и после хранения и (или) транспортирования.

Для ИС наиболее важными составляющими надежности являются свойства безотказности и ремонтопригодности, поскольку ее моральное старение происходит, как правило, раньше физического, а транспортировке (до установки в систему) подвергаются только отдельные элементы (аппаратура ЭВМ), а не система в целом.

Используя метод декомпозиции при анализе надежности ИС, будем рассматривать ее отдельные составляющие: аппаратурную надежность, надежность программного обеспечения, надежность подсистемы человек- оператор.

Следует отметить, что стандарт 27.002-89 в наибольшей степени определяет аппаратурную надежность объекта исследования (в нашем случае - ИС), зависящую от технического состояния аппаратуры.

Надежность программного обеспечения определяется качеством алгоритмов и программ (см.п.1.3).

Надежность подсистемы человек- оператор зависит от качества обслуживания системы оператором (см.п.1.4).

Понятие надежность тесно связано с понятием отказ.

Отказ – событие, характеризующееся нарушением работоспособного состояния объекта. Рассматривая отказы ИС, будем выделять отказы аппаратуры, отказы ПО, отказы подсистемы человек – оператор.

Повреждение - событие, заключающееся в нарушении исправного состояния объекта при сохранении работоспособного состояния.

Переход объекта из исправного состояния в неисправное не связан с отказом.

В ГОСТ введено еще одно понятие, отражающее состояние объекта - дефект.

Дефектом вГОСТ Р ИСО 9000-2000 называется каждое отдельное несоответствие объекта установленным нормам или требованиям. Дефект отражает состояние, отличное от отказа. В соответствии с определением отказа, как события, заключающегося в нарушении работоспособности, предполагается, что до появления отказа объект был работоспособен. Отказ может быть следствием развития не устраненных повреждений или наличия дефектов.

Отказы аппаратуры можно классифицировать по различным признакам, выбор которых зависит от конкретного устройства и его назначения в системе, от полноты располагаемой информации об отказах и т.д. ( см. таблицу 1.1) [1.3].

Таблица 1.1 Классификация аппаратурных отказов

Классификационный признак Вид отказа Определение
По характеру случайного процесса B(T) - изменения параметров объекта Внезапный   Постепенный Отказ характеризуется скачкообразным изменением составляющих вектора B(t) Отказ характеризуется постепенным изменением составляющих вектора B(t)  
По степени нарушения функционирования Полный     Частичный Отказ, после которого функционирование полностью прекращается Отказ, приводящий к снижению эффективности работы системы
По устойчивости (во времени) состояния неработоспособности Устойчивый Самоустраняющийся (сбой)  
По связи с предыдущим отказом Первичный (независимый)   Вторичный (зависимый) Отказ, не являющийся следствием ранее возникших отказов Отказ являющийся следствием ранее возникших отказов  
По наличию внешних проявлений Явный     Неявный Отказ обнаруживается непосредственно после его возникновения Отказ не обнаруживается непосредственно после его возникновения

Исследования в области надежности на протяжении первых десятилетий становления науки были посвящены анализу аппаратурных отказов. Исследования надежности программного обеспечения и надежности человека-оператора автоматизированных систем активно развиваются лишь в последние 25-30 лет. При этом делаются попытки перенесения некоторых положений из области аппаратурной надежности на изучаемые нетехнические аспекты, что является не всегда корректным.

Наши рекомендации