Методы программного восстановления.
Выбор метода оперативного восстановления происходит в условиях неопределенности сведений о характере отказовой ситуации и степени ее влияния на работоспособность программ.
Каждый метод восстановления характеризуется следующими статическими параметрами:
n вероятность полного восстановления нормального функционирования комплекса программ при данном методе (p3);
n затратами ресурсов ЭВМ на проведение процедуры восстановительных работ выбранным методом (b3);
n длительностью проведения работ по восстановлению - суммарным временем выбора метода восстановления и временем его реализации(t3)
Показатели восстановления p3 и t3 непосредственно влияют на показатели надежности функционирования комплекса программ. Если операции по восстановлению работоспособности комплекса программ при отказовой ситуации полностью завершаются за время меньше tд и после этого продолжается нормальное функционирование, то происшедшее искажение в работе программ не учитывается как отказ и не влияет на основные показатели надежности.
Процесс функционирования комплекса программ на однопроцессорной ЭВМ в реальном масштабе времени с учетом операций контроля и восстановления можно представить графом состояний, дуги которого соответствуют возможным переходам между состояниями за некоторый интервал времени.
Основные состояния следующие:
0- состояние соответствует нормальному функционированию работоспособного комплекса программ при полном отсутствии искажений - полезная работа;
1- состояние имеет место при переходе комплекса программ в режим контроля функционирования и обнаружения ошибок - состояние контроля;
2- состояние соответствует функционированию программ при наличии искажений, не обнаруженных средствами контроля - состояние необнаруженного искажения данных или вычислительного процесса, которое, в частности может соответствовать отказу;
3- состояние характеризуется функционированием группы программ восстановления режима полезной работы и устранения последствий искажения - восстановление после действительного искажения;
4- состояние соответствует также восстановлению режима полезной работы, но после ложного обнаружения проявления искажения, когда в действительности состояние полезной работы не нарушалось - восстановление после ложной тревоги.
Переходы между состояниями могут происходить в некоторых направлениях случайно или коррелированно с предыдущем переходом (рис. 5.3, диаграмма 1 ). Пребывание во всех состояниях, кроме нулевого, сопряжено с затратами производительности ЭВМ на выполнение операций, не связанных с прямыми функциональными задачами, и может рассматриваться как снижение общей эффективности комплекса программ и производительности ЭВМ. При определении показателей надежности учитывается только такая цепочка последовательных состояний вне работоспособности, которая оказывается протяженности больше . Все остальные более короткие выходы из нулевого состояния не влияют на показатели надежности.
Методы испытаний программ на надежность.
В теории надежности разработан ряд методов, позволяющих определить характеристики надежности сложных систем. Эти методы можно свести к трем основным группам:
n прямые экспериментальные методы определения показателей надежности систем в условиях нормального функционирования;
n форсированные методы испытаний реальных систем на надежность;
n расчетно-экспериментальные методы, при использовании которых ряд исходных данных для компонент получается экспериментально, а окончательные показатели надежности систем надежности рассчитываются с использованием этих данных.
Прямые экспериментальные методы определения показателей надежности программ в нормальных условиях функционирования в ряде случаев трудно использовать из-за больших значений времени наработки на отказ (сотни и тысячи часов).
Форсированные методы испытаний надежности программ значительно отличаются от традиционных методов испытаний аппаратуры. Форсирование испытаний может выполняться путем повышения интенсивности искажений исходных данных, а также специальным увеличением загрузки комплекса программ выше нормальной.
Особым видом форсированных испытаний является проверка эффективности средств контроля и восстановления программ, данных и вычислительного процесса. Для этого имитируются запланированные экстремальные условия функционирования программ, при которых в наибольшей степени стимулируется работа испытываемого средства программного контроля или восстановления.
Расчетно-экспериментальные методы . При анализе надежности программ применение расчетно-экспериментальных методов более ограничено, чем при анализе аппаратуры. Это обусловлено неоднородностью надежностных характеристик основных компонент: программных модулей, групп программ, массивов данных и т.д. Однако в некоторых случаях расчетным путем можно оценить характеристики надежности комплексов программ. Сочетание экспериментальных и аналитических методов применяется также для определения пропускной способности комплекса программ на конкретной ЭВМ и влияние перегрузки на надежность его функционирования.