Применение превентивных мер и способов восстановления

Этот этап заключается в практическом воплощении определенных ранее превентивных мер и способов восстановления. Превентивные меры по уменьшению степени воздействия предпринимаются совместно с деятельностью в рамках Процесса Управления Доступностью и могут включать:

§ Использование бесперебойных источников питания и резервных источников электропитания;

§ Использование отказоустойчивых систем;

§ Использование удаленных систем хранения данных и RAID-массивов и т. д.

Также должен быть объявлен стартовый срок для активизации резервных соглашений, включающих персонал, здания и телекоммуникации. Даже еще во время действия непредвиденных обстоятельств уже можно начинать работы по восстановлению нормальной деятельности и заказу новых ИТ-компонентов. Рамочные неактивированные («дремлющие») договоры на такой случай могут быть заключены с поставщиками заранее. В этом случае уже будут подписаны заказы на поставку компонентов по согласованной ранее цене. В случае чрезвычайной ситуации поставщик будет исполнять заказ без необходимости обсуждения его цены. Такие неактивированные («дремлющие») договоры следует пересматривать каждый год, т. к. цены и модели технических средств могут изменяться. При корректировке договоров следует учитывать базисные конфигурации, зарегистрированные в рамках Процесса Управления Конфигурациями. При подготовке резервных соглашений могут осуществляться следующие виды деятельности:

§ ведение переговоров со сторонними организациями по вопросам удаленных средств восстановления;

§ поддержка и оснащение средств восстановления;

§ закупка и установка резервного аппаратного обеспечения (неактивированные договоры);

§ управление неактивированными («дремлющими») договорами.

Разработка планов и процедур восстановления

Планы должны быть разработаны в деталях, и стать официальными документами, т. к. Планы восстановления требуют поддержки, и все изменения в них должны согласовываться заинтересованными сторонами. Эта информация также должна доводится до сведения всех участников. Основные проблемы связаны с изменениями в инфраструктуре и Изменениями Уровней Сервиса. Например, переход на новую платформу среднего класса может привести к тому, что не будет эквивалентного оборудования в резервном центре «теплого», внешнего старта. По этой причине Процесс Управления Конфигурациями играет важную роль в мониторинге базисных конфигураций с учетом Плана восстановления. В плане также должны быть определены процедуры, необходимые для его выполнения.

План восстановления

План восстановления должен включать все виды деятельности по восстановлению бизнес-активности и ИТ-услуг:

§ Введение — описание структуры плана и предполагаемых средств восстановления.

§ Обновление — описание процедур и соглашений по поддержке актуальности плана и отслеживанию изменений в инфраструктуре.

§ Маршрутный лист — план делится на разделы, каждый из которых определяет действия, выполняемые конкретной группой специалистов. Маршрутный лист показывает, какие разделы плана должны быть направлены в каждую группу.

§ Начало восстановления — описание времени и условий начала действия плана.

§ Классификация чрезвычайных обстоятельств — если в плане дается описание процедур на случай различных чрезвычайных обстоятельств, то они должны быть описаны с точки зрения их серьезности (незначительные, среднего уровня серьезности, серьезные), длительности (день, неделя, месяцы) и уровня повреждений (незначительные, ограниченные, серьезные).

§ Разделы для участвующих групп специалистов — план должен быть разделен на шесть разделов — по количеству областей действия и закрепленных на за ними групп специалистов:

- Администрация — как и когда вводить план в действие, какие руководители и специалисты участвуют в нем, где находиться центр управления?

- ИТ-инфраструктура — аппаратное и программное обеспечение, телекоммуникационные средства, включенные в систему восстановления и соответствующие процедуры, а также неактивированные («дремлющие») договоры на закупку новых ИТ-компонентов.

- Персонал — персонал, необходимый для работы в резервном центре, возможно, средства транспортировки и размещение персонала, если резервный центр расположен удалено от основного месторасположения.

План восстановления

- Безопасность — инструкции по защите от краж, пожаров и взрывов, как в основном здании, так и на удаленной площадке, а также информация о внешних хранилищах, таких как склады и подвалы.

- Площадки восстановления — информация о договорах, персонале с указанием конкретных функций, системе безопасности и транспорте.

- Возврат к нормальным условиям — процедуры восстановления нормальной инфраструктуры (например, здания), условия, при которых начинают действовать эти процедуры и соответствующие неактивированные («дремлющие») контракты.

Процедуры

Процедуры разрабатываются на основе Плана восстановления. Они должны быть эффективными, так, чтобы каждый мог выполнять работы по восстановлению, следуя этим процедурам. Процедуры должны включать:

• инсталляцию и тестирование технических средств и сетевых компонентов;

• восстановление приложений, баз данных и других данных.

Эти и другие необходимые процедуры должны прилагаться к Плану восстановления.

Начальное тестирование

Начальное тестирование — критически важный аспект процесса ITSCM. Тесты следует проводить в начале работы, потом после проведения значительных изменений и затем, как минимум, один раз год. ИТ-подразделения отвечают за тестирование эффективности планов и процедур в отношении ИТ-элементов. Тесты могут проводиться с предварительным объявлением или без него.

Обучение и осведомление

Обучение персонала ИТ-подразделения и других отделов компании и осведомленность всего персонала организации являются важными условиями успешной реализации Процесса Управления Непрерывностью ИТ-сервисов.

Персонал ИТ-подразделения должен проводить обучение других членов команды восстановления бизнеса, незнакомых с вопросами информационных технологий, чтобы они могли оказать необходимую поддержку при проведении восстановительных работ. Обучение и тестирование должно охватывать как центральные, так и удаленные средства, предусмотренные на случай чрезвычайных обстоятельств.

Анализ и аудит

Следует регулярно проводить аудит и проверять актуальность всех планов. Такая проверка затрагивает все аспекты Процесса Управления Непрерывностью ИТ-сервисов. В области ИТ такой аудит должен проводиться при каждом значительном изменении ИТ-инфраструктуры, например, при вводе в операционную среду новых систем и сетей и появлении новых поставщиков. Аудит также должен проводиться при любом изменении стратегии ИТ-подразделения или бизнеса. Организации, где происходят быстрые и частые изменения, могут внедрить регулярную программу по проверке концепции процесса ITSCM. Любые изменения в планах и стратегии, появившиеся в результате проведения таких проверок, должны быть реализованы под руководством Процесса Управления Изменениями.

Тестирование

Необходимо проводить регулярное тестирование Плана восстановления, подобно объявлению учебных тревог на борту корабля. Если в компании изучение плана начинается после того, как произошла чрезвычайная ситуация, то, вероятнее всего, у такой организации будет немало проблем с восстановлением. Тестирование позволяет выявить слабые места плана и изменения, которые не были учтены. В некоторых случаях можно проводить тестирование изменений на средствах восстановления прежде, чем вводить их в действующую ИТ-инфраструктуру.

Управление изменениями

Процесс Управления Изменениями играет важную роль в поддержании актуальности Планов восстановления. Необходимо проводить анализ воздействия любого изменения на План восстановления.

Обеспечение гарантий

Обеспечение гарантий работоспособности процесса означает проверку соответствия качества процесса (процедур и документации) бизнес-потребностям компании.

Управление процессом

Эффективное Управление Процессом базируется на отчетах для руководства, критических факторах успеха и ключевых показателях качества.

Отчеты для руководства

В случае возникновения чрезвычайной ситуации предоставляются отчеты о причинах и последствиях чрезвычайной ситуации и действиях по ее разрешению. Любое выявленное при этом слабое место будет учтено в Планах по улучшению сервисов.

В отчеты для руководства по данному процессу также должны быть включены отчеты о тестировании Плана восстановления. Должны также составляться отчеты о произведенных изменениях в плане по восстановлению как результатах изменения каких-либо частей ИТ-инфраструктуры.

Управление доступностью

Несколько часов простоя компьютера могут иметь серьезные последствия для бизнеса и репутации компании на рынке, особенно сейчас, когда Интернет превращается в электронный вариант рынка. В этом электронном мире конкурентов друг от друга отделяет простое нажатие на клавишу «мыши». В этой связи особенно важным фактором становится степень удовлетворенности заказчиков. Эта одна из причин, почему в настоящее время вычислительные системы должны быть доступны 24 часа в сутки семь дней в неделю.

Высокий Уровень Доступности означает, что заказчик имеет практически постоянный доступ к ИТ-сервису благодаря сокращению времени простоя и быстрому восстановлению предоставления услуг. Уровень Доступности определяется с помощью метрик. Доступность сервиса зависит от:

• сложности ИТ-инфраструктуры;

• надежности компонентов;

• способности быстро и эффективно реагировать на сбои;

• качества обслуживания и качества работы поддерживающих организаций и поставщиков;

• качества и границ компетенции процессов операционного управления.

Надежность[4]

Надежность, в контексте данного процесса, означает доступность сервиса в течение согласованного периода времени без каких-либо сбоев. Эта концепция включает в себя понятие устойчивости[5]. Надежность сервиса будет возрастать, если предпринимать превентивные меры против возникновения простоев. Надежность сервиса является статистическим показателем и определяется сочетанием следующих факторов:

• надежность компонентов, используемых для предоставления сервиса;

• способность сервиса или его компонентов эффективно функционировать, несмотря на сбой одной или нескольких подсистем (устойчивость);

• профилактическое обслуживание для предотвращения простоев.

Управление доступностью

Обслуживание[6]

Понятия «обслуживание» и «способность к восстановлению»[7] предполагают выполнение работ по обеспечению функционирования сервиса и его восстановлению после сбоев, а также проведение профилактического обслуживания и регламентных (плановых) проверок, а именно;

• принятие мер по предотвращению сбоев;

• своевременное обнаружение сбоев;

• проведение диагностики, включая автоматическую самодиагностику компонентов;

• ликвидация сбоев;

• восстановление функционирования после сбоя;

• восстановление сервиса.

Целью Процесса Управления Доступностью является обеспечение рентабельного и согласованного Уровня Доступности ИТ-сервиса, который поможет бизнесу в достижении поставленных целей. Такое определение цели процесса означает, что потребности заказчика (бизнеса) должны соответствовать тому, что могут предложить ИТ-инфраструктура и организация. Если имеется расхождение между спросом и предложением, тогда Процесс Управления Доступностью должен предложить выход из такой ситуации. Более того, данный процесс гарантирует оценку достигнутых Уровней Доступности и их дальнейшее совершенствование в случае необходимости. Это означает, что в рамках процесса выполняются как проактивные, так и реактивные виды деятельности. При разработке процесса следует исходить из следующих предпосылок:

• Использование Процесса Управления Доступностью необходимо для достижения наибольшей удовлетворенности заказчика. Доступность и надежность — два показателя, во многом определяющие восприятие предоставляемых услуг заказчиком.

• Высокая степень доступности не означает отсутствие сбоев. Управление Доступностью в основном отвечает за профессиональное реагирование на такие нежелательные ситуации.

Управление доступностью

• Проектирование процесса требует не только полного понимания информационных технологий, но понимания процессов и услуг заказчика. Достижение целей возможно только путем сочетания этих двух аспектов.

У Процесса Управления Доступностью широкая сфера действия, охватывающая новые и уже существующие услуги, отношения с внешними и внутренними поставщиками, все компоненты инфраструктуры (аппаратное и программное обеспечение, сети и т. д.) и влияющие на доступность организационные аспекты, такие как Уровень Знаний Персонала, управленческие процессы, процедуры и инструментальные средства.

Для соответствия стандартам высокой доступности сервиса производится дублирование важных компонентов там, где это возможно, и используются системы обнаружения и устранения сбоев. Часто в случае обнаружения дефекта начинают автоматически действовать резервные системы. Тем не менее в таких ситуациях также необходимо принимать организационные меры, и их может обеспечить Процесс Управления Доступностью.

Процесс Управления Доступностью начинает действовать после того, как бизнес четко определил свои требования к доступности сервиса. Это непрерывный процесс, который заканчивается только тогда, когда прекращается предоставление сервиса.

Входами для Процесса Управления Доступностью являются (рис. 14.2):

§требования бизнеса к доступности;

§оценка влияния на все бизнес-процессы, поддерживаемые ИТ;

§требования к доступности, надежности и обслуживанию ИТ-компонентов инфраструктуры;

§данные о неисправностях, затрагивающих услуги или их компоненты, обычно в форме записей и отчетов об инцидентах и проблемах;

§данные о конфигурациях услуг и их компонентах и данные мониторинга;

§достигнутые Уровни Сервиса в сравнении с согласованными уровнями для всех услуг, оговоренных в соглашении о предоставлении сервиса.

Управление доступностью

Выходы:

• критерии разработки архитектуры для обеспечения доступности и восстановления новых и улучшаемых ИТ-услуг;

• технология, обеспечивающая устойчивость инфраструктуры и позволяющая уменьшить или устранить воздействие дефектных компонентов;

• гарантии доступности, надежности и обслуживания компонентов инфраструктуры, необходимые для предоставления ИТ-сервиса;

• отчеты о достигнутых Уровнях Доступности, надежности и обслуживания;

• требования к мониторингу доступности, надежности и обслуживания;

• план обеспечения доступности[8] для проведения проактивного улучшения ИТ-инфраструктуры.

Наши рекомендации