Применение превентивных мер и способов восстановления
Этот этап заключается в практическом воплощении определенных ранее превентивных мер и способов восстановления. Превентивные меры по уменьшению степени воздействия предпринимаются совместно с деятельностью в рамках Процесса Управления Доступностью и могут включать:
§ Использование бесперебойных источников питания и резервных источников электропитания;
§ Использование отказоустойчивых систем;
§ Использование удаленных систем хранения данных и RAID-массивов и т. д.
Также должен быть объявлен стартовый срок для активизации резервных соглашений, включающих персонал, здания и телекоммуникации. Даже еще во время действия непредвиденных обстоятельств уже можно начинать работы по восстановлению нормальной деятельности и заказу новых ИТ-компонентов. Рамочные неактивированные («дремлющие») договоры на такой случай могут быть заключены с поставщиками заранее. В этом случае уже будут подписаны заказы на поставку компонентов по согласованной ранее цене. В случае чрезвычайной ситуации поставщик будет исполнять заказ без необходимости обсуждения его цены. Такие неактивированные («дремлющие») договоры следует пересматривать каждый год, т. к. цены и модели технических средств могут изменяться. При корректировке договоров следует учитывать базисные конфигурации, зарегистрированные в рамках Процесса Управления Конфигурациями. При подготовке резервных соглашений могут осуществляться следующие виды деятельности:
§ ведение переговоров со сторонними организациями по вопросам удаленных средств восстановления;
§ поддержка и оснащение средств восстановления;
§ закупка и установка резервного аппаратного обеспечения (неактивированные договоры);
§ управление неактивированными («дремлющими») договорами.
Разработка планов и процедур восстановления
Планы должны быть разработаны в деталях, и стать официальными документами, т. к. Планы восстановления требуют поддержки, и все изменения в них должны согласовываться заинтересованными сторонами. Эта информация также должна доводится до сведения всех участников. Основные проблемы связаны с изменениями в инфраструктуре и Изменениями Уровней Сервиса. Например, переход на новую платформу среднего класса может привести к тому, что не будет эквивалентного оборудования в резервном центре «теплого», внешнего старта. По этой причине Процесс Управления Конфигурациями играет важную роль в мониторинге базисных конфигураций с учетом Плана восстановления. В плане также должны быть определены процедуры, необходимые для его выполнения.
План восстановления
План восстановления должен включать все виды деятельности по восстановлению бизнес-активности и ИТ-услуг:
§ Введение — описание структуры плана и предполагаемых средств восстановления.
§ Обновление — описание процедур и соглашений по поддержке актуальности плана и отслеживанию изменений в инфраструктуре.
§ Маршрутный лист — план делится на разделы, каждый из которых определяет действия, выполняемые конкретной группой специалистов. Маршрутный лист показывает, какие разделы плана должны быть направлены в каждую группу.
§ Начало восстановления — описание времени и условий начала действия плана.
§ Классификация чрезвычайных обстоятельств — если в плане дается описание процедур на случай различных чрезвычайных обстоятельств, то они должны быть описаны с точки зрения их серьезности (незначительные, среднего уровня серьезности, серьезные), длительности (день, неделя, месяцы) и уровня повреждений (незначительные, ограниченные, серьезные).
§ Разделы для участвующих групп специалистов — план должен быть разделен на шесть разделов — по количеству областей действия и закрепленных на за ними групп специалистов:
- Администрация — как и когда вводить план в действие, какие руководители и специалисты участвуют в нем, где находиться центр управления?
- ИТ-инфраструктура — аппаратное и программное обеспечение, телекоммуникационные средства, включенные в систему восстановления и соответствующие процедуры, а также неактивированные («дремлющие») договоры на закупку новых ИТ-компонентов.
- Персонал — персонал, необходимый для работы в резервном центре, возможно, средства транспортировки и размещение персонала, если резервный центр расположен удалено от основного месторасположения.
План восстановления
- Безопасность — инструкции по защите от краж, пожаров и взрывов, как в основном здании, так и на удаленной площадке, а также информация о внешних хранилищах, таких как склады и подвалы.
- Площадки восстановления — информация о договорах, персонале с указанием конкретных функций, системе безопасности и транспорте.
- Возврат к нормальным условиям — процедуры восстановления нормальной инфраструктуры (например, здания), условия, при которых начинают действовать эти процедуры и соответствующие неактивированные («дремлющие») контракты.
Процедуры
Процедуры разрабатываются на основе Плана восстановления. Они должны быть эффективными, так, чтобы каждый мог выполнять работы по восстановлению, следуя этим процедурам. Процедуры должны включать:
• инсталляцию и тестирование технических средств и сетевых компонентов;
• восстановление приложений, баз данных и других данных.
Эти и другие необходимые процедуры должны прилагаться к Плану восстановления.
Начальное тестирование
Начальное тестирование — критически важный аспект процесса ITSCM. Тесты следует проводить в начале работы, потом после проведения значительных изменений и затем, как минимум, один раз год. ИТ-подразделения отвечают за тестирование эффективности планов и процедур в отношении ИТ-элементов. Тесты могут проводиться с предварительным объявлением или без него.
Обучение и осведомление
Обучение персонала ИТ-подразделения и других отделов компании и осведомленность всего персонала организации являются важными условиями успешной реализации Процесса Управления Непрерывностью ИТ-сервисов.
Персонал ИТ-подразделения должен проводить обучение других членов команды восстановления бизнеса, незнакомых с вопросами информационных технологий, чтобы они могли оказать необходимую поддержку при проведении восстановительных работ. Обучение и тестирование должно охватывать как центральные, так и удаленные средства, предусмотренные на случай чрезвычайных обстоятельств.
Анализ и аудит
Следует регулярно проводить аудит и проверять актуальность всех планов. Такая проверка затрагивает все аспекты Процесса Управления Непрерывностью ИТ-сервисов. В области ИТ такой аудит должен проводиться при каждом значительном изменении ИТ-инфраструктуры, например, при вводе в операционную среду новых систем и сетей и появлении новых поставщиков. Аудит также должен проводиться при любом изменении стратегии ИТ-подразделения или бизнеса. Организации, где происходят быстрые и частые изменения, могут внедрить регулярную программу по проверке концепции процесса ITSCM. Любые изменения в планах и стратегии, появившиеся в результате проведения таких проверок, должны быть реализованы под руководством Процесса Управления Изменениями.
Тестирование
Необходимо проводить регулярное тестирование Плана восстановления, подобно объявлению учебных тревог на борту корабля. Если в компании изучение плана начинается после того, как произошла чрезвычайная ситуация, то, вероятнее всего, у такой организации будет немало проблем с восстановлением. Тестирование позволяет выявить слабые места плана и изменения, которые не были учтены. В некоторых случаях можно проводить тестирование изменений на средствах восстановления прежде, чем вводить их в действующую ИТ-инфраструктуру.
Управление изменениями
Процесс Управления Изменениями играет важную роль в поддержании актуальности Планов восстановления. Необходимо проводить анализ воздействия любого изменения на План восстановления.
Обеспечение гарантий
Обеспечение гарантий работоспособности процесса означает проверку соответствия качества процесса (процедур и документации) бизнес-потребностям компании.
Управление процессом
Эффективное Управление Процессом базируется на отчетах для руководства, критических факторах успеха и ключевых показателях качества.
Отчеты для руководства
В случае возникновения чрезвычайной ситуации предоставляются отчеты о причинах и последствиях чрезвычайной ситуации и действиях по ее разрешению. Любое выявленное при этом слабое место будет учтено в Планах по улучшению сервисов.
В отчеты для руководства по данному процессу также должны быть включены отчеты о тестировании Плана восстановления. Должны также составляться отчеты о произведенных изменениях в плане по восстановлению как результатах изменения каких-либо частей ИТ-инфраструктуры.
Управление доступностью
Несколько часов простоя компьютера могут иметь серьезные последствия для бизнеса и репутации компании на рынке, особенно сейчас, когда Интернет превращается в электронный вариант рынка. В этом электронном мире конкурентов друг от друга отделяет простое нажатие на клавишу «мыши». В этой связи особенно важным фактором становится степень удовлетворенности заказчиков. Эта одна из причин, почему в настоящее время вычислительные системы должны быть доступны 24 часа в сутки семь дней в неделю.
Высокий Уровень Доступности означает, что заказчик имеет практически постоянный доступ к ИТ-сервису благодаря сокращению времени простоя и быстрому восстановлению предоставления услуг. Уровень Доступности определяется с помощью метрик. Доступность сервиса зависит от:
• сложности ИТ-инфраструктуры;
• надежности компонентов;
• способности быстро и эффективно реагировать на сбои;
• качества обслуживания и качества работы поддерживающих организаций и поставщиков;
• качества и границ компетенции процессов операционного управления.
Надежность[4]
Надежность, в контексте данного процесса, означает доступность сервиса в течение согласованного периода времени без каких-либо сбоев. Эта концепция включает в себя понятие устойчивости[5]. Надежность сервиса будет возрастать, если предпринимать превентивные меры против возникновения простоев. Надежность сервиса является статистическим показателем и определяется сочетанием следующих факторов:
• надежность компонентов, используемых для предоставления сервиса;
• способность сервиса или его компонентов эффективно функционировать, несмотря на сбой одной или нескольких подсистем (устойчивость);
• профилактическое обслуживание для предотвращения простоев.
Управление доступностью
Обслуживание[6]
Понятия «обслуживание» и «способность к восстановлению»[7] предполагают выполнение работ по обеспечению функционирования сервиса и его восстановлению после сбоев, а также проведение профилактического обслуживания и регламентных (плановых) проверок, а именно;
• принятие мер по предотвращению сбоев;
• своевременное обнаружение сбоев;
• проведение диагностики, включая автоматическую самодиагностику компонентов;
• ликвидация сбоев;
• восстановление функционирования после сбоя;
• восстановление сервиса.
Целью Процесса Управления Доступностью является обеспечение рентабельного и согласованного Уровня Доступности ИТ-сервиса, который поможет бизнесу в достижении поставленных целей. Такое определение цели процесса означает, что потребности заказчика (бизнеса) должны соответствовать тому, что могут предложить ИТ-инфраструктура и организация. Если имеется расхождение между спросом и предложением, тогда Процесс Управления Доступностью должен предложить выход из такой ситуации. Более того, данный процесс гарантирует оценку достигнутых Уровней Доступности и их дальнейшее совершенствование в случае необходимости. Это означает, что в рамках процесса выполняются как проактивные, так и реактивные виды деятельности. При разработке процесса следует исходить из следующих предпосылок:
• Использование Процесса Управления Доступностью необходимо для достижения наибольшей удовлетворенности заказчика. Доступность и надежность — два показателя, во многом определяющие восприятие предоставляемых услуг заказчиком.
• Высокая степень доступности не означает отсутствие сбоев. Управление Доступностью в основном отвечает за профессиональное реагирование на такие нежелательные ситуации.
Управление доступностью
• Проектирование процесса требует не только полного понимания информационных технологий, но понимания процессов и услуг заказчика. Достижение целей возможно только путем сочетания этих двух аспектов.
У Процесса Управления Доступностью широкая сфера действия, охватывающая новые и уже существующие услуги, отношения с внешними и внутренними поставщиками, все компоненты инфраструктуры (аппаратное и программное обеспечение, сети и т. д.) и влияющие на доступность организационные аспекты, такие как Уровень Знаний Персонала, управленческие процессы, процедуры и инструментальные средства.
Для соответствия стандартам высокой доступности сервиса производится дублирование важных компонентов там, где это возможно, и используются системы обнаружения и устранения сбоев. Часто в случае обнаружения дефекта начинают автоматически действовать резервные системы. Тем не менее в таких ситуациях также необходимо принимать организационные меры, и их может обеспечить Процесс Управления Доступностью.
Процесс Управления Доступностью начинает действовать после того, как бизнес четко определил свои требования к доступности сервиса. Это непрерывный процесс, который заканчивается только тогда, когда прекращается предоставление сервиса.
Входами для Процесса Управления Доступностью являются (рис. 14.2):
§требования бизнеса к доступности;
§оценка влияния на все бизнес-процессы, поддерживаемые ИТ;
§требования к доступности, надежности и обслуживанию ИТ-компонентов инфраструктуры;
§данные о неисправностях, затрагивающих услуги или их компоненты, обычно в форме записей и отчетов об инцидентах и проблемах;
§данные о конфигурациях услуг и их компонентах и данные мониторинга;
§достигнутые Уровни Сервиса в сравнении с согласованными уровнями для всех услуг, оговоренных в соглашении о предоставлении сервиса.
Управление доступностью
Выходы:
• критерии разработки архитектуры для обеспечения доступности и восстановления новых и улучшаемых ИТ-услуг;
• технология, обеспечивающая устойчивость инфраструктуры и позволяющая уменьшить или устранить воздействие дефектных компонентов;
• гарантии доступности, надежности и обслуживания компонентов инфраструктуры, необходимые для предоставления ИТ-сервиса;
• отчеты о достигнутых Уровнях Доступности, надежности и обслуживания;
• требования к мониторингу доступности, надежности и обслуживания;
• план обеспечения доступности[8] для проведения проактивного улучшения ИТ-инфраструктуры.