Основные метрики надежности для дисковых подсистем
- Среднее время до сбоя (MTTF, MTBF)
- Среднее время восстановления (MTTR)
- Среднее время до потери данных (MTTDL)
- Среднее время до потери доступа к данным (MTTLDA, MTDA)
Оценка надежности дисковых массивов с использованием Марковских цепей
Допущения:
- Интенсивности перехода из одного состояния в другое константы
- В упрощенном случае рассматриваются только дисковые компоненты системы хранения данных
- Массив состоит из N+1 дисков, используется уровень RAID 1-5
- MTTF>>MTTR
Марковская модель системы с восстановлением:
Постановка задачи: Система ур-ий Колмогорова Среднее время до потери данных
Среднее время до потери данных в групповом уровне RAID:
постановка задачи
- Двухуровневый RAID
- Первый из уровней RAID 0, второй позволяет восстановить данные при отказе 1 диска
- N+1-дисков в массиве
- G+1-дисков в группе четности
Марковская цепь, результат
Усиление модели: вероятность повторного сбоя
Усиление модели: вероятность невосстановимой ошибки при чтении
, p - вероятность успешного чтения всех данных с HDD
Усиление модели: вероятность программного сбоя
Аппаратная реализация RAID с энергонезависимым КЭШ
Программная реализация RAID
Среднее время до потери данных в RAID 6: Марковская цепь
Недостатки подхода основанного на Марковских цепях
- Частота сбоев является функцией времени
- Частота сбоев зависит от модели компонент
- Время восстановления после сбоя не постоянно, но имеет нижнюю границу
- Невосстановимые ошибки могут случаться в любое время
- В модель необходимо включить наличие скрытых ошибок
Модель сбоев HDD Пример скрытой ошибки
Метод Элиреса для оценки надежности дисковых систем
Используются 4 распределения:
-D(Op) – время до функционального сбоя
-D(Ld) – время до появления скрытой ошибки
-D(Rest) – время восстановления после функционального сбоя
-D(Scrub)-время обнаружения и исправления скрытой ошибки
Диаграмма состояний RAID массива из N+1 дисков
Последовательное моделирование методом Монте-Карло
11. RAID-массивы. Оценка производительности дисковых подсистем. Расчет необходимого количества HDD в дисковой подсистеме. Эффективность использования адресного пространства. Рекомендации по применению RAID-уровней. Проблемы при использовании RAID систем. Системы хранения без RAID.
Оценка производительности уровней RAID:
а) 4 типа операций: короткое чтение, длинное чтение, короткая запись, длинная запись
б) 2 режима работы: штатный, вырожденный (режим деградации)
в) Зависит от:
--Архитектуры внутренней шины
--Архитектуры внешней шины
--Режимов оптимизации
--Алгоритмов кэширования
г) Подходы к оценке: теоретические, моделирование, тестирование