Восстановление VMFS (VMware ESXi) с RAID5 HP Smart Array P410i, Норильск

Сервер: HP Proliant DL380 G6
Диски: 8 x HP MBD2147RC DG0146BARTP 147 Gb SAS
Объем массива: примерно 850 Gb
Контроллер: HP Smart Array P410i
Операционная система: VMWare ESXi 4
Файловая система: VMFS
Виртуальные машины: Windows Server 2003 R2 Standard Edition
Файловая система виртуальных машин: NTFS
Город: Норильск

Описание заказчика

После перегрева 3 диска одновременно вышли из строя, ничего не предпринимали. Никакие процессы и утилиты не запускали. Самолетом привезли к вам.

Восстановление данных сервера HP Proliant DL380 G6

Процесс восстановления

Один диск с неисправным контроллером, второй диск — неисправен блок магнитных головок, третий диск — бэд-блоки. Восстанавливаем SAS диски, вычитываем бэд-блоки. Анализируем структуру RAID — сразу становится понятно, что перед потерей данных массив работал без одного диска. В метаданных, которые хранятся на дисках (RAID metadata), видно упоминание еще одного диска, но клиенты говорят, что привезли все диски, которые были.

Для восстановления придется найти неактуальный диск и собрать массив без него, но из-за слабо документированной файловой системы VMFS проверка каждого варианта сборки (их 8 штук — исключаем каждый диск и на всякий случай вариант со всеми дисками) будет занимать длительное время.

Долго-долго собираем, перебираем варианты, всё битое — файлы видны, но содержимое неправильное. В третий раз задаем заказчику вопрос, все ли диски нам привезли — говорят да. А может был диск хот спэйр (hot spare disk – используется для восстановления массива после выхода из строя диска)? Был, но мы его вам не повезли — зачем, он же не использовался?? Настойчиво просим прислать этот диск тоже (мы предупреждали, что нужны вообще все диски, которые были в сервере). После появления диска массив собрался.

Заключение специалиста

Итоговая картина потери данных такова — сервер стоял в большой серверной с кучей серверов. На нем не были настроены оповещения о проблемах, из-за чего администраторы не знали, что у них постепенно отваливаются диски из массива.

Сначала выпал диск 6, прошел успешный rebuild на hotspare. Потом выпал 4-й — работали в degrade без него. После этого выпал 3 — из-за перегрева (хотя, не факт, что перегрев вообще имел место) отвалились бошки. Тут массив и развалился.

Если бы были правильно настроены e-mail оповещения HP iLO, которые поддерживаются этим сервером, администраторы бы вовремя узнали о выпадении 6 диска, заменили бы его на новый, после выпадения 4-го прошел бы rebuild на него, опять добавили бы новый диск и выпадение диска 3 опять бы закончилось успешным ребилдом. Потери данных не произошло бы.

Если с вашим оборудованием происходят похожие проблемы и вам требуется восстановление данных, звоните по круглосуточным телефонам 8 (495) 280-18-99, 8 (812) 449-48-22 чтобы проконсультироваться с нашими специалистами.