Восстановление RAID6 после выпадения 5 дисков подряд
Задача | Восстановление RAID6 после выпадения 5 дисков подряд, 2015 год | ||||||
Оборудование |
|
||||||
Проблема заказчика |
Письмо от клиента, 29 июля 2015: «Коллега в сфере ИТ порекомендовал вас для решения нашей проблемы. Есть корзина Infortrend S16S-R1030 (на ней был реализован 6 рейд-массив). При сбое питания перестала инициализироваться на сервере, куда подключена. Нужна ваша помощь в восстановлении данных с нее». |
||||||
Первый этап диагностики |
На основании анализа NTFS MFT выясняется, что из массива последовательно в течение двух лет выпали 5 дисков. Почти полтора года (с 26 февраля 2014-го по 29 июля 2015-го) массив работал без двух дисков. 01.06.2013 — из RAID 6 выпал первый диск, и произошло успешное перестроение на hot spare. 14.08.2013 — выпал второй, и произошло успешное перестроение на следующий hot spare. На этом диски hot spare закончились. 18.02.2014 — выпал следующий диск, и массив начал работать без одного диска в режиме degraded. 26.02.2014 — выпал еще один диск, и массив продолжил работать без двух дисков — с этого момента должно было начаться сильное торможение массива. 29.07.2015 — выпал последний диск, и массив стал недоступен. На одном из актуальных дисков — бэд-блоки. На последнем выпавшем диске — клин шпинделя. |
||||||
Процесс |
Проблемы при восстановлении Во время первичной диагностики мы были удивлены — у диска не клин шпинделя(как показала первичная диагностика), а залипание. Это нестандартная проблема для таких дисков. Внешне эти проблемы проявляются одинаково — диск не крутится и гудит. Но итог разный — при залипании была повреждена одна из пластин, что привело к потере данных. У диска ST31000340NS 4 пластины, 8 поверхностей и 8 головок. 6 поверхностей считаны на 100 %. Одна запилена — ее не считаем. По одной считано 70 %, а остаток читается очень медленно. Приблизительное время чтения остатка — 3–4 месяца. Клиент не готов столько ждать — это не имеет смысла. При обсуждении решено пренебречь этими потерями. |
||||||
Результат |
Итоговая картина повреждений С учетом карты повреждений диска (непрочитанные области) можно описать повреждения массива таким образом: на массиве чередуются целые и поврежденные блоки данных. В тех местах массива, на которые попадает успешно прочитанный блок с диска, мы можем пересчитать два недостающих диска из контрольных сумм. В итоге получаем целые блоки по 8, 4 Гб. В тех местах, где диск не прочитан, мы теряем 36 страйпов по 64 кб из 168. Итоговый размер блоков данных массива с повреждениями: 1,8 Гб. Они содержат 132/168 = 78, т. е. 57 % успешно прочитанных данных. Успешно восстановлено: (8,4+1,8*132/168)/(8,4+1,8) = 96,2 % поверхности массива. Потери: 3.8 % |