автор: Доктор Крейг Райт (Craig Wright)
GIAC GSE (Compliance & Malware)
Данная заметка основывается на статье, опубликованной мной в декабре прошлого года: «Перезапись данных жесткого диска: Большой спор», авторы Крейг Райт, Дэйв Клейман (Dave Kleiman) и Шайам Сандер (Shyaam Sundhar R.S.), на конференции ICISS2008 и в серии Springer Verlag Lecture Notes in Computer Science (LNCS).
Предистория
Существует множество мнений о том, сколько раз нужно или желательно провести перезапись, чтобы стереть данные с жесткого диска. И это несмотря на то, что многие компании, такие, например, как NIST, утверждают, что достаточно один раз произвести перезапись, чтобы удалить данные без возможности их восстановления.
Этот спор приводил к множеству недоразумений, что и послужило причиной появления данного проекта.
Обычным является мнение людей о том, что данные можно восстановить, если они были перезаписаны один раз. Многие считают, что необходимо произвести перезапись 10 или даже 35 (ссылаясь на схему Гутмана (Gutmann scheme) 1996 года – Безопасное удаление данных с магнитных и твердотельных носителей памяти, автор Питер Гутман) раз, для безопасной перезаписи предыдущих данных.
Для того, чтобы раз и навсегда ответить на этот вопрос, и стартовал в 2007 году данный проект, чтобы выяснить, можно ли выполнить восстановление данных с перезаписанного диска. Для более полного понимания, следует прочесть всю опубликованную статью, впрочем, данная заметка предлагает ее краткое изложение. Работая в тесном сотрудничестве с профессором Фредом Кохеном (Fred Cohen),я обнаружил, что существуют другие применения методам, использованным мной в проекте. Возможно восстановление данных с поврежденных дисков. Более того, используя математический метод, применявшийся в эксперименте (байесова статистика), можно восставновить данные с поврежденного диска с помощью гораздо более легких способов, чем использование магнитной силовой микроскопии (МСМ).
Но прежде всего, мне хотелось бы отметить (благодаря профессору Кохену), что многие емкие современные диски не перезаписываются.
С чего начался спор?
Основой мнения о том, что можно восстановить данные с перезаписанного диска является предположение, что когда единица (1) записывается на диск сверху ноля (0), фактическое значение получается 0.95, и 1.05 если единица (1) перезаписывается единицей (1).
Демонстрация неверности подхода
Вышеописанное предположение касалось емких флоппи дискет, обладающих эелементарным механизмом. Исследование проводилось на уровне битов и не учитывало суммарную погрешность. Аргумент основывался на утверждении, что «каждый трек содержит изображение всех данных, когда либо записанных на него, но доля каждого «слоя» тем меньше, чем раньше он был создан». На лицо непонимание физики функций диска и магнитного резонанса. На самом деле, не существует фактора времени и изображение не наслаивается.
МСМ – магнитная силовая микроскопия
Для проверки этой теории, мы использовали МСМ. Магнитная силовая микроскопия (МСМ) показывает пространственные вариации магнитных сил на стандартной поверхности. МСМ это та штука, которую люди обычно называют электронным микроскопом.
Максимальная вероятность частичной реакции (МВЧР) (МВПО) Partial Response Maximum Likelihood (PRML)
Общее представление о том, как Максимальная вероятность частичной реакции (МВЧР), метод конвертирования слабого аналогового сигнала с головки магнитного диска или накопителя на магнитной ленте в цифровой, объясняет, как происходит преобразование в жестком диске. МСМ читает необработанное аналоговое значение. Сложные статические цифровые процессиноговые алгоритмы используются для определения «максимальной вероятности» значений.
Более старые технологии используют другой метод чтения и интерпретирования битов, чем в современных дисках. Он известен как амплитудное детектирование. Данный метод пригоден до тех пор, пока амплитуды в магнитном потоке достаточно сильнее уровня шума. С увеличением плотности записи в жестких дисках, схемы энкодирования основанные на амплитудном детектировании (такие как Модифицированная частотная модуляция или МЧМ) и до сих использующиеся в флоппи дисках, были заменены. Кодирование в жестких дисках основывается на использовании PRML и EPRML технологий, позволяющих увеличить плотность записи на 30-40% по сравнению со стандартным методом амплитудного детектирования.
Распространенные заблуждения
Запись на жесткий диск по сути является изменением напряженности магнитного поля. Никакого физического воздействия на диск, могущего повлиять на время хранения данных, не существует. Плотность магнитного потока следует принципу гистеризисной петли. Уровни магнитного потока, записываемые на пластину жесткого диска, разнятся случайным образом в зависимости от магнитного потока, связанного с расположением головки, температурой и случайными ошибками.
Поверхность пластин жесткого диска может иметь разную температуру в разных точках, и может изменяться при удалении от головки чтении/записи. Как следствие, существует множество проблем, связанных с верой, что можно выполнить восстановление данных диска после стирания. Разницы в уровнях пластины жесткого диска используют тепловой рекалибровочный алгоритм случайных значений. Все современные диски используют данный механизм для минимизирования расхождений.
Распределение вероятностей
Сложные алгоритмы обнаружения используются для обработки потока аналоговых данных, когда происходит чтение информации с диска. Распределение вероятностей данных разнится не только при каждом считывании, но также с течением времени и изменении температуры. Кроме того, существует еще эффект гистерезиса
Гистерезис
Стохастический шум приводит к определенному уровню управляемого хаоса. Если посмотреть на результаты процесса записи данных магнитным способом, мы увидим, что эффект гистерезиса обеспечивает невозврат данных в начальную точку.
Таким образом, Вы никогда не можете вернуться к исходной точке. Каждый раз, когда Вы добавляете или удаляете данные с накопителя, результирующее значение, записываемое на диск, меняется. Это начинается с низкоуровневого форматирования, изменяется при записи любых данных на накопитель, и колеблется при каждой попытке обнуления тарелки диска. В сущности, Вы получаете случайное блуждание, которое не возвращает Вас к исходной точке (под воздействием мощной магнетической силы).
Магнитные подписи не содержат информации о времени
Из-за магнитного резонанса жесткий диск не обладает способностью восстановления после стирания данных. Там нет «слоев» записанных данных. Значение магнитного поля варьируется при каждой записи на носитель, но это происходит и в результате других факторов. Среди них:
- колебания температуры;
- движение головки;
- предыдущие записи на носитель;
- Все эти эффекты в совокупности и по отдельности статистически значительно влияют на проницаемость тарелки.
- Изменения магнитного поля.
Жиль обратил внимание, что при повышении температуры тарелки накопителя от 20 до 80 градусов по Цельсию, то обыкновенный феррит может стать причиной понижения проницаемости тарелки на 25%.
Внутри привода, температура «нормальной» работы может значительно изменяться. При постоянном использовании внутренняя температура привода легко может превышать 80 градусов по Цельсию. Система может и не разогреться до такой степени, но все что требуется – это участок тарелки, и это обычное явление.
Проницаемость – это свойство материала, которое служит для измерения того, какое напряжение необходимо для возбуждения магнитного потока внутри материала. Проницаемость определяется отношением плотности магнитного потока (магнитной индукции) к напряженности магнитного поля. Эту зависимость можно выразить формулой µ = B/H (где µ – это проницаемость, B-магнитная индукция, Н-напряженность магнитного поля). Благодаря изменениям, возникающим в носителе, технология MFM (описанная выше), используемая в гибких носителях, не работает на современных жестких дисках.
Гипотеза и эксперимент
Для проверки гипотезы, мы протестировали множество носителей разных возрастов, типов и производителей. Для полной достоверности всех возможных сценариев, мы раздели все 15 типов данных на 2 категории.
Категория А включала в себя тестирование нового носителя (это чистый носитель, который никогда не использовался), форматированного носителя (однократное форматирование выло выполнено в системе Windows с использованием файловой системы NTFS со стандартным размером секторов), а также бывшего в употреблении носителя (нового носителя, на который 32 раза произвели перезапись случайных данных из директории /dev/random хоста Linux, после чего поверх записали все 0-и для очистки всех остаточных данных).
Эксперимент проводился с целью тестирования нескольких шаблонов записи. Существует бесконечное количество возможных способов записи данных, поэтому все протестировать невозможно. Цель проведения тестирования – убедиться, что любой конкретный шаблон не значительно лучше или хуже остальных.
Категория Б включала шаблоны записи, с использованием как первичной записи, так и последующих перезаписей. Эта категория состояла из пяти типов:
- Все нули
- Все единицы
- Шаблон “01010101?
- Шаблон “00110011?
- Шаблон “00001111?
Для записи этих шаблонов со стандартным размером блока 512 (bs=512) применялась Linux утилита “dd”. Тестировались 17 моделей жестких дисков, начиная от старых Quantum емкостью 1 Гб, до современных накопителей (на момент начала тестирования) 2006 года.
Шаблоны данных записывались на каждый носитель во всех возможных комбинациях. Каждая запись данных представляла собой файл размером 1 Кб (1024 бита). Было необходимо тщательно выбрать размер и размещение. Поиск сегмента на носителе, не зная, где он находится, равносилен поиску иглы в стоге сена из поговорки. Для этого мы предприняли следующие шаги:
Проверка расфазировки привода и головки.
Процесс повторили 5 раз, и проанализировали 76800 расчетных точек.
Произвели расчет подобия для каждой из 76800 точек, проанализировали распределение на предмет плотности и дистанции распределения.
Расчеты были основаны на Байесовском подобии, где известно априорное распределение.
Как уже упоминалось, в реальной аналитической экспертизе, априорное распределение неизвестно. Когда Вы пытаетесь восстановить данные с диска, обычно у Вас нет образца того, что Вы ищете. Без этого образца, сложность эксперимента экспоненциально возрастает. Из этого следует, что даже при одноразовой записи, наложение в лучшем случае дает вероятность выбора предыдущего бита чуть более 50% (при наилучшем считывании – чуть более 56%).
Таким образом, невозможно определить, правильно ли был выбран бит.
Следовательно, существует шанс правильного выбора любого бита в выбранном байте (8-и битном) – но вероятность этого составляет около 0,9% (или менее) с небольшим доверительным интервалом ошибки на каждой из сторон.
Результаты тестирования
Рассчитанные значения для разных приводов приведены в таблице ниже. Здесь представлены не все данные, но очевидно, что использование носителя влияет на полученные значения (как следствие эффекта гистерезиса и остаточных данных). Еще одна проблема состоит в том, что восстановление статистически независимо (для всех практических целей). Таким образом, вероятность получения двух битов увеличивается.
Таблица распределения вероятностей для старых моделей приводов.
Таблица распределения вероятностей для «новых» (ePRML) моделей приводов.
Мы видим, что становится практически невозможно что-либо восстановить, и не только за счет времени, необходимого на считывание данных при помощи MFM.
Что это значит
Другие шаблоны перезаписи фактически дают результат 36.08% (+/- 0.24). Так как такое распределение основано на двоичном выборе, вероятность угадывания априорного значения составляет 50%. Это значит, что если Вы подбросите монетку, Вы получите 50% шанс правильного выбора значения. Зачастую использование MFM для определения априорного значения, записанного на жесткий носитель, менее успешно, чем бросание монетки.
Идеей этой статьи является безусловное разрешение противоречия, возникшего вокруг неправильного представления о том, что данные можно восстановить после стирания. Этот опыт продемонстрировал, что корректно удаленные данные невозможно восстановить в полной мере, даже если они имели небольшой размер, или занимали небольшие участки жесткого носителя. Даже при использовании MFM или других известных методов. Убеждение, что можно разработать инструмент для восстановления гигабайт или терабайт информации, – ошибочно.
Хотя существует неплохая вероятность восстановления любого отдельного бита с носителя, шансы восстановления какого-либо объема данных с носителя при помощи электронного микроскопа – незначительны.
Даже принимая в расчет возможное восстановление старого накопителя, нет уверенности, что с носителя можно будет восстановить любые данные. Судебное восстановление данных при помощи электронного микроскопа недопустимо. Это было возможно как для старых, так и для новых приводов, но с течением времени стало очень сложно. Более того, необходимо, чтобы данные записывались, а потом стирались на/с нового неиспользованного носителя, чтобы была хотя бы небольшая надежда на восстановление на любом, даже на битовом уровне, который не отражает фактической ситуации.
Маловероятно, что восстановленный носитель не будет использован в течение некоторого периода времени, и взаимодействие дефрагментации, копирования с основным использованием, при котором происходит перезапись областей данных, отрицает возможность восстановления данных. Заблуждение, что данные можно восстановить при помощи электронного микроскопа или аналогичных средств, опровергнуто.
При копировании материалов активная ссылка на сайт www.datarc.ru обязательна.