Ученые Hp Labs Совершенствуют Дедупликацию

Сегодня многие компании используют для резервного копирования RAID-массивы жестких дисков вместо традиционных ленточных библиотек.

Выгода от такой замены очевидна – запись резервных копий и восстановление из них исходных данных происходит существенно быстрее, легче найти нужную резервную копию или проверить соответствие резервной копии оригиналу.

Однако, несмотря на постепенное снижение стоимости одного гигабайта емкости жестких дисков, по этому показателю они значительно дороже магнитной ленты.

СохранениеWorks D2D

Ученые HP Labs совершенствуют дедупликацию

Кроме того, в ленточных библиотеках используются съемные носители, поэтому полностью заполненный ленточный картридж можно извлечь из библиотеки и отправить в хранилище, а вместо него можно вставить пустой картридж.

Емкость дисковых массивов таким образом масштабировать невозможно, и если на дисках не осталось свободной емкости, то необходимо удалить часть старых резервных копий или подключить к ней дополнительные дисковые полки (последнее не всегда возможно из-за ограничения самого массива или нехватка места в стойке, в которой установлен массив).

Для снижения стоимости хранения резервных копий на жестких дисках многие производители предлагают свою реализацию технологии дедупликации, которая уменьшает общий объем резервных копий за счет идентификации идентичных наборов исходных данных.

Для таких дубликатов записывается только одна резервная копия и в зависимости от типа исходных данных сокращение объема резервной копии может составлять до двух порядков.

Свой подход к дедупликации компания Hewlett-Packard также представила на конференции HP Technology Forum 2010 в конце июня, которая, в отличие от своих основных конкурентов на рынке систем хранения, не тратила деньги на приобретение компаний, специализирующихся на нишевых решениях дедупликации, а воспользовалась преимуществами.

разработок ученых из HP Labs. Одной из основных проблем онлайн-дедупликации является необходимость «на лету» анализировать поток данных, поступающий со скоростью несколько сотен мегабайт в секунду, и искать дубликаты по индексу, в который заносятся ранее скопированные данные.

Если весь индекс находится в оперативной памяти компьютера, то такой поиск выполняется довольно быстро, но по мере роста объема резервных копий индекс уже не помещается в оперативную память и тогда его необходимо выгрузить на жесткий диск.

В этом случае резко падает скорость чтения/записи и, как следствие, доступ к индексу начинает сильно замедлять процесс дедупликации.

Созданная HP Labs технология StoreOnce использует алгоритм индексирования Sparse Indexing (разреженное или выборочное индексирование), что означает, что в оперативной памяти находится только образец индекса, а основная часть индекса хранится на жестком диске.

Принцип работы Sparse Indexing основан на том, что дубликаты обычно приходят пакетно, т.е.

если для первого блока данных уже есть дубликаты, то, скорее всего, будут дубликаты и для последующих блоков данных.

Разреженное индексирование последовательно записывает хэш-указатели на серию блоков данных на жестком диске, поэтому, если для нового блока данных при выборе индекса обнаруживается дубликат, указатели на возможные дубликаты следующих блоков данных быстро загружаются в ОЗУ с жесткого диска.

диск (подробное описание StoreOnce можно найти в статье разработчиков этой технологии из HP Labs — www.hpl.hp.com/personal/Mark_Lillibridge/Sparse/final.pdf ) HP будет использовать StoreOnce для дедупликации во всех своих дисковых системах резервного копирования серии StorageWorks D2D, включая двенадцатидисковую модель D2D4312, анонсированную на HP Technology Forum 2010, масштабируемую до 36 ТБ полезной емкости (аппаратное обеспечение всех этих систем представляет собой стоечные модели серверов).

стандартной архитектуры HP ProLiant DL, например, показанный на фото HP StorageWorks D2D4312 разработан на базе двухсокетного HP ProLiant DL370).

Кроме того, компания планирует в будущем интегрировать StoreOnce с пакетом резервного копирования HP Data Protector и аналогичным программным обеспечением других вендоров, а также использовать его в приставках для хранения данных и реализовать эту технологию с помощью виртуальных машин.

Теги: #HP #дедупликация #Storeonce #StoreOnce #hp labs #DL370