Резервное копирование (Backup). Методы и средства. Часть 3.

В хранении информации следует различать “резервное копирование” (backup) и “архивирование” (archiving).

Различие тут в целях. Если резервное копирование совершается для того, чтобы информацию восстановить, то есть конечным результатом бэкапа является восстановление (restore) информации на прежнем месте, то целью архивирования является создание долговременно хранимого экземпляра информации, без цели его возвращения на прежнее место хранения.
Часто архивирование осуществляется с удалением оригинала на оперативном хранилище (move), в отличие от бэкапа, когда оригинальная информация остается на своем прежнем месте (copy).

Кроме того, сама задача архивирования, как правило, требует длительного, упорядоченного хранения, сохранения “версий” и эффективного поиска среди сохраненной информации.
Часто “чистое” резервное копирование комбинируется в реальной жизни с архивированием, так, например, объектом архивирования могут служить сами резервные копии, если мы, например, храним наши резервные копии, не только последнюю, для целей немедленного восстановления состояния информации, но и состояние на день, два, неделю или месяц назад.

Несколько лет назад широкую популярность получила концепция ILM - Information Lifecycle Management - Управления жизненным циклом информации. Методы резервного копирования и архивации удачно легли в эту концепцию, и сейчас многие IT-проекты разрабатываются с использованием этой идеи.
Вкратце, ILM - это определение циклического движения информации, которая по мере своей жизни сперва создается, затем обрабатывается, хранится в оперативном доступе, затем переходит в архив, а затем передается на уничтожение в связи с окончанием срока жизни.

Одной из идей, легших в основу ILM была идея того, что информация, в зависимости от прохождения этапов своей жизни, имеет различные требования к оперативности (и стоимости) своего хранения.
Так, например, глупо занимать данными, которыми пользуются раз в год, дорогостоящее и быстрое дисковое хранилище. А иную информацию, например личные музыкальные файлы пользователей, может быть, вообще не стоит хранить на корпоративном сторадже.

Несколько лет назад разработанная идея “иерархического хранения”, сочетающего в себе системы как дискового, оперативного хранения, так и “менее оперативное” хранение на медленных и дешевых дисках, как, затем, и еще более медленные ленточные системы хранения, нашла свое применение в системах “жизенного цикла информации”.

В таких системах данные прозрачно для прикладных систем, в соответствии с определенными администраторами политиками, мигрируют с одних систем хранения на другие, оставаясь при этом доступными для пользователя.
Хорошими примерами системы иерархического хранения, на базе которого можно построить систему “жизненного цикла информации”, является EMC (бывший Legato) DiskXtender и компонент TivoliHSM - Hierarchical Storage Manager (ныне TSM for Space Management).
Также заметным игроком в этом сегменте является компания FileNet, в прошлом году приобретенная IBM.

Для хранения резервных копий традиционно применяются устройства на магнитной ленте - стримеры. Если объем информации, подлежащий хранению, превышает стандартную емкость картриджа или кассеты с лентой, то имеет смысл задуматься о покупке устройства для автоматической замены кассеты в стримере - авточенджера или библиотеки. Дешевые библиотеки на несколько кассет сегодня стоят 6-12 тысяч долларов, а удобство от их использования может быть весьма существенно при регулярной работе бэкапа (а именно регулярным он и должен быть!).
Обратите внимание, что традиционно для магнитных лент указывается величина “с компрессией”, под которой понимается некое условное число, вдвое выше ее физической емкости. Двукратная компрессия достаточно просто достигается при записи текстовых файлов, но если вы намереваетесь записывать уже скомпрессированные данные, например, дистрибутивы программ или фото-видеофайлы, которые уже сами по себе сжаты, то будьте готовы, что емкость ленты при этом уменьшится вдвое и будет равна ее физической емкости.

Из всего разнообразия лент и форматов записи в живой природе остались только:

DDS (ныне DAT) - традиционная “маленькая” кассета общей емкостью сегодня 72 и 160GB. Также распространены более старые версии, такие как DDS-3 и 4, меньшей емкости на кассету.
Под кассету этого формата, вследствие ее хрупкости, весьма редко встречаются авточенджеры и библиотеки. Как правило, это формат для “персонального бэкапа” содержимого одного сервера или небольшой организации.

LTO (2,3,4) Иногда (в оборудовании HP) носит собственное HP-шное имя Ultrium. HP был одним из разработчиков этого формата.
Наиболее часто встречающийся в библиотеках формат, вытеснивший в настоящее время всех конкурентов в своем классе (SDLT). Кассета традиционно называется “картридж”, довольно массивна и прочна. Плотность записи и емкость одного картриджа увеличивается вдвое от поколения к поколению. Довольно дорогостоящий формат сам по себе, но на сегодня единственный выбор для серьезного применения в качестве ленточного носителя уровня предприятия.
Сегодняшние емкости на один картридж: LTO-2 - 200GB (некомпрессированной, физической емкости), LTO-3 - 400GB, LTO-4 - 800GB. Скорость записи-чтения - до 80MB/s.

Относительно редко, но все же встречаются:
VXA - сравнительно недорогой формат со множеством интересных технических решений, но мало распространен. Ориентирован на небольшие компании. Иногда бывает трудно найти под него кассеты. Емкость кассеты - 160GB.
AIT - формат, продвигавшийся Sony, как многое из оборудования этой компании, “вещь в себе”. SAIT-1 - 500GB, AIT - 100GB.

Несмотря на то, что “дисковое храненение” переживает сейчас вполне объяснимый подъем, “старые добрые” ленточные библиотеки прекрасно себя чувствуют в своем сегменте - долговременном хранении огромных объемов, ведь по долговременности и стоимости хранения за мегабайт большие ленточные системы все еще непобедимы. Экономическая эффективность ленточных библиотек возрастает с увеличением их размера. Если маленькую ленточную библиотеку на пару десятков терабайт довольно легко заменить стораджем на дешевых SATA-дисках, то с большими ленточными библиотеками на многие петабайты дискам соревноваться все еще трудно.

Еще одним существенным плюсом лент является возможность просто организовать распределенное, “оффлайновое” хранилище информации. Если из ленточной библиотеки достаточно просто вытащить и унести в надежное место один или несколько картриджей, то сделать то же самое с дисковым массивом совсем непросто.

Поэтому в областях длительного объемного хранения и offsite storage vaulting (хранения данных вне основной площадки обработки) крупные ленточные библиотеки все еще не имеют альтернатив.

Однако ленточным устройствам хранения присущи и серьезные недостатки, вызвавшие в последние годы подъем интереса к “дисковому бэкапу”, то есть резервному копированию с дисков на диски же, т.н. схема D2D.
Наиболее серьезный минус ленточных устройств обусловлен самим принципом записи. Это устройства последовательной записи и последовательного же чтения. Если нам нужен фрагмент данных, находящийся в середине ленты, нам надо вставить ленту, заправить ее в механизм, убедиться, что это правильная лента, прочтя ее заголовок, включить перемотку и домотать до приблизительно нужного места, включить считывание и дойти до нужного фрагмента, и только после этого мы получим наши данные.
Процесс чтения фрагмента может иметь задержку от момента отдачи команды на чтение до десятка минут. А представим теперь, что нам нужно таких фрагментов размером в пару мегабайт прочитать сотню, да еще из разных кассет?

Вторым серьезным недостатком является механическая чувствительность ленты.
Несмотря на то, что производитель обычно гарантирует срок сохранности лент в десятки лет, как правило, эти цифры верны только для архивного режима, вида “записал и положил в сухое, темное, кондиционированное помещение, защищенное от пыли”.
В реальной эксплуатации срок жизни магнитных лент гораздо ниже и зависит от интенсивности ее использования, а также условий работы. Очевидно, что температурные перепады, высокая или, наоборот, низкая влажность, а в особенности избыток пыли в воздухе, существенно повреждают магнитную ленту.
Поврежденный же картридж с магнитной лентой, как правило, восстановлению не подлежит.

Резкое удешевление жестких дисков в последние годы возродило интерес к резервному хранению на дисках, Disk-to-Disk, D2D.
Преимущества дисков по сравнению с лентами: они быстрые.
Поскольку диски являются, в отличие от лент, устройствами с “произвольным доступом”(random access), то считывание произвольного фрагмента “из середины” не требует последовательно добираться до него от самого начала диска.

Второе преимущество состоит в том, что дисковое хранилище можно сделать более надежным, чем лента, несмотря на то, что один отдельно взятый диск, как правило, менее надежный, чем картридж ленты. Делается это уже известным методом RAID - Redundant Array of Unreliable Independent Disks.
Попытки сделать “RAID на лентах” были (например, я видел это в CA ARCserve), но, к счастью для нашего мозга, эти попытки не распространились широко. В то же время RAID на дисках есть хорошо разработанное и широко использующееся решение.

Промежуточным вариантом, объединяющим достоинства (и нивелирующим недостатки), является довольно популярная комбинированная схема D2D2T, Disk-to-Disk-to-Tape.
В этой схеме в качестве промежуточного места хранения используется “дисковый буфер” на недорогой дисковой системе хранения, к которой, в свою очередь, подключено устройство хранения на ленте.

D2D2T scheme

При этом мы имеем гибкость, которую нам дает дисковая система, и долговременную надежность и емкость, которая присуща системам на ленте.
Наличие промежуточного “дискового буфера” позволяет читать недавно заархивированные данные не беспокоя этим медленное ленточное устройство, а когда активный доступ к данным наконец прекращается, они будут перенесены на ленту, откуда при необходимости когда-нибудь смогут быть считаны, если в них будет нужда.
Одновременно это ускоряет процесс быстрого резервного копирования с диска на диск и возможного быстрого восстановления. Ведь наиболее востребованные данные, сохраненные недавно, находятся на относительно быстром дисковом хранилище.

Современные системы резервного копирования и архивирования, как правило, умеют использовать схему D2D2T без дополнительных усилий.

Один комментарий

  1. RAID действительно повышает надежность хранилища данных, но каким боком RAID относится к резервным копиям? Резервные копии, если уж на то пошло, запрещено хранить не то что на том же компе, но и в том же датацентре ( да, они горят ).

Оставить комментарий

20/0.138

Данный блог не спонсируется, не аффилирован, и не санкционирован компанией NetApp, Inc. Излагаемая в этом блоге точка зрения выражает мнение исключительно его автора и может не совпадать с позицией NetApp, Inc.

This content is not endorsed, sponsored or affiliated with NetApp, Inc. The views expressed in this blog are solely those of the author and do not represent the views of NetApp, Inc.