Приводит ли большая нагрузка к увеличению вероятности выхода дисков из строя?

Сегодня мы продолжаем разбирать результаты опубликованной специалистами Google научной работы, в которой анализируются причины отказов 100.000 жестких дисков в датацентрах Google на протяжении пяти лет.

Мы считаем само собой разумеющимся тот факт, что бо’льшая нагрузка на диски вызывает их более ранний выход из строя. Так ли это? Данные Google показывают, что это не так. Более того, результаты сами по себе неожиданны.

image

На графике мы также видим уже знакомый нам период "детской смертности" в первые три месяца. Однако если мы разделим диски в зависимости от их рабочей нагрузки, то мы увидим неожиданное. Да, высокая нагрузка (выше 75%) в первые три месяца действительно приводит к высокой "смертности" дисков. В это период диски под высокой нагрузкой, по уровню AFR - Annual Failure Rate - среднегодовому показателю отказов, достигают 12% (при усредненной по всем типам нагрузок - в районе 3%). Однако, что неожиданно, диски с низким уровнем (ниже 25%) нагрузки также имеют довольно высокий уровень, около 4%, а наиболее низкие показатели в этот и 6-месячный период имеют диски со средними (от 25 до 75%) показателями нагрузки.

Переработка - плохо, но и простой - почти также нехорошо.

Далее же, в периоды 1 года, 2 и 3 лет, показатель уровня отказов практически не меняется от величины нагрузки на диски. И только после 4 года, и на пятый год, наблюдается заметное повышение уровня отказов для сильно нагруженных дисков, которое мы ожидали бы увидеть с самого начала. Таким образом, после первого полугода работы, уровень рабочей нагрузки на диски практически никак не сказывается (доли процента) на количестве их отказов. В ряде же случаев, наоборот, слабо загруженный диск имеет больше шансов вылететь, чем диск с рабочей нагрузкой среднего уровня. Диск, находящийся в Hot Spare вовсе не застрахован от внезапного выхода из строя.

Если же перед вами стоит задача быстро "выбраковать" диски, то имеет смысл сразу нагрузить их, и получить повод поскорее избавиться от потенциальных "отказников".

Продолжение следует.

Начало: О надежности жестких дисков: MTBF – что это?

5 комментариев

  1. Вопрос по надежности дисков. Меня тут клиент озадачил.
    Он утверждает, что выделенные под четность диски в RAID DP вылетают чаще дисков с данными, так как у них много выше нагрузка? Перерыл весь интернет - ничего подобного не нашел. И за два года работы с NetApp ничего такого не видел. Есть ли какая-то статистика или материалы на эту тему?

  2. haired.livejournal.com/:

    Если честно - в первый раз слышу.
    Даже более того скажу, у NetApp на диски Parity НЕТ большей нагрузки, чем на дисках данных.

    Это возможно при использовании RAID-4 “классического” типа, в котором блок на диске parity меняется всякий раз, при любом изменении любого блока на любом диске данных RAID-группы, то есть объем записи на диск parity для “классического” RAID-3/4 равен объему записи на любой диск данных, помноженное на количесво дисков в RAID-группе, именно в этом причина, отчего RAID-3 и 4 не используются “в живой природе”.

    Но в случае NetApp эта проблема устраняется за счет WAFL. В NetApp WAFL запись на диски группы осуществляется всегда полным страйпом, одной операцией записи на диск, то есть какй-то дополнительной нагрузки на диск parity нет.
    Величину загрузки раздельно по физическим дискам группы можно посмотреть командой stats или утилитой statit (а еще я сравнительно недавно писал про полезную утилитку na_stats http://blog.aboutnetapp.ru/archives/725).

    Если у клиента наблюдается такой дисбаланс нагрузки, неважно, на диски parity или какие-то диски данных, то это говорит о каком-то нештатном поведении системы, в первую очередь. Штатно нагрузка на все физические диски aggregate должна быть близка к равной.

  3. Дисбаланса у него не наблюдается, как впрочем и СХД :)
    Мы хотим продать им что-нибудь из младшей линейки и обсуждали преимущества NetApp. Примерно так я и пытался объяснить товарищу, что он не прав. Но он так бурно доказывал обратное, что я аж засомневался в собственной компетенции :)
    Спасибо за разъяснения!

  4. haired.livejournal.com:

    Ну если человек хочет разобраться - дайте ему описание WAFL, на русский я его переводил тут:
    http://www.netwell.ru/docs/netapp/wp3002_wafl.pdf

    Вполне возможно его в самом деле ввело в заблуждение использование RAID-4 в NetApp, но смысл в том, что RAID-4 он там только формально, по названию, на деле же это просто уровень WAFL (это несколько необычно для схемы построения RAID и FS, впрочем, например, точно также организован RAIDZ в ZFS), и FS осуществлят на него запись максимально эффективным для этого типа RAID образом.

    Если же не хочет - остается только убеждать (ценой например ;) или демо-системой)

    У NetApp действительно многие привычные вещи решены иными, чем традиционно принято, способами, тем и интересно.

  5. Спасибо. Будем переубеждать :)

Оставить комментарий

22/0.429