Охлаждение оборудования. Какая температура достаточна?

Я уже писал на тему охлаждения в датацентре ранее, в блоге коллег proitclub.ru, а вот та же статья на более популярном harahabr.ru, кстати хочу обратить ваше внимание, что статьи о технологиях NetApp теперь публикуются в блоге компании на Хабре, и я там тоже принимаю участие, причем “контент” там пишется непересекающийся с этим блогом. Если вам интересны технологии NetApp, советую также просматривать и тот блог тоже, мы будем писать туда две статьи в месяц.

Однако недавно мне попалась еще одна интересная статья, позволившая мне вернуться к теме охлаждения в датацентре.

Вообще тема затрат на охлаждения оборудования в датацентре не зря находится сейчас во главе любого списка оптимизации расходов на IT, ведь не секрет, что энергопотребление охлаждающего оборудования, то есть кондиционеров и систем приточно-вытяжной вентиляции, часто составлят примерно половину от общего энеропотребления всего оборудования датацентра, и сократить, подчас совсем несложными мероприятиями, такой жирный кусок затрат было бы довольно заманчиво.

Вот уже много лет, как в вопросах рабочих температур и охлаждения принято руководствоваться выводами весьма авторитетной работы MIL-HDBK 217F, выполненной для Минобороны США в 1991 году, и носящей название “Military Handbook. Reliability prediction of electronic equipment”. Приведенные в данной работе результаты утверждают, что величина отказов электронного оборудования удваивается, при повышении рабочей температуры каждые 10С.

Однако, за прошедшие 20 лет стало ясно, что приведенные в данной работе выводы по меньшей мере неполны, и найденная линейная корреляция между ростом отказов и повышением температуры, по меньшей мере, выполняется не всегда, или, вернее она не настолько линейна и детерминирована, как утверждается в этой работе.

Так, например, многие эксплуатанты, последовавшие рекомендациям ASHRAE (American Society of Heating, Refrigerating and Air-Conditioning Engineers) в 2009 году, пересмотревших свои ранние рекомендации об оптимальной температуре экспуатации оборудования, и повысивших рекомендации эксплуатационной температуры в датацентре до 27 градусов на входе в сервер, вовсе не наблюдали пропорциональное увеличение количества отказов. В подавлящем большинстве случаев сообщается о изменениях этого параметра “ниже измеряемого уровня”. Некоторые, повысившие температуру с 25 до 30 не получили роста отказов на 1,8%, предсказанного по результатам MIL-HDBK 217F. Таким образом привычная “линейная корреляция” между температурой и величиной отказов, как минимум, не подтверждается.

Интересную историю рассказывает бывший VP отдела энергоэффективности в Sun, Субодх Бапат:

К нам обратились заказчики с Ближнего Востока, с просьбой проанализировать возможность эксплуатации датацентра вообще без охлаждения, то есть при температуре “забортного воздуха”, достигающего там 45 градусов Цельсия. Обычные наши результаты AFR (Annual Failure Rate – величины ежегодных отказов) для температуры эксплуатации 25C составляли 2,45%, и мы оценили его рост в 0,36% при росе температуры на каждый дополнительный градус. Таким образом, для температуры 45С величина ежегодных отказов составила 11,45%. Клиенты утверждали, что ликвидация затрат на охлаждение, от которого они планировали полностью отказаться, даже при замене 12% серверов в датацентре каждый год, в результате, позволяла сохранить это решение экономически эффективным.

Любопытно, что хотя повышение количества отказов на 9% (с 2,45 до 11,45%) при повышении температуры на 15 градусов, это и выше предсказанного по MIL-HDBK 217F, однако, тем не менее, даже эту величину затрат клиенты оценили как экономически приемлемую, за счет экономии на охлаждении.

Также любпытно посмотреть и на довольно известную реализацию проекта датацентра Microsoft в Дублине, работающего на пассивном испарительном охлаждении при средней температуре в датацентре в 35C.

Очень интересная работа проделана у Джеймса Гамильтона, VP и ведущего инженера Amazon Web Services, обнародованная в 2009 году на конференции Google, посвященной энергоэффективности датацентров. Собственно его запись в блоге и вызвала к жизни эту мою заметку.

Так или иначе, совершенно очевидно, что имеющиеся на сегодня данные исследований в этой области уже не удовлетворяют реальному положению дел, и требуют нового анализа, с учетом всех новых обстоятельств и трендов. Безоглядно доверять традиционным выводам о надежности и температурном режиме эксплуатации сегодня нельзя.

Один комментарий

  1. Korj:

    Тут уже впору задуматься о скрупулёзном подсчете TCO. При 12% (пусть даже реально меньшем) вылете в год, если речь не идёт о “датацентре” в пустыне (цена раб. силы=0, потери при простое~=0), нужно учесть не только стоимость вылетающего железа, но и цену работ по обнаружению неполадок (не всё вылетает сразу насмерть), замене оборудования сколько-нибудь квалифицированным персоналом. Плюс увеличение уровня резервирования (при двухзначных цифрах “вылета” в год вероятность вылета следующего диска до восстановления RAID после вылета предыдущего становится вполне реальной - средний интервал вылета становится сопоставим с временем перестройки RAID), плюс деградация скорости массива при регулярных перестройках. Наконец, при таких показателях вылета повышается вероятность сценария DR, требующего участия высокооплачиваемых специалистов и чреватых простоем.
    Слишком много неизвестных в этих процессах, чтоб слепо полагаться на некие единичные примеры или исследования.

Оставить комментарий

20/0.140

Данный блог не спонсируется, не аффилирован, и не санкционирован компанией NetApp, Inc. Излагаемая в этом блоге точка зрения выражает мнение исключительно его автора и может не совпадать с позицией NetApp, Inc.

This content is not endorsed, sponsored or affiliated with NetApp, Inc. The views expressed in this blog are solely those of the author and do not represent the views of NetApp, Inc.