Posts tagged ‘temperature’

Охлаждение оборудования. Какая температура достаточна?

Я уже писал на тему охлаждения в датацентре ранее, в блоге коллег proitclub.ru, а вот та же статья на более популярном harahabr.ru, кстати хочу обратить ваше внимание, что статьи о технологиях NetApp теперь публикуются в блоге компании на Хабре, и я там тоже принимаю участие, причем “контент” там пишется непересекающийся с этим блогом. Если вам интересны технологии NetApp, советую также просматривать и тот блог тоже, мы будем писать туда две статьи в месяц.

Однако недавно мне попалась еще одна интересная статья, позволившая мне вернуться к теме охлаждения в датацентре.

Вообще тема затрат на охлаждения оборудования в датацентре не зря находится сейчас во главе любого списка оптимизации расходов на IT, ведь не секрет, что энергопотребление охлаждающего оборудования, то есть кондиционеров и систем приточно-вытяжной вентиляции, часто составлят примерно половину от общего энеропотребления всего оборудования датацентра, и сократить, подчас совсем несложными мероприятиями, такой жирный кусок затрат было бы довольно заманчиво.

Вот уже много лет, как в вопросах рабочих температур и охлаждения принято руководствоваться выводами весьма авторитетной работы MIL-HDBK 217F, выполненной для Минобороны США в 1991 году, и носящей название “Military Handbook. Reliability prediction of electronic equipment”. Приведенные в данной работе результаты утверждают, что величина отказов электронного оборудования удваивается, при повышении рабочей температуры каждые 10С.

Однако, за прошедшие 20 лет стало ясно, что приведенные в данной работе выводы по меньшей мере неполны, и найденная линейная корреляция между ростом отказов и повышением температуры, по меньшей мере, выполняется не всегда, или, вернее она не настолько линейна и детерминирована, как утверждается в этой работе.

Так, например, многие эксплуатанты, последовавшие рекомендациям ASHRAE (American Society of Heating, Refrigerating and Air-Conditioning Engineers) в 2009 году, пересмотревших свои ранние рекомендации об оптимальной температуре экспуатации оборудования, и повысивших рекомендации эксплуатационной температуры в датацентре до 27 градусов на входе в сервер, вовсе не наблюдали пропорциональное увеличение количества отказов. В подавлящем большинстве случаев сообщается о изменениях этого параметра “ниже измеряемого уровня”. Некоторые, повысившие температуру с 25 до 30 не получили роста отказов на 1,8%, предсказанного по результатам MIL-HDBK 217F. Таким образом привычная “линейная корреляция” между температурой и величиной отказов, как минимум, не подтверждается.

Интересную историю рассказывает бывший VP отдела энергоэффективности в Sun, Субодх Бапат:

К нам обратились заказчики с Ближнего Востока, с просьбой проанализировать возможность эксплуатации датацентра вообще без охлаждения, то есть при температуре “забортного воздуха”, достигающего там 45 градусов Цельсия. Обычные наши результаты AFR (Annual Failure Rate – величины ежегодных отказов) для температуры эксплуатации 25C составляли 2,45%, и мы оценили его рост в 0,36% при росе температуры на каждый дополнительный градус. Таким образом, для температуры 45С величина ежегодных отказов составила 11,45%. Клиенты утверждали, что ликвидация затрат на охлаждение, от которого они планировали полностью отказаться, даже при замене 12% серверов в датацентре каждый год, в результате, позволяла сохранить это решение экономически эффективным.

Любопытно, что хотя повышение количества отказов на 9% (с 2,45 до 11,45%) при повышении температуры на 15 градусов, это и выше предсказанного по MIL-HDBK 217F, однако, тем не менее, даже эту величину затрат клиенты оценили как экономически приемлемую, за счет экономии на охлаждении.

Также любпытно посмотреть и на довольно известную реализацию проекта датацентра Microsoft в Дублине, работающего на пассивном испарительном охлаждении при средней температуре в датацентре в 35C.

Очень интересная работа проделана у Джеймса Гамильтона, VP и ведущего инженера Amazon Web Services, обнародованная в 2009 году на конференции Google, посвященной энергоэффективности датацентров. Собственно его запись в блоге и вызвала к жизни эту мою заметку.

Так или иначе, совершенно очевидно, что имеющиеся на сегодня данные исследований в этой области уже не удовлетворяют реальному положению дел, и требуют нового анализа, с учетом всех новых обстоятельств и трендов. Безоглядно доверять традиционным выводам о надежности и температурном режиме эксплуатации сегодня нельзя.

Приводит ли повышенная температура среды к частому выходу дисков из строя?

Продолжим внимательное чтение отчета специалистов Google - Failure Trends in a Large Disk Drive Population (pdf 242 KB) опубликованный на конференции FAST07, и содержащий статистический анализ отказов "популяции" 100000 дисков consumer-серий примерно за пять лет срока их службы.

Это четвертая, заключительная статья, предыдущие:
Насколько можно доверять величине MTBF?
Приводит ли большая нагрузка к повышению вероятности отказа?
Насколько полезен и стоит доверия SMART?

Мы обнаружили, что основной параметр отказоустойчивости, приводимый производителями, MTBF - Mean Time Before Failure, бесполезен, и не коррелирует вообще с реальными показателями отказов. Мы узнали, что SMART бесполезен едва ли не более, чем полезен, и что значительная часть отказов происходит без корреляции с показаниями SMART. Наконец, мы с неожиданностью поняли, что общепринятая "аксиома" о том, что высокая нагрузка повышает вероятность выхода из строя дисков - как правило, неверна.

Но главный сюрприз у нас еще впереди.

Инженеры Google на протяжении 9 месяцев каждые несколько минут считывали показания встроенных в SMART датчиков температуры жестких дисков, чтобы понять корреляцию между температурой и вероятностью отказов.

image

На приведенном графике в виде столбиков приведено количество дисков, имеющих соответствующую температуру (с шагом в 1 градус, можно рассматривать как "температуру перед сбоем", так как полученная корреляция просматривается в различных вариантах измерений). Кривая с точками и T-образными символами показывает полученный уровень AFR с зарегистрированным разбросом показателей.

Как мы видим, повышение рабочей температуры до 40 градусов включительно приводит к снижению уровня отказов, но даже дальнейшее повышение ее до 50 и более поднимает его незначительно (отказы при температуре 50 градусов примерно соответствуют уровню отказов при температуре 30 градусов). Напротив, дальнейшее понижение температуры до 20 и менее, ведет к почти десятикратному росту отказов, относительно оптимальной температуры в 35-40 градусов!
(Большой статистический разброс результатов, показанный T-образными отметками, вызван снижением общего количества “испытуемых” дисков в предельных температурных областях)

Следующий график показывает величины отказов в зависимости от температур для разных "возрастных групп" (речь, конечно не идет о "трех годах работы" при определенной заданной температуре, так как наблюдение проводилось, как уже было сказано, в течение 9 месяцев) Результаты также подтверждают вышеприведенное наблюдение, расширяя его по "координате возраста".

image

"Переохлаждение" для дисков, то есть работа при температурах ниже 30 градусов (имеется ввиду, конечно же, температура самого диска как устройства, как ее определяет встроенный температурный датчик SMART), для устройств сроком до двух лет эксплуатации включительно, в два-три раза повышает величину отказов, даже по сравнению с ранее считавшимися "перегревом" температурами выше 45! Только для дисков старше 3 лет перегрев становится причиной повышенного выхода из строя. Снова видно, что для дисков, переживших 3 года, вероятность отказа сильно падает. Видимо где-то в районе трех лет проходит какая-то довольно заметная граница работоспособности.

Выводы приходится делать довольно неожиданные. Возможно установка кондиционирования и поддержание предельно низкой температуры в датацентре, по крайней мере для дисковых систем, не есть такое уж непререкаемое благо? Возможно оно положительно сказывается на работе, например, процессоров и оперативной памяти серверов, так как хорошо известен эффект деградации свойств полупроводников при повышенной температуре, но для жестких дисков, как показывают нам результаты исследования Google, это явно не так.

Результат, по-видимому, еще стоит осмысления и оценки.

20/0.139

Данный блог не спонсируется, не аффилирован, и не санкционирован компанией NetApp, Inc. Излагаемая в этом блоге точка зрения выражает мнение исключительно его автора и может не совпадать с позицией NetApp, Inc.

This content is not endorsed, sponsored or affiliated with NetApp, Inc. The views expressed in this blog are solely those of the author and do not represent the views of NetApp, Inc.