В динамичном развитии искусственного интеллекта и облачных вычислений решающее значение имеет развертывание эффективного и надежного оборудования. По мере того, как мы развертываем наши Аппаратное обеспечение 12-го поколения в сотнях городов по всему миру проблема поддержания оптимальных тепловых характеристик становится важной. В этом сообщении блога подробно рассматривается надежная система охлаждения, которая поддерживает наше новейшее серверное оборудование 12-го поколения, гарантируя, что оно остается надежным, эффективным и прохладным (игра слов очень задумана).
Важность теплового расчета для аппаратной электроники
Вообще говоря, сервер имеет пять основных ресурсов: ЦП (вычислительная мощность), ОЗУ (краткосрочная память), SSD (долговременное хранилище), NIC (контроллер сетевого интерфейса, возможность подключения за пределами сервера) и графический процессор (для вычислений AI/ML). ). Каждый из этих компонентов может выдерживать различные температурные ограничения в зависимости от их конструкции, материалов, расположения внутри сервера и, самое главное, мощности, на которую они рассчитаны. Этот последний критерий известен как расчетная тепловая мощность (TDP).
Причина, по которой TDP так важен, тесно связана с первый закон термодинамикикоторый гласит, что энергию нельзя создать или уничтожить, ее можно только преобразовать. В полупроводниках электрическая энергия преобразуется в тепло, а TDP измеряет максимальную тепловую мощность, которой необходимо управлять для обеспечения правильного функционирования.
Еще в декабре 2023 года мы говорил о нашем решении перейти на форм-фактор 2U, удвоив высоту серверного шасси для оптимизации плотности стоек и увеличения мощности охлаждения. В этом посте мы хотим поделиться более подробной информацией о том, как это дополнительное пространство используется для повышения производительности и надежности, обеспечивая увеличение общей мощности системы до трех раз.
Чтобы поддержать нашу стратегию взаимодействия с несколькими поставщиками, которая снижает риски в цепочке поставок и обеспечивает непрерывность нашей инфраструктуры, мы представили нашу собственную тепловую спецификацию для стандартизации теплового проектирования и производительности системы. В Cloudflare мы придаем большое значение созданию индивидуального оборудования, оптимизированного для наших уникальных рабочих нагрузок и приложений, и нам очень повезло сотрудничать с отличными поставщиками оборудования, которые понимают и поддерживают это видение. Однако партнерство с несколькими поставщиками может привести к появлению переменных проектирования, которые Cloudflare затем контролирует для обеспечения согласованности в рамках поколения оборудования. Некоторые из наиболее важных требований, которые мы включаем в нашу тепловую спецификацию:
-
Условия окружающей среды: Учитывая наше глобальное присутствие и присутствие в более чем 330 городахУсловия окружающей среды могут существенно различаться. Следовательно, серверы в нашем парке могут работать в широком диапазоне температур, обычно от 28 до 35°C. Таким образом, наши системы разработаны и проверены для бесперебойной работы в диапазоне температур от 5 до 40°C (согласно АШРАЭ А3 определение).
-
Тепловые запасы: Cloudflare разрабатывает четкие требования к температурным ограничениям в различных условиях эксплуатации, моделируя пиковую нагрузку, средние рабочие нагрузки и условия простоя. Это позволяет Cloudflare убедиться, что система не подвергается термическому регулированию — механизму управления питанием, используемому для защиты электроники от высоких температур.
-
Поддержка отказа вентилятора для повышения надежности системы: Это новое поколение серверов имеет 100% воздушное охлаждение. Таким образом, алгоритм, который управляет скоростью вращения вентилятора на основе критической температуры компонентов, необходимо оптимизировать для обеспечения непрерывной работы на протяжении всего жизненного цикла сервера. Несмотря на то, что вентиляторы проектируются с высоким (до семи лет) средним временем безотказной работы (MTBF), мы знаем, что вентиляторы могут выходить из строя и действительно выходят из строя. Потеря мощности сервера из-за теплового риска, вызванного отказом одного вентилятора, обходится дорого. Cloudflare требует, чтобы сервер продолжал работать без проблем даже в случае отказа одного вентилятора. Каждый сервер Gen 12 содержит четыре осевых вентилятора, обеспечивающих дополнительную охлаждающую способность для предотвращения сбоев.
-
Максимальная мощность, используемая для охлаждения системы: Поскольку наша цель — обслуживать больше интернет-трафика, используя меньше энергии, мы стремимся обеспечить эффективное использование энергии развертываемым нами оборудованием. Хорошее управление температурным режимом должно учитывать общую стоимость охлаждения по отношению к общей потребляемой мощности системы. Неэффективно тратить энергопотребление на охлаждение вместо вычислений. Тепловые решения должны рассматривать аппаратную архитектуру целостно и вносить механические изменения в конструкцию системы, чтобы оптимизировать воздушный поток и охлаждающую способность, прежде чем рассматривать увеличение скорости вращения вентилятора, поскольку потребляемая мощность вентилятора пропорционально масштабируется кубу его скорости вращения. (Например, при работе вентиляторов со скоростью, вдвое превышающей скорость вращения, будет потребляться в 8 раз больше энергии.)
Стратегическое размещение каждого компонента внутри сервера также повлияет на тепловые характеристики системы. Для этого поколения серверов мы приняли несколько решений по внутренней компоновке, в которых окончательное размещение компонентов учитывает оптимальные схемы воздушного потока, предотвращая воздействие предварительно нагретого воздуха на оборудование в задней части корпуса.
Для того чтобы воспользоваться преимуществами дополнительного объема, доступного в форм-факторе 2U, были выбраны более крупные и мощные вентиляторы. Вырастая с 40 до 80 миллиметров, один вентилятор может обеспечить в четыре раза больший воздушный поток. Следовательно, более крупные вентиляторы могут работать на более низких скоростях, чтобы обеспечить необходимый поток воздуха для охлаждения тех же компонентов, что значительно повышает энергоэффективность.
Радиатор с воздушным охлаждением увеличенного объема (EVAC) был оптимизирован для оборудования Gen 12 и имеет увеличенную площадь поверхности для максимизации теплопередачи. Он использует тепловые трубки для эффективного отвода тепла от процессора к расширенной области ребер, которая расположена непосредственно перед вентиляторами, как показано на рисунке ниже.
Радиатор EVAC установлен на одном из наших серверов Gen 12. Расширенная область ребер расположена прямо перед осевыми вентиляторами. (Фото предоставлено продавцом.)
Ожидается, что сочетание оптимизированной конструкции радиатора и выбора высокопроизводительных вентиляторов позволит значительно снизить энергопотребление, используемое для охлаждения системы. Эта экономия будет варьироваться в зависимости от условий окружающей среды и нагрузки на систему, но при типичном стрессовом сценарии при температуре окружающей среды 25°C экономия энергии может достигать 50%.
Кроме того, мы позаботились о том, чтобы критически важные компоненты в задней части системы, такие как сетевой адаптер и DC-SCMбыли расположены вдали от радиатора, чтобы способствовать использованию более холодного воздуха внутри системы. Учитывая прошлый опыт, температура сетевого адаптера контролируется контроллером управления основной платой (BMC), который обеспечивает удаленный доступ к серверу для выполнения административных задач и мониторинга показателей работоспособности. Поскольку сетевая плата имеет встроенную функцию защиты от перегрева путем перехода в режим ожидания, когда температура чипа достигает критических пределов, важно подавать воздух как можно более низкой температуры. Для справки: температура воздуха сразу за радиатором процессора может достигать 70°C и выше, тогда как за банками памяти при тех же обстоятельствах она может достигать около 55°C. На изображении ниже показано внутреннее размещение наиболее важных компонентов, учитываемых при создании теплового решения.
Использование как можно более холодного воздуха для охлаждения любого компонента повысит общую надежность системы, предотвращая потенциальные проблемы с перегревом и незапланированные отключения системы. Вот почему наш алгоритм вентилятора использует все доступные термодатчики, чтобы обеспечить тепловую работоспособность при использовании минимально возможного количества энергии.
Компоненты внутри вычислительного сервера от одного из наших поставщиков, вид сзади сервера. (Иллюстрация предоставлена продавцом.)
1️. Модуль хост-процессора (HPM) | 8. Распределительный щит (PDB) |
2️. Модули DIMM (x12) | 9. Графические процессоры (до 2) |
3️. ЦП (под радиатором ЦП) | 10. Райзер-карта графического процессора |
4. Радиатор процессора | 11. Переходная плата графического процессора |
5. Системные вентиляторы (4 шт.: 80 мм, двойной ротор) | 12. Блоки питания, БП (2 шт.) |
6. Кронштейн с кнопкой питания и датчиком вскрытия корпуса. | 13. Модуль DC-SCM 2.0. |
7. Твердотельный накопитель E1.S | 14. Модуль ОСР 3.0. |
Следуя тому же процессу оптимизации компоновки системы, мы решили использовать переходную плату PCIe над блоками питания (PSU), что обеспечивает поддержку до двух карт расширения графического процессора одинарной ширины. И снова сочетание высокопроизводительных вентиляторов со стратегической архитектурой системы дало нам возможность добавить до 400 Вт к исходной мощности и включить ускорители, используемые в наших новых и недавно анонсированных функциях искусственного интеллекта и машинного обучения.
Сроки разработки оборудования обычно длительны, особенно по сравнению с разработкой программного обеспечения. Поэтому в этой быстро меняющейся среде специализированных вычислений необходима надежная стратегия обеспечения гибкости аппаратного обеспечения. Когда мы начали оценивать аппаратную архитектуру поколения 12 и ранний концептуальный дизайн, мы не знали наверняка, что нам понадобятся графические процессоры для этого поколения, не говоря уже о том, сколько и какого типа. Однако высокоэффективное проектирование и целенаправленная комплексная проверка гипотетических вариантов использования помогают обеспечить гибкость и масштабируемость нашего теплового решения, удовлетворяя новые требования наших продуктовых групп и, в конечном итоге, предоставляя лучшие решения нашим клиентам.
Интегрированные в стойку решения
Мы также увеличиваем объем интегрированных стоек, поставляемых на наши центры колокейшн по всему миру. В связи с ожидаемым увеличением поставок стоек сейчас более важно, чтобы мы также увеличили охват соответствующих механических и термических испытаний с уровня системы (L10) до уровня стойки (L11).
Поскольку наши серверы не используют всю глубину стандартной стойки, чтобы оставить место для прокладки кабелей и блоков распределения питания (PDU), существует еще один фактор гидромеханики, который нам необходимо учитывать, чтобы улучшить наше целостное решение.
Мы проектируем наше оборудование на основе одной из наиболее типичных архитектур центров обработки данных, в которых чередуются холодные и горячие коридоры. Вентиляторы в передней части сервера втягивают холодный воздух из соответствующего прохода, затем воздух проходит через сервер, охлаждая внутренние компоненты, а горячий воздух выбрасывается в соседний проход, как показано на схеме ниже.
Обычная схема воздушного потока стандартного сервера, где холодный воздух входит в переднюю часть сервера, а горячий выходит через заднюю часть системы.
В гидродинамике принцип минимальных усилий заставляет жидкости (в данном случае воздух) двигаться туда, где сопротивление меньше, т. е. туда, где требуется меньше энергии, чтобы добраться из точки А в точку Б. С помощью вентиляторов, заставляющих воздух течь внутрь сервер и проталкивая его сзади, более загруженные системы, естественно, будут получать меньше воздуха, чем те, у которых больше места, где воздух может перемещаться. Поскольку нам нужен больший поток воздуха для прохождения через системы с более высокими требованиями к мощности, мы также позаботились о том, чтобы конфигурация стойки удерживала эти системы в нижней части стойки, где воздух имеет тенденцию иметь более низкую температуру. Помните, что тепло повышается, поэтому даже в холодном коридоре может быть небольшая, но важная разница температур между нижней и верхней частью стойки. Наш долг как инженеров по аппаратному обеспечению – использовать термодинамику в свою пользу.
Наше новое поколение оборудования работает в наших центрах обработки данных и представляет собой значительный шаг вперед в реализации наших обязательств по эффективности, надежности и устойчивому развитию. Сочетая оптимальную конструкцию радиатора, продуманный выбор вентиляторов, а также тщательно продуманную компоновку системы и аппаратную архитектуру, мы уверены, что эти новые серверы будут бесперебойно работать в нашей глобальной сети в различных условиях окружающей среды, поддерживая оптимальную производительность нашего Connectivity Cloud.
Присоединяйтесь к нам в Cloudflare, чтобы помочь улучшить Интернет!