AI 和 HPC 数据中心
容错解决方案
集成内存
实施私有 AI 需要对数据中心基础设施进行重大设计更改,包括 GPU 冷却和电源管理,这需要专门的资源和技能。
GPU 设计人员突破了芯片的物理限制,提出了前所未有的核心密度要求,突破了 AI 规模和性能的极限。结果是数据中心以前从未见过的巨大功耗和热量产生。
包括人工智能 (AI)、机器学习 (ML) 和物联网 (IoT) 在内的数据密集型技术的使用正在刺激服务器空间的指数级增长,对现代数据中心提出了越来越大的电力和散热需求。
为了为AI Infrastructure的未来需求做准备,各公司正在实施一些技术,使他们能够引入更高的机架密度和更高性能的GPU,从而最大限度地提高数据中心性能,同时帮助他们履行资源可持续性承诺并最大限度地减少其设施对环境的影响。
具体策略包括采用可再生能源和实施节能基础设施,例如创新的冷却系统,包括直接芯片、液体冷却和浸入式冷却系统,从而降低能源成本并支持您的可持续发展目标。
AI 建模伴随着不断增加的 GPU 机架密度,这种密度正在迅速增加,每个机架的功率需求高达 50kW 及以上。具体而言,只有 4 个节点的 H100 机架需要 44kW。这与传统数据中心每个传统机架的行业平均水平8.6-10kW形成鲜明对比。
凭借现代数据中心内如此强大的计算能力,随着芯片密度和散热输出持续呈指数级攀升,现代GPU处理器产生的热负荷不断增加,传统的空气冷却方法正在遇到性能障碍。
由于电力决定了人工智能基础设施设计的一切,Penguin Solutions在规划数据中心占地面积的物理布局时考虑到了液体冷却和液体浸入等先进的冷却技术。power dictates everything. That's why Penguin Solutions plans the physical layout design of the data center footprint with advanced cooling technologies such as liquid cooling and liquid immersion in mind.
这种数据中心冷却方法通过将冷却剂泵送到直接收缩组件的冷板来直接冷却服务器。
服务器浸泡在不导电的单相冷却液中,例如机油、碳氟化合物或合成酯,这些冷却液会吸收热量。
服务器浸泡在介电流体浴中,该介电流体会沸腾以去除热量。
多年的经验
GPU 已部署和管理
GPU 运行时间
随着计算密集型工作负载功耗的增加以及 AI 模型的训练和调整要求的增加,使用传统的冷却方法无法可持续地冷却系统。
了解 Penguin Solutions 如何与 AMD 和壳牌合作,通过实施浸入式系统,在壳牌休斯敦数据中心提高性能,降低排放。
AI 基础设施使用先进的系统进行冷却,例如直接到芯片的液体冷却、单相或两相浸入式冷却、高效空气冷却或这些冷却策略的混合组合。
AI 和 HPC 中心最受益于直接到芯片的液体冷却、后门热交换器以及单相或两相浸入式冷却,以可持续地应对不断增加的热负荷和机架密度。
冷却系统通过空气处理器、冷冻水系统、直接泵送到冷板的液体或将服务器浸入介电流体中来排出 IT 设备的热量。浸入式和直流法可消除机载服务器风扇并减少基础设施开销,从而高效管理高功率 CPU/GPU 环境。
AI 数据中心将节能硬件、智能机架级布局规划、可再生能源使用以及浸泡和直接液体解决方案等冷却系统相结合。这种集成设计最大限度地降低了能耗,支持高密度机架,改善了碳足迹并降低了 PUE,同时保持了性能。improves carbon footprint, and lowers power usage effectiveness (PUE) while maintaining performance.
关键考虑因素包括计算密度(每机架千瓦)、热负荷、设施布局、能源成本、碳减排等环境影响以及持续的可扩展性。冷却策略应与可持续发展目标和运营复杂性保持一致。
立即联系我们,详细了解我们如何帮助您完成AI和HPC数据中心布局,包括您的电力和冷却需求,同时实现您的可持续发展目标。