AI 和 HPC 数据中心
容错解决方案
集成内存

实施私有 AI 需要对数据中心基础设施进行重大设计更改,包括 GPU 冷却和电源管理,这需要专门的资源和技能。
GPU 设计人员突破了芯片的物理限制,提出了前所未有的核心密度要求,突破了 AI 规模和性能的极限。结果是数据中心以前从未见过的巨大功耗和热量产生。
包括人工智能 (AI)、机器学习 (ML) 和物联网 (IoT) 在内的数据密集型技术的使用正在刺激服务器空间的指数级增长,对现代数据中心提出了越来越大的电力和散热需求。
为了为AI Infrastructure的未来需求做准备,各公司正在实施一些技术,使他们能够引入更高的机架密度和更高性能的GPU,从而最大限度地提高数据中心性能,同时帮助他们履行资源可持续性承诺并最大限度地减少其设施对环境的影响。
具体策略包括采用可再生能源和实施节能基础设施,例如创新的冷却系统,包括直接芯片、液体冷却和浸入式冷却系统,从而降低能源成本并支持您的可持续发展目标。

AI 建模需要快速提升的 GPU 机架密度,每个机架的功耗要求高达 50kW 甚至更高。例如,一个仅有四个节点的 H100 机架就需要 44kW 的功耗,这与传统数据中心每个传统机架 8.6-10kW 的行业平均水平形成鲜明对比。
AI 数据中心巨大的计算能力远远超出了传统风冷方法的性能极限。随着芯片密度和热输出呈指数级增长,GPU 处理器产生的热负荷也随之增加,导致能源使用效率低下、碳排放量更高,以及需要更大占地面积来散热的数据中心。这些设施内的热点进一步加剧了这种情况,导致散热效率低下和性能瓶颈。
在 AI 基础设施设计中,供电决定一切。 这就是 Penguin Solutions 在规划数据中心物理布局设计时,会考虑液冷和液体浸没等先进冷却技术的原因。
这种冷却方法通过将冷却液泵入与芯片直接接触的吸热冷板或散热器,从而直接冷却服务器。
采用这种方法,服务器浸没在非导电的单相冷却液中,例如油、氟碳化合物或合成酯,这些冷却液能够吸收热量。
这种两步式过程利用蒸发和冷凝循环,将服务器浸没在特殊的介电液体浴中,液体沸腾后散发热量。
多年的经验
GPU 已部署和管理
GPU 运行时间
随着计算密集型工作负载功耗的增加以及 AI 模型的训练和调整要求的增加,使用传统的冷却方法无法可持续地冷却系统。
了解 Penguin Solutions 如何与 AMD 和壳牌合作,通过实施浸入式系统,在壳牌休斯敦数据中心提高性能,降低排放。

AI 基础设施使用先进的系统进行冷却,例如直接到芯片的液体冷却、单相或两相浸入式冷却、高效空气冷却或这些冷却策略的混合组合。
AI 和 HPC 中心最受益于直接到芯片的液体冷却、后门热交换器以及单相或两相浸入式冷却,以可持续地应对不断增加的热负荷和机架密度。
冷却系统通过空气处理器、冷冻水系统、直接泵送到冷板的液体或将服务器浸入介电流体中来排出 IT 设备的热量。浸入式和直流法可消除机载服务器风扇并减少基础设施开销,从而高效管理高功率 CPU/GPU 环境。
AI 数据中心将节能硬件、智能机架级布局规划、可再生能源使用以及浸泡和直接液体解决方案等冷却系统相结合。这种集成设计最大限度地降低了能耗,支持高密度机架,改善了碳足迹并降低了 PUE,同时保持了性能。improves carbon footprint, and lowers power usage effectiveness (PUE) while maintaining performance.
关键考虑因素包括计算密度(每机架千瓦)、热负荷、设施布局、能源成本、碳减排等环境影响以及持续的可扩展性。冷却策略应与可持续发展目标和运营复杂性保持一致。

立即联系我们,详细了解我们如何帮助您完成AI和HPC数据中心布局,包括您的电力和冷却需求,同时实现您的可持续发展目标。