人工智慧與高效能運算資料中心
容錯解決方案
整合式記憶體
實施 AI 需要對資料中心基礎架構進行重大的設計變更,包括 GPU 冷卻需求和電源管理,這些需要專業解決方案
圖形處理單元 (GPU) 設計師通過以前未見過的核心密度要求來推動矽的物理限制,這對人工智能 (AI) 規模和效能至關重要。結果是在資料中心以前未見的水平的高耗電量和熱量產生。
使用人工智慧、高效能運算 (HPC)、機器學習 (ML) 和物聯網 (IoT) 等資料密集技術正在促進指數式伺服器空間增長,從而對當今資料中心產生更大的電力和熱需求。
為了為他們的 AI 基礎架構奠定基礎,公司正在實施支援更高機架密度和更高效能 GPU 的技術,從而最大限度地提高資料中心效能,同時維持可持續發展承諾、降低資源需求,並最大限度地減少資料中心營運對環境的影響。
通過採用可再生能源和實施節能基礎設施,例如創新的直接到芯片、液體冷卻和浸入式冷卻系統,這些組織正在降低能源成本並推進其可持續發展目標。
AI 建模需要快速提高 GPU 機架密度,並且每個機架的電源需求提高達 50kW 或更高。例如,一個只有四個節點的 H100 機架需要 44kW,這與傳統資料中心的每個傳統機架的 8.6-10kW 行業平均值顯著對比。
人工智慧資料中心的巨大計算能力遠超過傳統空氣冷卻方法的效能能力。隨著晶片密度和熱輸出以指數上升,GPU 處理器產生的熱負載也會增加,導致能源使用效率低、碳排放量更高,以及散熱的資料中心足跡龐大。這些設施內的熱點會加劇情況,導致熱效率不足和性能瓶頸。
在 AI 基礎架構設計方面, 力量決定了一切。 這就是為什麼企鵝解決方案規劃實體佈局的原因 資料中心外形設計 考慮到液體冷卻和液體浸入等先進的冷卻技術。
此冷卻方法通過與芯片直接接觸的吸收冷板或散熱片泵浦冷卻液來直接冷卻伺服器。
使用這種方法,伺服器將浸入非導電單相冷卻液中,例如油、氟碳或可吸熱的合成酯。
這種兩步驟過程利用蒸發和冷凝循環,將伺服器浸入專用介電流體的浴缸中,然後沸騰以散熱。
多年經驗
已部署與管理的 GPU
GPU 執行時數
隨著運算密集的工作負載功耗,以及 AI 模型的訓練和調整需求繼續迅速增長,傳統的冷卻方法越來越無法以永續地冷卻系統。
探索企鵝解決方案如何透過與 AMD 和 Shell 合作實作潛水準備的系統來提升 Shell 休斯頓資料中心的效能和降低排放量。
AI 基礎架構使用先進的系統進行冷卻,例如直接對晶片液體冷卻、單相或雙相浸式冷卻、高效率空氣冷卻或這些冷卻策略的混合組合。
AI 和 HPC 中心最受益於直接晶片式液體冷卻、後門熱交換器以及單相或雙相浸式冷卻,以可持續地處理升級的熱負載和機架密度。
冷卻系統透過空氣處理器、冷卻水系統、直接泵送到冷板上的液體,或將伺服器浸入介電流體中,從 IT 設備中排除熱量。沉浸式和直接液體方法可消除內建伺服器風扇,並降低基礎架構負擔,有效地管理高功率的 CPU/GPU 環境。
AI 資料中心結合了節能硬體、智慧型機架級佈局規劃、可再生能源使用以及冷卻系統,例如浸入式液體解決方案和直接液體解決方案。這種整合式設計可將能源消耗降到最低,支援高密度機架, 改善碳足跡,降低耗電效率 (PUE)同時保持性能。
主要考慮因素包括運算密度 (每個機架 kW)、熱負載、設施佈局、能源成本、減碳等環境影響以及持續擴充性。冷卻策略應與可持續發展目標和操作複雜性一致。
立即與我們聯繫,了解我們如何協助您滿足 AI 和 HPC 資料中心佈局的電源和冷卻需求,同時實現組織的可持續發展目標。