人工智慧與高效能運算資料中心
容錯解決方案
整合式記憶體
可持續發展已成為企業的首要任務,企業數據中心和 IT 系統是關鍵的重點領域,鑑於 大量資源消耗 參與供電和冷卻越來越耗能的處理環境。
隨著組織邁向更快、更強大的運算環境,更新的處理器、GPU 和固態儲存裝置都需要比其技術前代更大的功率來運行。在某些情況下,這些大型數據中心的電源需求可能與小城市相匹敵,這正在推動各種規模的組織尋求可以抵消消費增長的替代方案。
雖然某些組織正在追求自己的資料中心效率和可持續發展計畫,但許多組織正在將工作負載轉移到雲端,以簡化其 IT 管理環境,同時降低與運算使用相關的碳足跡。
認為裝滿數千個機架電腦伺服器的主要公有雲數據中心可能是一個更具節能的選擇,但事實是主要雲端供應商在衡量、評估和降低運營其大型資料中心的電力相關成本的「黑腰」,以作為營運效率/獲利性以及可持續性的原因。
雲端供應商的一個明顯的步驟是盡可能利用盡可能多的綠色或可再生能源來源,而他們絕對正在追求這一道路。總體而言,主要的公有雲提供商是世界上最大的可再生能源消費者之一。然而,這些 IT 巨人不僅僅僅僅利用可持續能源,而是越來越重視減少耗電量的原始量,以積極影響結果。
專注於能源效率,引發了對稱為電源使用效率 (PUE) 相關的功率指標新興趣,該指標長期以來一直與一些最大運算資源使用者(例如美國能源部)執行的高效能運算 (HPC) 工作負載相關聯。
PUE 通過測量進入數據中心的原始電量,並將其分為用於運行其中 IT 設備的功率來衡量數據中心的能源效率。一個完美高效的資料中心的 PUE 為 1.0,表示進入資料中心的 100% 電源是用於為所需設備供電,而不會浪費。
實際上,PUE 計算需要考慮用於冷卻和功率轉換的功率。他們還需要將所做的測量結果顯示為全年平均值,其中包括冷卻需求將提高運營的電源需求的炎熱的夏季月份。
主要雲端供應商繼續進行重大投資來降低其 PUE。Google 最大的公有雲資料中心環境平均比典型企業資料中心的能源效率高 1.5 倍以上,而其他公有雲供應商正在取得類似的成果。
正如汽車賽車團隊在空氣動力學方面持續發現小幅效率增益來贏得比賽一樣,雲端運營者通過實施營運創新,例如在華氏 80 度運行數據中心、使用外部空氣進行冷卻,以及設計自己的超高效伺服器來降低能源使用率。
事實上,大型公有雲運營商創新和投資的結果已被研究、測量和發布。一 2020 年在科學雜誌上發表的論文 顯示,雖然主要雲端資料中心的運算量在 2010 年至 2018 年間增加了約 550%,但在同期間,這些資料中心所消耗的能源量僅增長 6%。
研究的作者指出,這些能源效益增長遠超過經濟其他主要部門的所有內容。
透過為 IT 組織提供智慧控制平面,讓管理員能夠精確設定、調整、啟動和停止雲端架構組態,以精確滿足使用者工作負載的需求,可以擴大降低雲端電源使用率。
例如,傳統的企業資料中心具有固定的伺服器和資源組態,這些伺服器和資源通常在「永遠開啟」組態下執行,無論目前的使用設定檔和需要使用中工作負載為何。這在相對高水平上推動一致的耗電量,從 PUE 和可持續發展的角度來看不是最佳的。
相比之下,軟體控制的雲端環境可能會提供 20 種不同的運算執行個體組態的目錄,這些組態可以動態指派給特定使用者工作,並且可根據需要快速開啟和關閉。
這種更動態的能力,能夠精確地為指定工作負載提供所需處理能量的節點類型(並僅在需要時使用這些伺服器/執行個體),可以在特定應用程式的基礎上提供與雲端供應商在其 PUE 計畫中執行相同的使用量最佳化類型。
雲端中的結果是,一組運算資源可以在多個使用者群組,甚至多個公司的使用者群組之間動態分配和重新分配,以完全安全的方式,並且最大限度地利用環境。
這對於運算密集型工作負載 (例如 AI 和 HPC) 特別有用,其中不同的應用程式可透過使用特定處理器和伺服器組態來實現顯著效能加速。
雖然用於工作負載管理的進階軟體控制平面是雲端執行的關鍵組成部分,但混合雲環境的使用趨勢日益增加,讓 IT 組織能夠利用其內部部署資料中心環境中的最佳元素,以與公有雲無縫結合。
在這些情況下,基於軟體的控制平面環境可以讓 IT 管理員根據目前的活動和系統需求,將工作負載定位於「最適合」的位置。例如,工作負載可能會在大部分時間執行內部部署,但在使用量非常高的期間,可以在雲端中每月或每季度「爆炸」,以便在雲端中更大的資源集執行。
同樣地,需要存取最新 GPU 資源的某些高效能運算和 AI 工作負載,也可能會在雲端執行,而最新處理器技術可以按用量付費方式更容易獲得。這一切都是關於選擇。
毫無疑問,主要雲端供應商正在取得資料中心營運效率的路徑上領先地位,而他們的進步對於在雲端執行工作負載的客戶,以及可以利用不斷演進的工具和技術組合的 IT 團隊和託管設施運營商受益。
最先進的企業會使用智慧控制平面軟體找到方法,在正確的時間在正確的位置執行工作負載,從而為其組織帶來最大的利益,並為可持續的未來帶來最大程度。
企鵝解決方案可以成為您值得信賴的 AI 和 HPC 解決方案的戰略合作夥伴。我們擁有超過 25 年的 HPC 經驗和 7 年以上的 AI 基礎架構設計和部署,並自 2017 年以來已部署和管理超過 85,000 個 GPU,我們隨時準備提供協助。
聯絡 AI 基礎架構專家 今天在企鵝解決方案討論您的 AI 項目需求。
Vice President, Global Marketing
Mark has deep technical knowledge and extensive leadership experience in the design and implementation of complex enterprise infrastructure for cloud computing, AI, big data storage, HPC, and business process management.
在 Penguin,我們的團隊設計、構建、部署和管理高效能、高可用性的 HPC 和 AI 企業解決方案,使客戶能夠實現突破性的創新。
立即聯繫,讓我們討論您的基礎架構解決方案專案需求。