人工智慧與高效能運算資料中心
容錯解決方案
整合式記憶體

記憶體是人工智慧 (AI) 部署中的一項根本性限制,尤其對於企業級AI推論而言。透過企業級記憶體擴展和池化技術,克服這項挑戰,並獲得前所未有的效能、可擴展性和成本效益。
處理器與記憶體之間日益擴大的效能差距,即所謂的「記憶體牆」,對記憶體密集型應用程式來說是一項重大挑戰。與階段性且運算密集的 AI 模型訓練不同,AI 推論是即時、面向使用者且依賴記憶體的。當記憶體不足的圖形處理單元 (GPU) 難以產生 token 並在等待資料時閒置,效能就會降低。
在 GPU 與記憶體之間(或跨多個 GPU)傳輸資料所需的時間,可能會造成嚴重的瓶頸,進而延長訓練時間。
對於使用已訓練模型的 AI 推論,記憶體牆會增加延遲,因為 AI 模型需要從記憶體存取資料來進行預測。
如果記憶體系統無法跟上推論請求的處理需求,AI 系統的整體吞吐量將會下降。
將 AI 模型擴展以服務大量使用者時,可能會遇到記憶體限制,需要更多硬體和複雜的基礎設施來解決。

AI 推論需要能處理持續性工作負載、低延遲和高併發的運算基礎設施,同時還要控制成本。訓練大型 AI 模型則需要超高速記憶體頻寬,但現有頻寬已無法跟上日益增長的運算處理需求。
由於處理器執行指令的速度已超越記憶體提供所需資料的速度,Penguin Solutions 開發了採用 Compute Express Link® (CXL) 協定的技術,此技術為新興工作負載帶來突破性的AI效能,並解決了記憶體相關瓶頸,同時支援資料中心加速器及其他高速增強功能的開放生態系統。
CXL 是一種業界開放標準協定,它重新定義了伺服器管理記憶體和運算資源的方式。透過實現 GPU 或中央處理器 (CPU) 與記憶體之間的高速、低延遲連接,CXL 消除了傳統資料處理瓶頸,並為 AI 推論、代理式 AI 以及其他由 AI 驅動的新興應用等資料密集型工作負載,開啟了更低成本的擴展性和運算效能新境界。
速度和準確性是競爭優勢的驅動力。對於需要更快獲得競爭洞察力的組織而言,支援 CXL 的記憶體解決方案可帶來顛覆性的容量優勢:
• 更快的資料處理:以最小延遲即時分析海量資料。
• :優化資源利用率並降低營運成本。
• 可擴展、面向未來的解決方案:記憶體可無縫擴展,以滿足不斷變化的資料需求,無需昂貴的基礎設施改造。
隨著 AI、高效能運算 (HPC) 和機器學習 (ML) 需要大量高速記憶體,且其需求已超出傳統伺服器所能容納的範圍,透過傳統雙列直插式記憶體模組 (DIMM) 的平行匯流排介面來增加系統記憶體的嘗試,由於 CPU 的針腳限制而變得困難重重。
採用 CXL 的解決方案具有更高的針腳效率,這意味著有更多增加記憶體的可能性。我們的 4-DIMM 和 8-DIMM 附加卡 (AIC) 利用這項技術,搭配先進的 CXL 控制器,消除了運算密集型 AI、HPC 和 ML 工作負載的記憶體頻寬瓶頸和容量限制。
Penguin Solutions 的 MemoryAI KV 快取伺服器 是業界首款可投入生產的鍵值 (KV) 快取伺服器,它利用 CXL 記憶體提供大容量記憶體,並支援大規模高效能 AI 推論。
MemoryAI 伺服器利用 Penguin Solutions 的高密度 DIMM 型 CXL AIC,實現了無縫記憶體擴展。這種擴展能力對於依賴 KV 快取技術來實現高併發和低延遲推論的大型模型和長上下文至關重要。MemoryAI 可在 GPU 節點之間無縫共享記憶體,並儲存預先計算的鍵值,從而在生成 token 時加速提示詞前綴。
立即聯繫 Penguin Solutions,以了解更多關於我們的 CXL 伺服器產品,並探索我們如何能協助您以經濟實惠的方式突破記憶體瓶頸、釋放您的 AI 潛力,並更快地將資料轉化為可行的洞察。
AI 記憶體牆是指當 GPU 和/或 CPU 以及加速器的處理速度超越了可用的記憶體頻寬和容量時所產生的效能瓶頸。這個瓶頸限制了 AI 模型能夠有效率地訓練和部署的規模與複雜度。
擴展 AI 記憶體牆涉及提高記憶體與處理器之間資料傳輸的效率,以降低延遲並消除 AI 推論和 AI 模型訓練等運算密集型任務的瓶頸。
由於 AI 訓練和推論涉及處理大量資料集,記憶體存取延遲會限制吞吐量並降低效能,特別是對於大規模的深度學習模型而言。
隨著 AI 模型規模和複雜度的增長,實施可擴展記憶體解決方案(例如 CXL 技術)的策略將對於維持訓練和推論時間的可管理性及成本效益至關重要。
CXL 透過使用 CXL 附加記憶體來增加記憶體容量和頻寬,從而解決記憶體牆問題。這種方法讓處理器能夠以比其處理速度限制更快的速度存取資料,透過利用高速 PCIe 互連,提供對共享記憶體池的一致性、低延遲存取。
Penguin Solutions 透過提供 MemoryAI KV 快取伺服器和基於 CXL 的記憶體擴展技術,應對 AI「記憶體牆」的挑戰——即處理器速度超越記憶體容量和頻寬的問題。這些技術為大規模 AI 推論工作負載提供可擴展、低延遲且具成本效益的記憶體解決方案,透過先進的 CXL 附加卡和記憶體池化技術,提高吞吐量、降低延遲並支援高併發性。

立即聯繫我們,了解我們如何運用 CXL 技術,以更低的成本擴展記憶體容量,協助您充分發揮記憶體擴充與池化能力。