人工智慧與高效能運算資料中心
容錯解決方案
整合式記憶體
使用 Penguin Solutions 的大型記憶體伺服器設備,加速您的 AI 應用程式並有效率地擴充。
推論的 AI 系統效能基本上受到記憶體限制。
隨著 AI 模型的複雜性增加,並且組織部署企業規模推論,叢集面臨「記憶體牆」— 目前記憶體容量和頻寬的限制,這會限制 GPU 效能並大幅增加延遲。
Penguin Solutions 利用 30 年的進階記憶體經驗,利用突破性的 CXL 記憶體伺服器來解決這個問題,這些伺服器可提供大量共用系統記憶體集區。這種分類可將 GPU 免除目前的記憶體限制,讓每個節點在需要時提供所需的內容,並為叢集架構提供全新的彈性和效率。
透過部署豐富的高效能記憶體,您可以最大限度地發揮現有的 GPU 投資,並有效率地擴充新的 AI 基礎架構,以實現企業規模的生產推論。
所有節點都可以存取分類記憶體,從而實現高效率的資源利用,並支援密集記憶體的 AI 工作負載。
提供一致的低延遲效能,以支援嚴苛的即時 AI 推論需求。
透過平衡的記憶體架構,並減少運算瓶頸,最大限度地提高輸送量和擴充能力。
Penguin Solutions 正在申請專利的記憶體 YAI KV 快取伺服器 (Altus® XE4318GT-KVC) 是業界首款 KV 快取伺服器,利用 CXL 記憶體來提供專門針對記憶體牆並支援大規模高效能推論的高容量記憶體設備。
記憶體 YAI KV 快取伺服器可透過儲存和重複使用計算的金鑰/值 (KV) 對來運作,從 GPU 記憶體卸載 KV 快取。此解決方案可消除記憶體限制、縮短第一個令牌 (TTFT) 的時間,並解決重新計算挑戰,從而為嚴苛的 AI 推論工作負載提供卓越的效能。
它旨在擴充 GPU 可存取的本機 RAM,減輕記憶體瓶頸,並允許組織充分利用現有的 GPU 投資,或設計針對高輸送量推論最佳化的叢集。
隨著模型、前後關聯視窗和並行需求的增長,KV 快取伺服器對於希望在 AI 驅動環境中滿足嚴格的延遲和效能期望的企業至關重要。
將 KV 快取卸載到專用的高容量 CXL 型伺服器,消除 AI 推論記憶體瓶頸。
透過智慧型 KV 快取重複使用,大幅降低延遲並提高輸送量。
部署最高可達 11 TB 的總記憶體,包括令人印象深刻的 8 TB 進階 DDR5 CXL 記憶體。
防止計算閒置時間。

立即與我們聯繫,了解更多我們如何協助您實現 AI 和 HPC 基礎設施專案目標。我們的團隊設計、建置、部署和管理高效能、高可用性的企業解決方案,使客戶能夠實現突破性的創新。