AI 和 HPC 数据中心
容错解决方案
集成内存
使用 Penguin Solutions 的大内存服务器设备加速您的 AI 应用并高效扩展。
用于推理的 AI 系统性能从根本上受内存的限制。
随着 AI 模型复杂性的增加以及组织部署企业级推理,集群面临 “内存墙”,即当前内存容量和带宽的限制,这限制了 GPU 性能并大大增加了延迟。
Penguin Solutions利用30年的高级内存经验,通过基于CXL的突破性内存服务器来解决这个问题,该服务器支持大型共享系统内存池。这种分解使 GPU 摆脱了当前的内存限制,可以在需要时为每个节点提供所需的内容,并为集群架构提供了新的灵活性和效率。
通过部署充足的高性能内存,您可以最大限度地利用现有 GPU 投资,并高效地扩展新的 AI 基础架构,用于企业规模的生产推理。
所有节点均可访问分解内存,从而实现高效的资源利用并支持内存密集型 AI 工作负载。
提供稳定的低延迟性能,以支持苛刻的实时 AI 推理需求。
通过平衡的内存架构和减少计算瓶颈,最大限度地提高吞吐量和可扩展性。
Penguin Solutions正在申请专利的MemoryAI KV缓存服务器(Altus® XE4318GT-KVC)是业界首款利用CXL内存提供高容量存储器设备的KV缓存服务器,专为解决内存墙问题和支持大规模高性能推理而设计。
MemoryAI KV 缓存服务器的工作原理是存储和重复使用计算出的键/值 (KV) 对,从 GPU 内存中卸下 KV 缓存。该解决方案消除了内存限制,缩短了首次获得令牌的时间 (TTFT),并解决了重新计算的挑战,从而为要求苛刻的 AI 推理工作负载提供了卓越的性能。
它旨在扩展 GPU 可访问的本地 RAM,缓解了内存瓶颈,使组织能够充分利用现有 GPU 投资或设计针对高吞吐量推理进行了优化的集群。
随着模型、上下文窗口和并发需求的增长,KV 缓存服务器对于希望在人工智能驱动的环境中满足严格的延迟和性能预期的企业至关重要。
将 KV 缓存卸载到基于 CXL 的高容量专用服务器,从而消除 AI 推理内存瓶颈。
通过智能 KV 缓存重用显著减少延迟并提高吞吐量。
使用高达 11 TB 的总内存进行部署,包括令人印象深刻的 8 TB 高级 DDR5 CXL 内存。
防止计算空闲时间。

立即联系我们,详细了解我们如何帮助您实现 AI 和 HPC 基础设施项目目标。我们的团队设计、构建、部署和管理高性能、高可用性的企业解决方案,使客户能够实现突破性创新。