AI 和 HPC 数据中心
容错解决方案
集成内存

内存是人工智能 (AI) 部署中的一个根本性限制,尤其对于企业级AI推理而言。通过企业级内存扩展和池化技术,克服这一挑战,获得前所未有的性能、可扩展性和成本效益。
处理器与内存之间日益扩大的性能差距——即所谓的“内存墙”——对内存密集型应用构成了严峻挑战。与间歇性且计算密集型的AI模型训练不同,AI推理是实时、面向用户且依赖内存的。当内存不足的图形处理单元(GPU)难以生成令牌并因等待数据而闲置时,性能就会下降。
在 GPU 和内存之间(或跨多个 GPU)移动数据所花费的时间可能会成为一个重要的瓶颈,从而减慢训练时间。
即使使用经过训练的模型进行推理,内存墙也可能导致延迟增加,因为模型需要访问内存中的数据才能做出预测。
如果内存系统无法满足推理请求的需求,则可以降低 AI 系统的总体吞吐量。
由于内存限制,需要更多的硬件和复杂的基础架构,扩展 AI 模型以服务大量用户可能很困难。

AI推理需要能够处理连续工作负载、低延迟和高并发的计算基础设施,同时还要控制成本。训练大型AI模型需要超高速内存带宽,而这往往跟不上日益增长的计算处理需求。
鉴于处理器执行指令的速度快于内存提供所需数据的速度,Penguin Solutions 开发了采用 CXL® 协议的技术,为新兴工作负载带来了突破性的AI性能,解决了内存相关的瓶颈,同时支持数据中心加速器和其他高速增强功能的开放生态系统。
CXL 是一种行业开放标准协议,它重新定义了服务器管理内存和计算资源的方式。通过在 GPU 或中央处理器 (CPU) 与内存之间实现高速、低延迟连接,CXL 消除了传统数据处理瓶颈,为 AI 推理、智能体 AI 以及其他由 AI 驱动的新兴应用等数据密集型工作负载,开启了更低成本的可扩展性和计算性能的新篇章。
速度和准确性是竞争优势的驱动力。对于需要更快获得竞争洞察力的组织而言,支持 CXL 的内存解决方案可带来颠覆性的容量优势:
• 更快的数据处理:以最小延迟实时分析海量数据集。
• 提高基础设施效率:优化资源利用率,降低运营成本。
• 可扩展、面向未来的解决方案:内存可无缝扩展,以满足不断变化的数据需求,无需昂贵的基础设施改造。
随着 AI、高性能计算 (HPC) 和机器学习 (ML) 需要大量高速内存,超出了传统服务器的容量,通过基于传统双列直插式内存模块 (DIMM) 的并行总线接口增加系统内存的尝试,由于 CPU 上的引脚限制而变得困难重重。
基于 CXL 的解决方案引脚效率更高,这意味着有更多可能性来增加内存。我们的 4-DIMM 和 8-DIMM 附加卡 (AIC) 利用这项技术,配备先进的 CXL 控制器,消除了计算密集型 AI、HPC 和 ML 工作负载的内存带宽瓶颈和容量限制。
Penguin Solutions 的 MemoryAI KV Cache Server 是业界首款可投入生产的键值 (KV) 缓存服务器,它利用 CXL 内存提供大容量内存,并支持大规模高性能 AI 推理。
MemoryAI服务器利用Penguin Solutions的高密度DIMM型CXL AIC,实现了无缝内存扩展。这种扩展能力对于依赖KV缓存技术以实现高并发和低延迟推理的大型模型和长上下文至关重要。MemoryAI可在GPU节点间无缝共享内存,并存储预计算的键和值,从而在生成令牌时加速提示前缀。
立即联系Penguin Solutions,了解更多关于我们的CXL服务器产品,并探讨我们如何能帮助您经济高效地突破内存瓶颈,释放您的AI潜力,并更快地将数据转化为可操作的洞察。
AI内存墙是指当GPU和/或CPU及加速器的处理速度超过可用内存带宽和容量时出现的性能瓶颈。此瓶颈限制了AI模型高效训练和部署的规模和复杂性。
扩展AI内存墙涉及提高内存和处理器之间的数据传输效率,以降低延迟并消除AI推理和AI模型训练等计算密集型任务的瓶颈。
由于AI训练和推理涉及处理海量数据集,内存访问延迟会限制吞吐量并降低性能,尤其是对于大规模深度学习模型。
随着AI模型规模和复杂性的增长,采用CXL技术等可扩展内存解决方案的策略将至关重要,以保持训练和推理时间可控且具有成本效益。
CXL通过使用CXL连接的内存来增加内存容量和带宽,从而解决了内存墙问题。这种方法使处理器能够以超过其处理速度限制的速度访问数据,通过利用高速PCIe互连,提供对共享内存池的一致、低延迟访问。
Penguin Solutions通过提供MemoryAI KV缓存服务器和基于CXL的内存扩展技术,应对AI“内存墙”挑战——即处理器速度超过内存容量和带宽的问题。这些技术为大规模AI推理工作负载提供了可扩展、低延迟且经济高效的内存解决方案,通过先进的CXL附加卡和内存池技术,提高了吞吐量、降低了延迟并支持了高并发性。

立即联系我们,详细了解我们如何帮助您最大限度地提高内存扩展和池化能力,同时降低内存容量扩展成本。