AI 및 HPC 데이터센터
내결함성 솔루션
통합 메모리

메모리는 인공지능(AI) 배포, 특히 엔터프라이즈 규모의 AI 추론에서 근본적인 한계입니다. 엔터프라이즈 메모리 확장 및 풀링 기술을 통해 이러한 과제를 극복하고 전례 없는 성능, 확장성, 비용 효율성을 확보하세요.
프로세서와 메모리 간의 점점 벌어지는 성능 격차, 즉 "메모리 월(memory wall)"은 메모리 집약적인 애플리케이션에 중대한 과제입니다. 에피소드적이고 컴퓨팅 집약적인 AI 모델 학습과 달리, AI 추론은 실시간으로 사용자에게 직접 제공되며 메모리에 의존적입니다. 메모리 부족에 시달리는 GPU(그래픽 처리 장치)가 토큰 생성에 어려움을 겪고 데이터를 기다리는 동안 유휴 상태가 되면 성능은 저하됩니다.
GPU와 메모리 간 (또는 여러 GPU 간) 데이터를 이동하는 데 걸리는 시간이 심각한 병목 현상이 되어 학습 시간이 느려질 수 있습니다.
학습된 모델을 사용한 추론의 경우에도 모델이 예측을 위해 메모리의 데이터에 액세스해야 하기 때문에 메모리 벽으로 인해 지연 시간이 길어질 수 있습니다.
메모리 시스템이 추론 요청의 요구를 따라가지 못하면 AI 시스템의 전체 처리량을 줄일 수 있습니다.
많은 수의 사용자에게 서비스를 제공하도록 AI 모델을 확장하는 것은 메모리 제한으로 인해 더 많은 하드웨어와 복잡한 인프라가 필요하기 때문에 어려울 수 있습니다.

AI 추론은 지속적인 워크로드, 낮은 지연 시간, 높은 동시성을 처리하도록 설계된 컴퓨팅 인프라를 필요로 하며, 이 모든 것은 비용을 통제하면서 이루어져야 합니다. 대규모 AI 모델을 훈련하려면 증가하는 컴퓨팅 처리 수요를 따라갈 수 없는 초고속 메모리 대역폭이 필요합니다.
두 경우 모두에서 프로세서가 메모리가 필요한 데이터를 공급하는 것보다 더 빠르게 명령을 실행함에 따라, Penguin Solutions는 Compute Express Link® (CXL) 프로토콜을 채택한 기술을 개발하여 새로운 워크로드에 대한 획기적인 AI 성능을 촉진하고 데이터 센터 가속기 및 기타 고속 향상을 위한 개방형 생태계를 지원하면서 메모리 관련 병목 현상을 해결합니다.
CXL은 서버가 메모리 및 컴퓨팅 리소스를 관리하는 방식을 재정의하는 산업 개방형 표준 프로토콜입니다. GPU 또는 중앙 처리 장치(CPU)와 메모리 간의 고속, 저지연 연결을 가능하게 함으로써 CXL은 기존의 데이터 처리 병목 현상을 제거하고 AI 추론, 에이전트 AI 및 AI 기반의 기타 새로운 애플리케이션과 같은 데이터 집약적인 워크로드에 대해 더 낮은 비용의 확장성과 컴퓨팅 성능의 새로운 수준을 제공합니다.
속도와 정확성은 경쟁 우위를 이끌어냅니다. 경쟁력 있는 통찰력을 더 빠르게 필요로 하는 조직을 위해 CXL 지원 메모리 솔루션은 판도를 바꾸는 용량 이점을 제공합니다.
• 더 빠른 데이터 처리: 최소한의 지연으로 대규모 데이터 세트 실시간 분석.
• 향상된 인프라 효율성: 최적화된 리소스 활용 및 낮은 운영 비용.
• 확장 가능하고 미래 지향적인 솔루션: 비용이 많이 드는 인프라 전면 개편 없이 진화하는 데이터 요구 사항을 충족하기 위해 원활하게 확장 가능한 메모리.
AI, 고성능 컴퓨팅(HPC) 및 머신러닝(ML)이 기존 서버가 수용할 수 있는 양을 초과하는 대량의 고속 메모리를 요구함에 따라, 기존의 이중 인라인 메모리 모듈(DIMM) 기반 병렬 버스 인터페이스를 통해 더 많은 시스템 메모리를 추가하려는 시도는 CPU의 핀 제한으로 인해 문제가 됩니다.
CXL 기반 솔루션은 핀 효율성이 더 높아 메모리를 추가할 수 있는 더 많은 가능성을 의미합니다. 당사의 4-DIMM 및 8-DIMM AIC(Add-In Card)는 이 기술을 활용하여 고급 CXL 컨트롤러를 통해 컴퓨팅 집약적인 AI, HPC 및 ML 워크로드에 대한 메모리 대역폭 병목 현상 및 용량 제약을 제거합니다.
Penguin Solutions의 MemoryAI KV 캐시 서버는 CXL 메모리를 활용하여 대용량 메모리를 제공하고 대규모 고성능 AI 추론을 지원하는 업계 최초의 상용화 준비가 된 키-값(KV) 캐시 서버입니다.
Penguin Solutions의 고밀도 DIMM 기반 CXL AIC를 활용하는 MemoryAI 서버는 원활한 메모리 확장을 가능하게 합니다. 이러한 확장 능력은 높은 동시성과 낮은 지연 시간 추론을 위해 KV 캐시 기술에 의존하는 대규모 모델과 긴 컨텍스트에 필수적입니다. MemoryAI는 GPU 노드 간에 메모리를 원활하게 공유하고 미리 계산된 키와 값을 저장하여 토큰 생성 시 프롬프트 접두사를 가속화합니다.
지금 바로 Penguin Solutions에 문의하여 당사의 CXL 서버 제품에 대해 자세히 알아보고, 메모리 한계를 경제적으로 확장하고, AI 이니셔티브를 마음껏 펼치며, 데이터를 더 빠르게 실행 가능한 통찰력으로 전환하도록 돕는 방법을 알아보십시오.
AI 메모리 월은 GPU 및/또는 CPU와 가속기의 처리 속도가 사용 가능한 메모리 대역폭 및 용량을 능가할 때 발생하는 성능 병목 현상을 의미합니다. 이 병목 현상은 효율적으로 훈련 및 배포될 수 있는 AI 모델의 크기와 복잡성을 제한합니다.
AI 메모리 월을 확장하는 것은 메모리와 프로세서 간의 데이터 전송 효율성을 개선하여 AI 추론 및 AI 모델 훈련과 같은 컴퓨팅 집약적인 작업의 지연 시간을 줄이고 병목 현상을 제거하는 것을 포함합니다.
AI 훈련 및 추론은 방대한 데이터 세트 처리를 포함하므로, 메모리 접근 지연은 처리량을 제한하고 성능을 저하시킬 수 있으며, 특히 대규모 딥러닝 모델의 경우 더욱 그렇습니다.
AI 모델의 크기와 복잡성이 증가함에 따라, CXL 기술과 같은 확장 가능한 메모리 솔루션이 구현된 전략은 훈련 및 추론 시간을 관리 가능하고 비용 효율적으로 유지하는 데 필수적일 것입니다.
CXL은 CXL 연결 메모리를 사용하여 메모리 용량과 대역폭을 늘림으로써 메모리 월 문제를 해결합니다. 이 접근 방식은 프로세서가 처리 속도 제한보다 빠르게 데이터에 접근할 수 있도록 하며, 고속 PCIe 인터커넥트를 활용하여 공유 메모리 풀에 일관되고 낮은 지연 시간으로 접근을 제공합니다.
Penguin Solutions는 프로세서 속도가 메모리 용량과 대역폭을 능가하는 AI "메모리 월" 과제를 해결하기 위해 MemoryAI KV 캐시 서버와 CXL 기반 메모리 확장 기술을 제공합니다. 이 기술은 대규모 AI 추론 워크로드를 위한 확장 가능하고, 낮은 지연 시간을 가지며, 비용 효율적인 메모리 솔루션을 가능하게 하여, 고급 CXL Add-In Cards 및 메모리 풀링 기술을 통해 처리량을 개선하고, 지연 시간을 줄이며, 높은 동시성을 지원합니다.

지금 연락하셔서 저렴한 비용으로 메모리 용량을 확장하면서 메모리 확장 및 풀링 기능을 극대화하는 데 당사가 어떻게 도움을 줄 수 있는지 자세히 알아보십시오.