Centros de datos de IA y HPC
Soluciones tolerantes a fallos
Memoria integrada
Acelere sus aplicaciones de IA y escale de manera eficiente con los grandes dispositivos de servidor de memoria de Penguin Solutions.
El rendimiento del sistema de IA para la inferencia está fundamentalmente limitado por la memoria.
A medida que aumenta la complejidad de los modelos de IA y las organizaciones implementan inferencias a escala empresarial, los clústeres se enfrentan al «muro de la memoria»: las limitaciones actuales en la capacidad de la memoria y el ancho de banda, que limitan el rendimiento de la GPU y aumentan drásticamente la latencia.
Penguin Solutions aprovecha 30 años de experiencia en memoria avanzada para resolver este problema con innovadores servidores de memoria basados en CXL que permiten grandes conjuntos de memoria de sistema compartida. Esta desagregación libera a las GPU de las limitaciones de memoria actuales para ofrecer a cada nodo lo que necesita, cuando lo necesita, y proporciona una nueva flexibilidad y eficiencia a las arquitecturas de clústeres.
Al implementar una memoria abundante y de alto rendimiento, puede maximizar las inversiones actuales en GPU y escalar de manera eficiente la nueva infraestructura de IA para obtener inferencias de producción a escala empresarial.
La memoria desagregada es accesible para todos los nodos, lo que permite un uso eficiente de los recursos y admite cargas de trabajo de IA que consumen mucha memoria.
Ofrece un rendimiento uniforme y de baja latencia para cumplir con los exigentes requisitos de inferencia de IA en tiempo real.
Maximice el rendimiento y la escalabilidad con una arquitectura de memoria equilibrada y una reducción de los cuellos de botella informáticos.
El servidor de caché MemoryAI KV de Penguin Solutions (Altus® XE4318GT-KVC), pendiente de patente, es el primer servidor de caché KV del sector que aprovecha la memoria CXL para ofrecer un dispositivo de memoria de alta capacidad diseñado específicamente para abordar la pared de memoria y admitir inferencias de alto rendimiento a escala.
El servidor de caché MemoryAI KV funciona almacenando y reutilizando pares clave/valor (KV) calculados, lo que descarga la caché KV de la memoria de la GPU. Esta solución elimina las restricciones de memoria, reduce el tiempo de obtención del primer token (TTFT) y aborda los desafíos de recálculo, lo que permite un rendimiento superior para las exigentes cargas de trabajo de inferencia de IA.
Diseñado para ampliar la RAM local accesible para las GPU, alivia los cuellos de botella de memoria y permite a las organizaciones aprovechar al máximo las inversiones en GPU existentes o diseñar clústeres optimizados para una inferencia de alto rendimiento.
A medida que aumentan los modelos, las ventanas de contexto y las demandas de simultaneidad, el servidor de caché KV es esencial para las empresas que buscan cumplir con las estrictas expectativas de latencia y rendimiento en entornos impulsados por la IA.
Descargue la memoria caché KV en un servidor dedicado basado en CXL de alta capacidad, lo que eliminará los cuellos de botella en la memoria de inferencia de IA.
Reduzca significativamente la latencia y aumente el rendimiento con la reutilización inteligente de la caché KV.
Implemente con hasta 11 TB de memoria total, incluidos los impresionantes 8 TB de memoria DDR5 CXL avanzada.
Evite el tiempo de inactividad de la computación.

Póngase en contacto hoy mismo y obtenga más información sobre cómo lo ayudamos a alcanzar los objetivos de su proyecto de infraestructura de IA y HPC. Nuestro equipo diseña, construye, implementa y administra soluciones empresariales de alto rendimiento y alta disponibilidad, lo que permite a los clientes lograr sus innovaciones revolucionarias.