Penguin Solutions ClusterWareAI es un software de gestión de clústeres que permite a los administradores gestionar de forma eficiente los recursos de hardware y software y sacar el máximo partido a sus clústeres de HPC y AI/ML. Al integrar ClusterWareAI con herramientas DevOps conocidas como Ansible y Git, los administradores pueden automatizar su trabajo, lo que permite a las organizaciones maximizar su productividad en HPC y acelerar la innovación.

La "Infraestructura como Código" con ClusterWareAI permite a los administradores mantener una base de código central, por ejemplo, en Gitlab, que contenga todas las configuraciones de nodos que se están utilizando. Los repositorios de Git, que pueden alojarse en los nodos principales de ClusterWareAI, pueden utilizarse para el control de versiones de datos y flujos de trabajo, así como de código. Esto hace que la gestión de cambios sea más sencilla, auditable y fácil de rastrear.

Además, este uso de repositorios de Git permite compartir información más fácilmente de forma interna, así como con socios, contratistas externos y personal de soporte según sea necesario.

Automatización de la configuración de imágenes

ClusterWareAI utiliza el aprovisionamiento rápido basado en imágenes para crear clústeres de computación listos para usar en entornos bare-metal, virtualizados o en contenedores. Para algunos clústeres, todo el software posible necesario para un nodo puede estar contenido dentro de su imagen. ClusterWareAI puede aprovisionar clústeres heterogéneos, por lo que se pueden crear y distribuir múltiples imágenes basándose en atributos de hardware o software.

Por ejemplo, los nodos GPU pueden recibir una imagen diferente a la de los nodos solo CPU. Sin embargo, a medida que los clústeres aumentan de tamaño, o a medida que más subconjuntos de nodos necesitan ser aprovisionados de manera diferente, los cambios en las imágenes pueden ser difíciles de rastrear.

Como alternativa, los administradores pueden arrancar con una imagen ligera que contenga Ansible o Puppet y permitir que esa herramienta proporcione una configuración de imagen adicional. La automatización de la configuración de imágenes de esta manera reduce los posibles errores e introduce eficiencias y auditabilidad en esta tarea que de otro modo sería manual.

El aprovisionamiento rápido conduce a la flexibilidad

El rápido aprovisionamiento de ClusterWareAI y su capacidad para soportar entornos heterogéneos pueden conducir a una mayor flexibilidad administrativa. Por ejemplo, los administradores pueden particionar un subconjunto de nodos para probar nuevas imágenes mientras mantienen la mayoría de un clúster en producción estándar.

Después de una prueba exitosa, la nueva imagen puede implementarse en el resto del clúster. En entornos HPC empresariales donde se requieren actualizaciones frecuentes, este enfoque permite que la producción continúe a escala con menos interrupciones mientras se implementan las actualizaciones.

Implementación de protocolos de seguridad

STIGs (Guías de Implementación Técnica de Seguridad), son directrices de seguridad federales utilizadas para garantizar que las máquinas estén debidamente protegidas de forma auditable. Una forma de automatizar la implementación de STIGs en un clúster es aprovisionar imágenes base de nodos de computación a través de ClusterWareAI, y luego usar Ansible para añadir componentes STIG sobre estas imágenes base.

La configuración STIG deseada se puede guardar como un playbook de Ansible que se ejecuta automáticamente utilizando Ansible pull en el momento del arranque. Esta integración elimina el posible cuello de botella que puede ocurrir al enviar desde un nodo de control de Ansible, y permite a un administrador automatizar el proceso de arranque para nuevos nodos.

En este ejemplo, el administrador se asegura de que un gran número de máquinas puedan protegerse de forma precisa y eficiente a un nivel granular, al tiempo que reduce la cantidad de trabajo manual requerido.

Diagram of how the Scyld Clusterware works.

Simplificación de la administración de sistemas a nivel empresarial

A medida que los clústeres aumentan de tamaño, también lo hacen los equipos administrativos. A escala, la gestión de clústeres se vuelve más compleja y es posible que un grupo más grande de personas necesite compartir más información.

ClusterWareAI está diseñado para gestionar clústeres que van desde decenas hasta decenas de miles de nodos, garantizando un aprovisionamiento rápido y fiable, y una monitorización del estado para clústeres de cualquier tamaño. Las características de alta disponibilidad (HA) de ClusterWareAI permiten que cualquier nodo principal proporcione servicios a cualquier nodo de cómputo, reduciendo drásticamente, e incluso eliminando, las interrupciones causadas por fallos en los nodos principales.

Desde el punto de vista de DevOps, los nodos principales de ClusterWareAI pueden alojar los repositorios Git mencionados. La combinación de esto con Ansible pull produce una configuración ligera que permite a los administradores escalar fácilmente hasta miles de nodos. La portabilidad de los playbooks permite reutilizarlos en múltiples entornos con diferentes imágenes base y simplifica el control de versiones. Esto facilita la puesta en marcha rápida de nuevos entornos y el arranque consistente de imágenes a un estado óptimo conocido.

Adaptado para entornos centrados en la seguridad

ClusterWareAI puede ejecutarse incluso en los entornos más seguros, compatible con las mejores prácticas de seguridad de TI. Se admiten implementaciones con aislamiento de red (air-gapped), donde las ISO pueden guardarse en repositorios internos, lo que permite la creación de imágenes sin necesidad de una conexión a internet pública.

Además, ClusterWareAI es compatible con SELinux, incluyendo la política MLS de RedHat, los protocolos de seguridad federales FIPS y STIG, y el cifrado TPM. El uso de la infraestructura como código puede fortalecer aún más la postura de seguridad de una organización, garantizando un control de versiones organizado y la auditabilidad de CI/CD.

Colabore con expertos en HPC de Penguin Solutions

El uso de las funciones de Ansible-pull y Git para el control de versiones permite a los administradores aprovisionar y gestionar clústeres utilizando herramientas DevOps conocidas. Esto ayuda a las organizaciones a operar su entorno HPC de manera eficiente y segura.

Desarrollado y respaldado por un equipo de expertos con décadas de experiencia en HPC, trabajamos en estrecha colaboración con los usuarios para desarrollar nuestra hoja de ruta de productos y garantizar que nuestro software siga evolucionando con las necesidades de los usuarios.

Diseñado para simplificar la implementación y administración de clústeres de IA y HPC, ClusterWareAI ofrece escalabilidad sin interrupciones, monitorización del estado en tiempo real y optimización del rendimiento máximo. Esta solución impulsa ecosistemas de IA totalmente optimizados, permitiendo una gestión sin esfuerzo y una escalabilidad fluida con fiabilidad y eficiencia integradas.

Solicite una demostración para ver cómo Penguin Solutions puede ayudar a optimizar la gestión de su clúster HPC y AI/ML de nivel empresarial. También puede hablar con un experto y solicitar precios ¡hoy mismo!

Imagen del autor

Artículos relacionados

Server aisle

Hable con los expertos en
Penguin Solutions

En Penguin, nuestro equipo diseña, construye, implementa y administra soluciones empresariales de HPC e IA de alto rendimiento y alta disponibilidad, lo que permite a los clientes lograr sus innovaciones revolucionarias.

Comuníquese hoy mismo y analicemos las necesidades de su proyecto de solución de infraestructura.

Hablemos