Centros de datos de IA y HPC
Soluciones tolerantes a fallos
Memoria integrada
Las organizaciones pueden modernizar rápidamente la infraestructura de TI para maximizar el tiempo de actividad, aumentar la confiabilidad, simplificar la capacidad de administración y aumentar la eficiencia con un riesgo mínimo mediante la computación tolerante a fallas en su centro de datos empresarial principal.
Para las organizaciones que ejecutan aplicaciones vitales que requieren una disponibilidad continua de datos y servicios, la recuperación ante fallos por sí sola no es suficiente. Necesitan una infraestructura moderna para entregar de manera fácil y asequible cargas de trabajo de alta disponibilidad y tolerantes a fallos a fin de permitir la prevención de errores.
Las plataformas informáticas predictivas tolerantes a fallos permiten a las organizaciones ejecutar aplicaciones de misión crítica en entornos de centros de datos sin tiempo de inactividad ni pérdida de datos para satisfacer con éxito la demanda de operaciones «siempre activas».
Tanto los equipos de OT (tecnología operativa) como los de TI (tecnología de la información) se enfrentan al desafío de ofrecer esta confiabilidad a ubicaciones centralizadas y distribuidas en todas sus operaciones. Las plataformas que ejecutan aplicaciones críticas deben ser fáciles de implementar, administrar y mantener, y no solo en los centros de datos, sino también en la periferia de las redes corporativas.
Existen varios métodos comprobados que las empresas utilizan para mejorar la disponibilidad en sus centros de datos, que van desde mejorar la confiabilidad y la resiliencia del sistema, implementar procedimientos de respaldo y recuperación o implementar clústeres redundantes (físicos o virtuales) con servicios de conmutación por error.
Los sistemas tolerantes a fallos ofrecen la disponibilidad requerida, ya que pueden «tolerar» o soportar «fallos» o fallos tanto de hardware como de software.
La tolerancia a fallos describe un nivel superior de disponibilidad caracterizado por un tiempo de actividad de cinco nueves (99,999%) o más. Los sistemas tolerantes a fallos suelen hacer esto monitorizando de forma proactiva y evitando que los sistemas críticos fallen en primer lugar, o mitigando por completo el riesgo de una falla catastrófica de un componente o sistema. La tolerancia a fallos se puede lograr con éxito utilizando enfoques basados en software y hardware.
En un enfoque basado en software, todos los datos comprometidos en el disco se reflejan en sistemas redundantes. Los enfoques basados en software más sofisticados también replican datos no comprometidos, o datos en memoria, en un sistema redundante. En caso de que se produzca una falla en el sistema principal, un sistema de respaldo secundario reanuda sus operaciones y toma el control desde el momento exacto en que falla el sistema principal, de modo que no se duplique ni se pierda ninguna transacción o dato.
En un enfoque basado en hardware, los sistemas redundantes se ejecutan simultáneamente. Los servidores paralelos realizan tareas idénticas, de modo que si un servidor falla, el otro servidor continúa procesando transacciones o prestando servicios. Este enfoque se basa en que la probabilidad estadística de que ambos sistemas fallen simultáneamente es extremadamente baja. En realidad, solo se necesita un servidor para entregar las aplicaciones, pero tener dos servidores ayuda a garantizar que al menos uno esté siempre en funcionamiento.
Ambos enfoques tienen sus desafíos para proporcionar disponibilidad continua y garantizar la integridad de los datos, pero se puede pasar de cinco nueves (con un promedio de menos de 6 minutos de inactividad al año) a ofrecer un asombroso tiempo de actividad de siete nueves (99,99999%), lo que equivale a 3,16 segundos de inactividad al año con la mejor tecnología.
Supervise de forma proactiva los posibles puntos de falla y tome medidas correctivas automáticamente antes de que afecten a las operaciones, evitando el tiempo de inactividad y la pérdida de datos.
Supervise continuamente el estado del sistema, lo que permite la detección temprana de posibles problemas, permite un mantenimiento oportuno y reduce el riesgo de fallas inesperadas.
Proporcione conectividad confiable a los datos de producción críticos almacenados en redes de área de almacenamiento (SAN). Esta función garantiza que los datos permanezcan accesibles y protegidos, lo que mejora aún más la tolerancia a los fallos.
Si un componente falla, otro puede tomar el control sin problemas y mantener las operaciones ininterrumpidas.
Años de experiencia
GPU implementadas y administradas
Horas de tiempo de ejecución de la GPU
Comuníquese hoy mismo y obtenga más información sobre cómo podemos ayudarlo a mejorar el rendimiento del centro de datos que se encuentra en el centro de su red, implementándolo fácilmente en las arquitecturas existentes sin necesidad de recursos de TI.