Hace unas semanas, Stratus organizó un seminario web con lectura ligera titulado «Cómo lograr una tolerancia instantánea a los fallos para cualquier aplicación en hardware básico», dirigido a proveedores de aplicaciones de telecomunicaciones y comunicaciones. El evento tuvo mucho éxito, con 150 asistentes que llamaron en vivo y otros 200 asistentes que se inscribieron pero no pudieron asistir en ese momento específico. Durante la sesión tuvimos muchas preguntas, algunas de las cuales fueron respondidas en su momento y otras quedaron sin respuesta por falta de tiempo. Esta entrada de blog resume todas las preguntas que se hicieron y nuestras respuestas.

Antes de pasar a la sesión de preguntas y respuestas, permítanme definir everRun en términos simples;

everRun es una infraestructura de disponibilidad definida por software (SDA) que traslada la gestión de errores y la conmutación por error automática de las aplicaciones a la infraestructura de software. Esto proporciona una tolerancia a fallos instantánea completa y totalmente automatizada para todas las aplicaciones, lo que incluye la detección de errores, la localización, el aislamiento, la restauración del servicio, la restauración de la redundancia y, si se desea, la replicación del estado, todo ello sin cambios en el código de la aplicación y con niveles dinámicos de resiliencia. Esto significa que cualquier aplicación se puede implementar instantáneamente con alta resiliencia, múltiples niveles de protección estatal y una velocidad de restauración del servicio ultrarrápida, en hardware comercial listo para usar (COTS) en cualquier red, sin la complejidad, el esfuerzo lento y el riesgo asociados con la modificación y las pruebas de cada aplicación. ¡Es por eso que everRun es ideal para aplicaciones de comunicaciones que incluyen monitoreo de video, administración de redes, pasarelas de señalización, firewalls, controladores de red y más!

Ahora, pasemos a la sesión de preguntas y respuestas:

  • ¿Necesito una distribución de Linux independiente para ejecutar everRun?
    • everRun es compatible con varios sistemas operativos invitados, incluidos Windows, CentOS Linux y RHEL Linux. everRun viene con su propia distribución CentOS que se instala en un servidor básico, pero necesitarás instalar un sistema operativo (como sistema operativo invitado) para cada máquina virtual.
  • ¿Qué sucede si tengo una combinación de aplicaciones de Windows y Linux?
    • No hay problema. Como dijimos, puede instalar varios sistemas operativos invitados porque everRun aprovecha el hipervisor KVM donde reside el código tolerante a errores de Stratus para que todas las máquinas virtuales, independientemente del sistema operativo invitado, estén protegidas sin problemas sin necesidad de cambiar el código de la aplicación. Algunas máquinas virtuales pueden ser Linux y otras Windows con la misma configuración de everRun.
  • ¿Tiene soluciones para cosas como BGP, que se superpone a TCP? (Por lo general, se denomina enrutamiento sin paradas)
    • No ofrecemos aplicaciones, solo la plataforma de software que ejecuta estas aplicaciones. Básicamente, cualquier aplicación que utilice cualquier protocolo que se ejecute en TCP/IP en cualquier sistema operativo invitado se ejecutará en everRun.
  • Suponiendo que haya una entidad de MME que deba hacer tolerante a errores, ¿cómo mantendrá su motor de disponibilidad el estado interno de las aplicaciones de la MME? Puede haber varios estados internos para las múltiples transmisiones que mantiene esta entidad.
    • A diferencia de las soluciones de alta disponibilidad basadas en aplicaciones, que requieren cambios en el código de la aplicación, esta solución crea automáticamente pares de máquinas virtuales entre los hosts en una configuración antiafinidad. Esto significa que el estado de una máquina virtual (y de todas sus aplicaciones) se captura de forma regular y asincrónica, basándose en un algoritmo Stratus StatePoint altamente sofisticado que garantiza un estado uniforme a nivel mundial para todas las aplicaciones implementadas en un modo estable y tolerante a fallos. Si se produce un error en el servidor principal en el estado «n», el sistema cambia automáticamente al servidor secundario, que se reanuda automáticamente desde el punto de estado más reciente, «n», sin ninguna interrupción o degradación de las aplicaciones.
  • ¿Cuál suele ser la experiencia de degradación del nivel de servicio al agregar la funcionalidad y la protección tolerantes a errores en el software, como el impacto en la latencia, el bloqueo del estado o el procesamiento en tiempo real?
    • Hay dos tipos principales de protección que ofrece everRun. Una aplicación o un componente de la aplicación se pueden implementar en modo tolerante a fallos (FT), lo que significa el nivel más alto de protección en términos de replicación total del estado y un rápido tiempo de restauración del servicio. En este escenario, la «latencia añadida» total promedio para todo el proceso, incluidos los puntos de control con la barrera de E/S, es inferior a un milisegundo (unos 750 microsegundos).
  • ¿A qué distancia pueden estar el activo y el modo de espera?
    • Depende del ancho de banda del enlace entre los servidores principal y secundario y de la sensibilidad a la latencia... Pero, por lo general, no más de unas pocas millas, porque una mayor distancia significa un mayor retraso de propagación.
  • ¿Todos los productos pueden utilizar el sistema tolerante a fallos de Stratus? En el caso de los productos que utilizan muchos estados en su software, ¿hay algún desafío al que nos enfrentaríamos para integrar esta solución?
    • Cualquier aplicación puede ejecutarse en everRun siempre que pueda ejecutarse en Ubuntu, SUSE, CentOS, Red Hat Enterprise Linux (RHEL) o incluso Windows. Si bien todas las aplicaciones necesitan una gestión de errores, no todas necesitan protección de estado ni requieren la misma velocidad de restauración del servicio; por lo tanto, everRun admite varios niveles de redundancia. Esto significa que algunas aplicaciones que se ejecutan en modo FT tendrán protección y redundancia de estado completas, mientras que otras que se ejecutan en HA no tendrán protección de estado, sino que se reiniciarán automáticamente si se produce un error, lo que consume muchos menos recursos del sistema. Incluso dentro de la misma aplicación, los diferentes componentes de una aplicación pueden requerir diferentes niveles de redundancia. Por ejemplo, para las aplicaciones que también tienen elementos de reenvío del plano de datos (como vFirewalls y vRouters) y que se descomponen en máquinas virtuales independientes para el elemento de control (CE) y los elementos de reenvío del plano de datos (FE), el CE podría ejecutarse en modo FT (protección de estado), mientras que el FE podría ejecutarse solo en modo HA, lo que significa que se reiniciará rápida y automáticamente si falla. Esto significa que mientras el CE esté protegido, se reiniciará un nuevo FE sin interrupción ni degradación del servicio.
  • ¿Qué cambios debo hacer en mi aplicación para usar everRun?
    • No se requieren cambios en la solicitud. Cualquier aplicación que se ejecute en cualquiera de los sistemas operativos que admitamos (Red Hat Enterprise Linux, Ubuntu, SUSE, CentOS o Windows) funcionará correctamente en everRun (en su sistema operativo invitado) y everRun protegerá sin problemas estas máquinas virtuales, incluida la replicación de estado, sin reconocimiento de la aplicación.
  • Entiendo que necesitaré dos servidores físicos. Si uno falla, ¿cómo lo sabré y qué debo hacer?
    • Si se produce un error, el sistema realizará automáticamente una conmutación por error al servidor secundario. Las aplicaciones que se ejecuten en modo FT se reanudarán de forma automática y muy rápida (en milisegundos), mientras que las aplicaciones de alta disponibilidad se reiniciarán automáticamente. Hay varias formas de recibir alertas sobre los fallos del sistema (SNMP, everRun Manager, correo electrónico) para poder reparar los componentes defectuosos.
  • ¿Cómo se compara su solución con la solución FT de VMware?
    • Stratus es el líder del mercado en resiliencia y aprovecha 35 años de experiencia en el campo para ajustar nuestros algoritmos de FT para maximizar el rendimiento del sistema y la utilización de los recursos en función de miles de cargas de trabajo de implementación reales. Por lo general, los clientes tienen en cuenta VMware cuando se están consolidando. Pero cuando necesitan disponibilidad y resiliencia, compran everRun.
Imagen del autor

Artículos relacionados

Server aisle

Hable con los expertos en
Penguin Solutions

En Penguin, nuestro equipo diseña, construye, implementa y administra soluciones empresariales de HPC e IA de alto rendimiento y alta disponibilidad, lo que permite a los clientes lograr sus innovaciones revolucionarias.

Comuníquese hoy mismo y analicemos las necesidades de su proyecto de solución de infraestructura.

Hablemos