几周前,Stratus 举办了一场以 Light Reading 为目标的网络研讨会,标题为 “在商用硬件上实现任何应用程序的即时容错”,面向电信公司和通信应用程序提供商。该活动非常成功,有150名与会者进行了现场直播,另有200名与会者注册但在那个特定时间无法参加。会议期间我们遇到了很多问题,其中一些问题当时得到了回答,而另一些则由于时间限制而没有得到解答。这篇博客文章总结了我们提出的所有问题和我们的回应。

在我们开始问答之前,让我先用简单的术语来定义 everRun;

everRun 是一种软件定义可用性 (SDA) 架构,可将故障管理和自动故障转移从应用转移到软件基础架构。这为所有应用程序提供了全自动和完整的即时容错功能,包括故障检测、定位、隔离、服务恢复、冗余恢复,以及在需要时进行状态复制,所有这些都无需更改应用程序代码,而且具有动态的弹性级别。这意味着任何应用程序都可以在任何网络的商用现成 (COTS) 硬件上即时部署,具有高弹性、多级状态保护和超快的服务恢复速度,而无需修改和测试每个应用程序所带来的复杂性、耗时的工作量和风险。因此,everRun 是包括视频监控、网络管理、信号网关、防火墙、网络控制器等在内的通信应用的理想之选!

现在,进入问答环节:

  • 我需要单独的 Linux 发行版才能运行 everRun 吗?
    • everRun 支持多个访客操作系统,包括 Windows、CentOS Linux 和 RHEL Linux。everRun 自带 CentOS 发行版,安装在裸机商用服务器上,但你需要为每个虚拟机安装操作系统(作为访客操作系统)。
  • 如果我混合了 Windows 和 Linux 应用程序呢?
    • 没问题。正如我们所说,您可以安装多个访客操作系统,因为everRun利用了Stratus容错代码所在的KVM虚拟机管理程序,因此无需更改应用程序代码即可无缝保护所有虚拟机,无论客户机操作系统如何。有些虚拟机可以是 Linux,另一些虚拟机可能使用相同的 everRun 配置的 Windows。
  • 对于像分层在 TCP 之上的 BGP 这样的东西,你有解决方案吗?(通常称为不间断路由)
    • 我们不提供应用程序,只提供运行这些应用程序的软件平台。本质上,任何使用在任何客户机操作系统上运行在 TCP/IP 上的任何协议的应用都将在 everRun 上运行。
  • 假设我需要创建一个 MME 实体来容错,那么您的可用性引擎将如何维护 MME 应用程序的内部状态?由该实体维护的多个数据流可能有多个内部状态。
    • 与需要更改应用程序代码的基于应用程序的高可用性解决方案不同,该解决方案在反关联性配置中自动在主机之间创建虚拟机对。这意味着基于高度复杂的 Stratus StatePoint 算法定期异步捕获虚拟机(及其所有应用程序)的状态,该算法可确保以状态容错模式部署的所有应用程序的状态保持全局一致。如果主服务器上出现状态为 “n” 的故障,系统会自动切换到辅助服务器,辅助服务器将从最新的状态点 “n” 自动恢复,不会造成任何应用程序中断或降级。
  • 通过在软件中添加容错功能和保护(例如对延迟、状态锁定或实时处理的影响),往往会导致服务级别下降的情况?
    • EverRun 提供两种主要的保护类型。应用程序或应用程序组件可以在容错 (FT) 模式下部署,这意味着在总状态复制和快速服务恢复时间方面具有最高级别的保护。在这种情况下,包括使用 I/O 屏障进行检查点在内的整个过程的平均总 “增加延迟” 小于一毫秒(大约 750 微秒)。
  • 活动和待机之间可以相隔多远?
    • 这取决于主服务器和辅助服务器之间链路的带宽以及对延迟的敏感度...但通常不超过几英里,因为距离越长意味着传播延迟越长。
  • 所有产品都可以使用 Stratus 容错系统吗?对于在其软件中使用大量状态的产品,我们在集成此解决方案时会面临任何挑战吗?
    • 任何应用只要能在 Ubuntu、SUSE、CentOS、红帽企业 Linux (RHEL) 甚至 Windows 上运行,就可以在 everRun 上运行。虽然每个应用都需要故障管理,但并非所有应用都需要状态保护或要求相同的服务恢复速度——因此 everRun 支持多个级别的冗余——这意味着一些以 FT 模式运行的应用将具有完全的状态冗余和保护,而其他在 HA 中运行的应用将没有状态保护,但在出现故障时会自动重启——这消耗的系统资源要少得多。即使在同一个应用程序中,应用程序的不同组件也可能需要不同的冗余级别。例如,对于同样具有数据平面转发元素(例如vFirewall和vRouters)且分为控制元素(CE)和数据层面转发元素(FE)的单独虚拟机的应用程序,CE 可以在 FT 模式(状态保护)下运行,而 FE 只能在 HA 模式下运行,这意味着如果发生故障,它将快速自动地重新启动。这意味着只要 CE 受到保护,新的 FE 就会重新启动,服务不会中断或降级
  • 我需要对我的应用进行哪些更改才能使用 everRun?
    • 无需更改应用程序。在我们支持的任何操作系统(红帽企业Linux、Ubuntu、SUSE、CentOS或Windows)中运行的任何应用都可以在everRun(在其访客操作系统中)上正常运行,而everRun将无缝保护这些虚拟机,包括状态复制,而无需应用感知。
  • 我知道我需要两台物理服务器,当一台出现故障时,我将如何知道以及我需要做什么?
    • 如果一个服务器出现故障,系统将自动故障转移到辅助服务器。在 FT 模式下运行的应用程序将自动快速恢复(在几毫秒内),而 HA 应用程序将自动重新启动。有多种方法可以在系统故障时发出警报(SNMP、everRun Manager、电子邮件),以便修复故障组件。
  • 您的解决方案与 VMware 的 FT 解决方案相比如何?
    • Stratus 是弹性领域的市场领导者,正在利用 35 年的领域专业知识来调整我们的 FT 算法,根据成千上万的实际部署工作负载最大限度地提高系统性能和资源利用率。通常,客户在整合时会考虑使用 VMware。但是,当他们需要可用性和灵活性时,他们会购买everRun。
作者图片

相关文章

Server aisle

与专家交谈
Penguin Solutions

在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。

立即联系我们,让我们讨论您的基础设施解决方案项目需求。

我们来聊聊吧