服务器中断将发生,而且它们将发生在我们最优秀的人身上。不这样相信就等于驾驶一辆没有安全气囊的汽车,因为制造商承诺他们的汽车永远不会发生碰撞。

2017 年,可靠的亚马逊网络服务 (AWS) 经历了 停机 4 小时 这影响了所有使用 AWS 作为后端提供商的企业。要恢复如此庞大的系统,四小时似乎不是很长时间。但是,对于像Netflix这样全天候访问网站的AWS客户来说,这是非常昂贵的四个小时。

那么,如何保护您的组织和依赖其可访问性的客户呢?当您与可用性解决方案供应商合作时,重要的是要确定哪个系统将提供最快的恢复时间。或者最好的办法是,哪个系统可以确保你的客户在服务器出现故障时甚至不会意识到汽车已经坠毁。

停机预防买家指南 讨论了为防止停机而应问的六个问题,包括服务器故障。该指南建议提出诸如 “如果服务器出现故障,将应用程序恢复到正常处理操作的过程是什么,需要多长时间?”该指南还比较了特定系统可能出现的不同停机时间。

“如果你依赖独立服务器,考虑到从备份中恢复应用程序和数据需要大量的人机交互——前提是你定期备份系统,你的恢复时间可能从几分钟到几天不等。
对于高可用性群集,服务器停机期间处理会中断,恢复可能需要几分钟到几小时,具体取决于检查文件完整性、回滚数据库以及恢复可用性后重放事务日志所需的时间。如果在初始规划阶段正确调整了群集的大小,则用户不应在故障服务器停止运行时遇到应用程序性能下降的情况;但是,一旦恢复正常处理,他们可能需要使用日记文件重新运行某些事务。
容错解决方案利用完全复制的组件主动防止停机,从而消除任何单点故障。一些平台会自动管理其复制的组件,按锁定步骤执行所有处理。
由于复制的组件同时执行相同的指令,因此即使组件出现故障,处理也不会中断。这意味着,与独立服务器或高可用性群集不同,容错解决方案在任何问题得到解决的同时仍能继续运行。”

下载完整版 停机预防买家指南 并找出为防止停机而应问的其余五个问题。

作者图片

相关文章

Server aisle

与专家交谈
Penguin Solutions

在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。

立即联系我们,让我们讨论您的基础设施解决方案项目需求。

我们来聊聊吧