Penguin Solutions ClusterWareAI 是 集群管理软件 能够帮助管理员高效管理硬件和软件资源,并充分利用其HPC和AI/ML集群。通过将ClusterWareAI与Ansible和Git等熟悉的DevOps工具集成,管理员可以实现工作自动化,从而最大限度地提高组织的HPC生产力并加速创新。

ClusterWareAI的“基础设施即代码”功能允许管理员维护一个中央代码库(例如Gitlab),其中包含所有正在使用的节点配置。Git仓库可以托管在ClusterWareAI头节点上,用于数据、工作流以及代码的版本控制。这使得变更管理变得更简单、可审计且易于追踪。

此外,使用Git仓库可以更轻松地在内部以及与合作伙伴、第三方承包商和支持人员共享信息。

自动化镜像配置

ClusterWareAI采用快速的基于镜像的配置方式,在裸机、虚拟化或容器化环境中创建可立即运行的计算集群。对于某些集群,节点所需的所有可能软件都可以包含在其镜像中。ClusterWareAI可以配置异构集群,因此可以根据硬件或软件属性创建和分发多个镜像。

例如,GPU节点可能接收与仅CPU节点不同的镜像。然而,随着集群规模的扩大,或者需要以不同方式配置更多节点子集时,镜像的更改可能难以追踪。

另一种方法是,管理员可以启动一个包含Ansible或Puppet的轻量级镜像,并允许该工具提供额外的镜像配置。以这种方式自动化镜像配置可以减少潜在错误,并为这项原本需要手动完成的任务带来效率和可审计性。

快速配置带来灵活性

ClusterWareAI的快速配置和支持异构环境的能力可以提高管理灵活性。例如,管理员可以划分一部分节点来测试新镜像,同时让集群的大部分节点保持标准生产状态。

测试成功后,新镜像可以推广到集群的其余部分。在需要频繁更新的企业HPC环境中,这种方法可以在更新实施期间,以更少的干扰实现大规模生产的持续进行。

部署安全协议

STIGs(安全技术实施指南)是联邦安全指南,用于确保机器以可审计的方式得到适当保护。自动化在集群中部署STIGs的一种方法是,通过ClusterWareAI配置基础计算节点镜像,然后使用Ansible在这些基础镜像之上添加STIG组件。

所需的STIG配置可以保存为Ansible playbook,并在启动时使用Ansible pull自动运行。这种集成消除了从Ansible控制节点推送时可能出现的潜在瓶颈,并允许管理员自动化新节点的启动过程。

在此示例中,管理员确保大量机器可以在精细级别上准确高效地得到保护,同时减少所需的手动工作量。

Diagram of how the Scyld Clusterware works.

简化企业级系统管理

随着集群规模的扩大,管理团队也可能随之壮大。在大规模环境下,集群管理变得更加复杂,可能需要由更多人共享更多信息。

ClusterWareAI 旨在管理从几十个到数万个节点的集群,确保对任何规模的集群进行快速、可靠的配置和健康监测。ClusterWareAI 的高可用性 (HA) 功能允许任何头节点向任何计算节点提供服务,大幅减少,甚至消除由头节点故障引起的中断。

从 DevOps 的角度来看,ClusterWareAI 头节点可以托管上述 Git 存储库。将此与 Ansible pull 结合,可实现轻量级配置,使管理员能够轻松扩展到数千个节点。剧本的可移植性使其可以在具有不同基础镜像的多个环境中重复使用,并简化版本控制。这使得新环境能够更快地运行,并始终如一地将镜像引导到已知良好状态。

专为注重安全的环境量身定制

ClusterWareAI 甚至可以在最安全的环境中运行,支持 IT 安全最佳实践。支持气隙部署,ISO 可以保存到内部存储库,从而无需公共互联网连接即可创建镜像。

此外,ClusterWareAI 支持 SELinux,包括 RedHat MLS 策略、FIPS 和 STIG 联邦安全协议以及 TPM 加密。使用基础设施即代码可以进一步加强组织的安全态势,确保有序的版本控制和 CI/CD 可审计性。

与 Penguin Solutions 的 HPC 专家合作

利用 Ansible-pull 功能和 Git 进行版本控制,使管理员能够使用熟悉的 DevOps 工具配置和管理集群。这有助于组织高效、安全地运营其 HPC 环境。

由一支拥有数十年 HPC 经验的专家团队开发和支持,我们与用户紧密合作,制定产品路线图,并确保我们的软件将继续随着用户需求而发展。

ClusterWareAI 旨在简化 AI 和 HPC 集群的部署和管理,提供无缝可扩展性、实时健康监测和峰值性能优化。该解决方案为完全优化的 AI 生态系统提供支持,实现轻松管理和无缝扩展,并内置可靠性和效率。

注册演示 了解 Penguin Solutions 如何帮助您简化企业级 HPC 和 AI/ML 集群管理。您还可以与专家交流并 申请报价 今天!

作者图片

相关文章

Server aisle

与专家交谈
Penguin Solutions

在 Penguin,我们的团队设计、构建、部署和管理高性能、高可用性的 HPC 和 AI 企业解决方案,帮助客户实现突破性创新。

立即联系我们,让我们讨论您的基础设施解决方案项目需求。

我们来聊聊吧