Penguin Solutions ClusterWareAI 是一款 叢集管理軟體 ,讓管理員能夠有效率地管理硬體和軟體資源,並充分利用其高效能運算 (HPC) 和 AI/ML 叢集。透過將 ClusterWareAI 與 Ansible 和 Git 等熟悉的 DevOps 工具整合,管理員可以自動化工作,讓組織能夠最大限度地提高 HPC 生產力並加速創新。

透過 ClusterWareAI 實現「基礎設施即程式碼」,管理員可以維護一個中央程式碼庫(例如 Gitlab),其中包含所有正在使用的節點配置。Git 儲存庫(可託管在 ClusterWareAI 的主節點上)可用於資料、工作流程以及程式碼的版本控制。這使得變更管理變得更簡單、可稽核且更容易追蹤。

此外,使用 Git 儲存庫可以讓資訊更容易在內部共享,並在需要時與合作夥伴、第三方承包商和支援人員共享。

自動化映像檔配置

ClusterWareAI 採用快速的映像檔式佈建,可在裸機、虛擬化或容器化環境中建立可立即運行的運算叢集。對於某些叢集,節點所需的所有可能軟體都可以包含在其映像檔中。ClusterWareAI 可以佈建異質叢集,因此可以根據硬體或軟體屬性建立和分發多個映像檔。

例如,GPU 節點可能接收與僅限 CPU 節點不同的映像檔。然而,隨著叢集規模的擴大,或者需要以不同方式佈建更多節點子集時,映像檔的變更可能難以追蹤。

作為替代方案,管理員可以啟動包含 Ansible 或 Puppet 的輕量級映像檔,並讓該工具提供額外的映像檔配置。以這種方式自動化映像檔配置,可以減少潛在錯誤,並為這項原本手動的任務帶來效率和可稽核性。

快速佈建帶來靈活性

ClusterWareAI 的快速佈建和支援異質環境的能力,可以提高管理上的靈活性。例如,管理員可以將一部分節點劃分出來測試新映像檔,同時讓叢集的大部分保持標準生產狀態。

成功測試後,新映像檔可以推廣到叢集的其餘部分。在需要頻繁更新的企業 HPC 環境中,這種方法可以在實施更新的同時,讓生產以規模化方式持續進行,減少中斷。

部署安全協定

STIGs (安全技術實施指南),是聯邦安全指南,用於確保機器以可稽核的方式妥善安全。自動化在叢集部署 STIGs 的一種方法是透過 ClusterWareAI 佈建基礎運算節點映像檔,然後使用 Ansible 在這些基礎映像檔之上添加 STIG 元件。

所需的 STIG 配置可以儲存為 Ansible playbook,並在開機時使用 Ansible pull 自動運行。這種整合消除了從 Ansible 控制節點推送時可能發生的潛在瓶頸,並允許管理員自動化新節點的開機過程。

在此範例中,管理員確保大量機器可以在精細層級上準確有效地受到保護,同時減少所需的手動工作量。

Diagram of how the Scyld Clusterware works.

簡化企業級系統管理

隨著叢集規模的擴大,管理團隊的規模也可能隨之擴大。在規模化運作下,叢集管理變得更加複雜,並且可能需要由更多人共享更多資訊。

ClusterWareAI 旨在管理從數十個到數萬個節點的叢集,確保任何規模的叢集都能快速、可靠地佈建和健康監控。ClusterWareAI 的高可用性 (HA) 功能允許任何主節點向任何計算節點提供服務,大幅減少,甚至消除因主節點故障造成的服務中斷。

從 DevOps 的角度來看,ClusterWareAI 主節點可以託管上述 Git 儲存庫。將此與 Ansible pull 結合,可產生輕量級配置,讓管理員能夠輕鬆擴展至數千個節點。劇本的可移植性使其能夠在具有不同基礎映像的多個環境中重複使用,並簡化版本控制。這使得新環境更容易快速運行,並能始終如一地將映像啟動到已知良好狀態。

專為注重安全性的環境量身打造

ClusterWareAI 甚至可以在最安全的環境中運行,支援 IT 安全最佳實踐。支援氣隙部署,ISO 可以儲存到內部儲存庫,無需公共網路連線即可建立映像。

此外,ClusterWareAI 支援 SELinux,包括 RedHat MLS 策略、FIPS 和 STIG 聯邦安全協定,以及 TPM 加密。使用基礎設施即程式碼 (IaC) 可以進一步強化組織的安全態勢,確保有組織的版本控制和 CI/CD 可稽核性。

與 Penguin Solutions 的 HPC 專家合作

利用 Ansible-pull 功能和 Git 進行版本控制,讓管理員能夠使用熟悉的 DevOps 工具佈建和管理叢集。這有助於組織高效且安全地運營其 HPC 環境。

由擁有數十年 HPC 經驗的專家團隊開發和支援,我們與用戶密切合作,共同制定產品藍圖,並確保我們的軟體將持續隨著用戶的需求而發展。

ClusterWareAI 旨在簡化 AI 和 HPC 叢集的部署與管理,提供無縫擴展性、即時健康監控和最佳效能優化。此解決方案為完全優化的 AI 生態系統提供動力,實現輕鬆管理和無縫擴展,並內建可靠性和效率。

預約示範 了解 Penguin Solutions 如何協助您簡化企業級 HPC 和 AI/ML 叢集管理。您也可以與專家交談並 索取報價 立即!

Author Image

Related Articles

Server aisle

與專家交談
企鵝解決方案

在 Penguin,我們的團隊設計、構建、部署和管理高效能、高可用性的 HPC 和 AI 企業解決方案,使客戶能夠實現突破性的創新。

立即聯繫,讓我們討論您的基礎架構解決方案專案需求。

讓我們談談