人工智慧與高效能運算資料中心
容錯解決方案
整合式記憶體
探索 Penguin Solutions® 如何利用 ClusterWare 將基礎架構作為程式碼實作,簡化 HPC 叢集部署和管理,同時提高效率和可擴展性。
企鵝解決方案 ICE 叢集軟件™ 是 叢集管理軟體 這可讓管理員有效地管理硬體和軟體資源,並充分利用其 HPC 和 AI/ML 叢集。通過將 ICE 叢集軟件與熟悉的 DevOps 工具(例如 Ansible 和 Git)整合,管理員可以自動化工作,使組織能夠最大限度地提高其 HPC 生產力並加速創新。
具有 ClusterWare 的「基礎架構即代碼」允許管理員維護一個中央程式碼基礎,例如 Gitlab,其中包含所有正在使用的節點配置。可以託管在 ClusterWare 頭節點上的 Git 存儲庫,可用於數據和工作流程以及代碼的版本控制。這使變更管理變更變得更簡單、可稽核且更容易追蹤。
此外,這種使用 Git 存放庫可以更輕鬆地在內部分享信息,以及根據需要與合作夥伴,第三方承包商和支持人員共享信息。
ICE ClusterWare 使用以影像為基礎的快速佈建,在裸機、虛擬化或容器化環境中建立即可執行的運算叢集。對於某些叢集,節點所需的所有可能軟體都可以包含在其映像中。ClusterWare 可以佈建異質叢集,因此可以根據硬體或軟體屬性建立和分發多個映像。
例如,GPU 節點可能會接收與僅 CPU 節點不同的影像。但是,隨著叢集的大小增加,或需要不同佈建更多節點子集,影像的變更可能很難追蹤。
另外,管理員可以啟動到包含 Ansible 或 Puppet 的輕量化映像,並允許該工具提供其他映像配置。以這種方式自動化影像組態可減少潛在的錯誤,並將效率和稽核性帶入這項手動工作中。
ICE ClusterWare 的快速佈建和支援異質環境的能力可以增加管理靈活性。例如,管理員可以分割節點子集以測試新映像,同時保留叢集的大部分在標準生產中。
成功測試後,可以將新映像推出到叢集的其他部分。在需要頻繁更新的企業 HPC 環境中,這種方法可以在實作更新時進行大規模的生產,而且不會中斷更少。
STIG(安全技術實施指南),是聯邦安全指引用於確保機器以可審核的方式妥善安全。在叢集中自動部署 STIGs 的一種方法是通過 ClusterWare 佈建基礎運算節點映像,然後使用 Ansible 在這些基礎映像上添加 STIG 元件。
所需的 STIG 配置可以保存為 Ansible 手冊,該手冊在啟動時使用 Ansible 拉伸自動運行。此整合可移除從 Ansible 控制節點推送時可能會發生的潛在瓶頸,並允許管理員自動化新節點的啟動程序。
在此範例中,管理員可確保大量機器可以精確且有效率地在精細層級安全,同時減少所需的手動工作量。
隨著叢集的規模增長,管理團隊也會增加。在大規模上,叢集管理變得更加複雜,更多的人群可能需要共享更多資訊。
ICE 叢集軟件 專為管理從數十到數千個節點的叢集而設計,確保任何大小的叢集快速、可靠的佈建和健康狀態監控。ClusterWare 的高可用性 (HA) 功能允許任何主節點為任何運算節點提供服務,大幅減少,甚至消除由主節點故障引起的中斷。
從 DevOps 的角度來看,叢集軟件主節點可以託管上述 Git 存儲庫。將其與 Ansible pull 結合起來可產生輕量化的配置,可讓管理員輕鬆擴展至數千個節點。遊戲手冊的便攜性使它們可以在具有不同基礎映像的多個環境中重複使用,並簡化版本控制。這使得更容易快速執行新環境,並一致地將映像啟動到已知良好狀態。
ClusterWare 即使在最安全的環境中也可以執行,支援 IT 安全最佳做法。支援空中間隙部署,ISO 可以儲存至內部儲存庫,無需公用網際網路連線即可建立影像。
此外,叢集軟體還支援 SELinux,包括 RedHat MLS 政策、FIPS 和 STIG 聯邦安全協定以及 TPM 加密。使用基礎架構作為程式碼可進一步加強組織的安全狀態,確保有組織的版本控制和 CI/CD 可稽核性。
ICE 叢集軟件由擁有數十年 HPC 經驗的專家團隊開發和支持。我們與用戶密切合作,制定我們的產品藍圖,並確保我們的軟件將繼續根據用戶的需求進化。
使用 Ansible-pull 功能和 Git 進行版本控制,可讓管理員使用熟悉的 DevOps 工具佈建和管理叢集。這有助於組織有效率且安全地操作其 HPC 環境。
註冊演示 了解 Penguin 解決方案如何協助簡化您的企業級 HPC 和 AI/ML 叢集管理。您還可以與專家交談和 要求定價 今天!
在 Penguin,我們的團隊設計、構建、部署和管理高效能、高可用性的 HPC 和 AI 企業解決方案,使客戶能夠實現突破性的創新。
立即聯繫,讓我們討論您的基礎架構解決方案專案需求。