AI および HPC データセンター
フォールトトレラントソリューション
統合メモリー
Penguin Solutions® がClusterWareを活用してインフラストラクチャをコードとして実装し、効率とスケーラビリティを高めながら、HPCクラスターの導入と管理を合理化する方法をご覧ください。

Penguin Solutions ClusterWareAIは クラスター管理ソフトウェアです。 これにより、管理者はハードウェアとソフトウェアのリソースを効率的に管理し、HPCおよびAI/MLクラスターを最大限に活用できます。ClusterWareAIをAnsibleやGitといった使い慣れたDevOpsツールと統合することで、管理者は作業を自動化し、組織のHPC生産性を最大化し、イノベーションを加速させることができます。
ClusterWareAIによる「Infrastructure as Code」は、管理者が使用中のすべてのノード構成を含む中央のコードベース(例えばGitlab)を維持することを可能にします。ClusterWareAIのヘッドノードでホストできるGitリポジトリは、コードだけでなく、データやワークフローのバージョン管理にも使用できます。これにより、変更管理がよりシンプルになり、監査可能で追跡しやすくなります。
さらに、このGitリポジトリの利用により、情報が社内だけでなく、パートナー、第三者の請負業者、サポート担当者とも必要に応じて容易に共有できるようになります。
ClusterWareAIは、迅速なイメージベースのプロビジョニングを使用して、ベアメタル、仮想化、またはコンテナ化された環境で、すぐに実行できるコンピューティングクラスターを作成します。一部のクラスターでは、ノードに必要なすべてのソフトウェアをそのイメージ内に含めることができます。ClusterWareAIは異種クラスターをプロビジョニングできるため、ハードウェアまたはソフトウェアの属性に基づいて複数のイメージを作成し、配布することができます。
例えば、GPUノードはCPUのみのノードとは異なるイメージを受け取る場合があります。しかし、クラスターの規模が大きくなったり、より多くのノードサブセットを異なる方法でプロビジョニングする必要がある場合、イメージの変更を追跡するのが難しくなることがあります。
代替案として、管理者はAnsibleまたはPuppetを含む軽量イメージで起動し、そのツールに追加のイメージ構成を提供させることができます。このようにイメージ構成を自動化することで、潜在的なエラーを減らし、手作業で行われるこのタスクに効率性と監査可能性をもたらします。
ClusterWareAIの高速プロビジョニングと異種環境をサポートする能力は、管理の柔軟性を高めることができます。例えば、管理者はクラスターの大部分を標準的な本番環境に維持しながら、ノードのサブセットを分割して新しいイメージをテストすることができます。
テストが成功した後、新しいイメージはクラスターの残りの部分に展開できます。頻繁な更新が必要とされるエンタープライズHPC環境では、このアプローチにより、更新が実施されている間も、中断を少なくして大規模な本番稼働を継続できます。
STIGs (Security Technical Implementation Guides)は、マシンが監査可能な方法で適切に保護されていることを保証するために使用される連邦政府のセキュリティガイドラインです。クラスター全体にSTIGの展開を自動化する一つの方法は、ClusterWareAIを介してベースとなる計算ノードイメージをプロビジョニングし、その後Ansibleを使用してこれらのベースイメージの上にSTIGコンポーネントを追加することです。
目的のSTIG構成は、起動時にAnsible pullを使用して自動的に実行されるAnsibleプレイブックとして保存できます。この統合により、Ansibleコントロールノードからプッシュする際に発生する可能性のあるボトルネックが解消され、管理者は新しいノードの起動プロセスを自動化できます。
この例では、管理者は、必要な手作業の量を減らしながら、多数のマシンをきめ細かく、正確かつ効率的に保護できることを保証します。

クラスターの規模が大きくなるにつれて、管理チームも拡大します。大規模になると、クラスター管理はより複雑になり、より多くの情報がより多くの人々の間で共有される必要が生じる可能性があります。
ClusterWareAI 数十から数万ノード規模のクラスターを管理できるように設計されており、あらゆる規模のクラスターに対して、高速で信頼性の高いプロビジョニングとヘルスモニタリングを保証します。ClusterWareAIのハイアベイラビリティ(HA)機能により、どのヘッドノードからでも任意のコンピュートノードにサービスを提供できるため、ヘッドノードの障害による中断を大幅に削減し、排除することさえ可能です。
DevOpsの観点から見ると、ClusterWareAIのヘッドノードは前述のGitリポジトリをホストできます。これをAnsible pullと組み合わせることで、軽量な構成が実現し、管理者は数千ノードまで簡単にスケールアップできます。プレイブックのポータビリティにより、異なるベースイメージを持つ複数の環境で再利用でき、バージョン管理も簡素化されます。これにより、新しい環境を迅速に稼働させることが容易になり、既知の良好な状態にイメージを常に起動できるようになります。
ClusterWareAIは、ITセキュリティのベストプラクティスをサポートし、最もセキュアな環境でも動作します。エアギャップ環境でのデプロイメントもサポートされており、ISOを内部リポジトリに保存することで、公衆インターネット接続なしでイメージ作成が可能です。
さらに、ClusterWareAIはRedHat MLSポリシーを含むSELinux、FIPSおよびSTIG連邦セキュリティプロトコル、TPM暗号化にも対応しています。インフラストラクチャ・アズ・コードを使用することで、組織のセキュリティ体制をさらに強化し、体系的なバージョン管理とCI/CDの監査可能性を確保できます。
Ansible-pull機能とGitをバージョン管理に利用することで、管理者は使い慣れたDevOpsツールを使用してクラスターをプロビジョニングおよび管理できます。これにより、組織はHPC環境を効率的かつ安全に運用できるようになります。
数十年におよぶHPC経験を持つ専門家チームによって開発・サポートされており、当社はユーザーと密接に連携して製品ロードマップを構築し、ユーザーのニーズに合わせてソフトウェアが進化し続けることを保証します。
AIおよびHPCクラスターのデプロイと管理を簡素化するために設計されたClusterWareAIは、シームレスなスケーラビリティ、リアルタイムのヘルスモニタリング、およびピークパフォーマンスの最適化を提供します。このソリューションは、完全に最適化されたAIエコシステムを強化し、組み込みの信頼性と効率性により、簡単な管理とシームレスなスケーラビリティを実現します。
デモを申し込む Penguin Solutionsがお客様のエンタープライズグレードのHPCおよびAI/MLクラスター管理をどのように合理化できるかをご覧ください。また、専門家と話したり、 価格を問い合わせる 今すぐ!

Penguinのチームは、高性能で可用性の高いHPCおよびAI エンタープライズソリューションの設計、構築、導入、管理を行い、お客様が画期的なイノベーションを実現できるよう支援しています。
今すぐお問い合わせいただき、インフラストラクチャソリューションプロジェクトのニーズについてご相談ください。