AI および HPC データセンター
フォールトトレラントソリューション
内蔵メモリ
Penguin Solutions Managed Servicesは、インフラストラクチャのパフォーマンスとワークロードの可用性を最大化することに重点を置いて、人工知能(AI)とハイパフォーマンスコンピューティング(HPC)のオペレーショナルエクセレンスを提供します。
エクサスケールのAIインフラストラクチャに関する深い専門知識を持つAIおよびHPCクラスター管理の専門家チームを活用して、日常業務を中断したり、ワークロードの遅延を防いだりすることなく、価値創出までの時間を短縮できます。
23億時間にわたるGPUランタイム管理の経験を活用して、自動最適化と予測メンテナンスを通じて、最高のパフォーマンス、ワークロードの信頼性、ROIを維持してください。
24時間365日の積極的なクラスター監視、オンサイトサポート、およびセンターオブエクセレンス(CoE)運営チームが問題を特定して解決することで、事業継続性を維持し、ダウンタイムを削減します。
実証済みの手順、繰り返し使用できる運用テンプレート、および長年の経験で磨き上げられた詳細な実行手順書により、一貫性のある信頼性の高い結果が得られます。これらのプレイブックは、専門知識を構造化された反復可能な実行モデルに統合します。
最新のAI クラスター専用に構築されたインテリジェントなクラスター管理プラットフォームであるPenguin Solutions ICE ClusterWare™ を通じて、優れた運用性と最高のクラスターパフォーマンスを実現しています。このプラットフォームは、すべてのクラスターコンポーネントを統合して、包括的な最適化とスケーラビリティを実現します。
当社のテクニカルCOEは、専門知識と標準化された方法論のハブとしての役割を果たします。各分野の上級技術専門家は、再利用可能な資産を通じてプロジェクトの実施を加速し、実証済みのアプローチを通じて品質を向上させ、新しい複雑な技術を継続的に習得します。
私たちの長年の経験により、大規模なAI ファクトリーの運営において比類のない能力を開発することができました。たとえば、私たちが支援しています メタ 2000 台以上の NVIDIA DGX システム、16,000 台の NVIDIA A100 Tensor コア GPU、500 PB のストレージ、40,000 個の NVIDIA InfiniBand ネットワークリンクを備えたメタリサーチスーパークラスターを管理します。
Penguin Solutionsは、Metaの運用チームと協力してハードウェア統合を行い、クラスターをデプロイし、コントロールプレーンの主要部分をセットアップしました。ペンギンのハードウェアとソフトウェアの専門知識は、NVIDIA と Pure Storage の貢献を結びつけるのに役立ちました。
これら3つのパートナーは協力して、Metaに最適化されたソリューション、つまり新しいAI リサーチスーパークラスター(RSC)を提供するための鍵となりました。これにより、Metaは、そのための基礎を築くことができました。 メタバース。
Penguin Solutionsは、Metaの大規模なNVIDIA DGXクラスターに引き続き並外れた稼働時間と可用性を提供しています。
Penguin Solutions、高速 NVIDIA InfiniBand ネットワーキングと最適化されたストレージを備えた大規模な NVIDIA DGX クラスターを設計しました。私たちはほとんどのストレージベンダーとの関係と専門知識を持っているため、すべてのお客様にオーダーメイドのソリューションを提供できます。
クラスターは、規模を問わず複雑なシステムであり、コンピューティング、ストレージ、ネットワーク、およびソフトウェアドメインにわたる専門知識が必要です。AI と HPC インフラストラクチャの複雑な運用上の要求を、23 億時間以上にわたる GPU ランタイム管理の経験を持つ専門家に任せます。
テクノロジーにとらわれない総合的なアプローチを採用し、ベンダー、アーキテクチャ、プロトコルにわたる専門知識を提供し、お客様の幅広いテクノロジー選択をサポートします。認定を受けたNVIDIA DGX Readyマネージドサービスプロバイダー、NVIDIA Eliteソリューションプロバイダー、およびDell ゴールドパートナーとして、マルチベンダー環境と標準化されたプラットフォームの両方にエンドツーエンドの可視性と管理を提供し、お客様のAI とHPCインフラストラクチャをすぐに使える状態に保ち、最大限の効率で稼働させます。
エンゲージメントリーダーは、明確なコミュニケーション、説明責任、顧客目標との整合を促進し、利害関係者に定期的なパフォーマンスレビューを提供します。
システムエンジニアリングの専門家が、インフラストラクチャハードウェア、オペレーティングシステム、ネットワークインフラストラクチャ、およびストレージサブシステムのセットアップ、プロビジョニング、およびライフサイクル全体を管理します。コンポーネントベンダー関係管理が含まれます。
当社のサポートチームは、ハードウェアの問題によるダウンタイムを最小限に抑えるためのスペア部品のローカルデポを含め、ミッションクリティカルなアプリケーションの継続的なシステム可用性と稼働時間を提供します。
DevOpsのエキスパートは、ヒューマンエラーを減らすための自動化、プロアクティブな問題解決のためのカスタム監視と警告、クラスターの完全な可視性と正常性を実現するダッシュボードを提供します。
AI とHPCサービスのスペシャリストは、導入された資産の詳細な記録の提供、資産の安全な保管、オンサイトロジスティクスのサポート、RMAの調整、スペアの管理、在庫の正確な追跡を行います。
当社のサポートチームは、お客様の AI および HPC インフラストラクチャのコンプライアンス、整合性、ガバナンスを保証します。
多数の実稼働環境で大規模に検証された実証済みの設計セットに基づいてシステムアーキテクチャを構築することで、価値創出までの時間を短縮できます。
ラックインテグレーション、ネットワーク構成、バーンインテストなど、コンピューティングクラスターのすべてのコンポーネントを検証する工場内の専門家が、高いシステム安定性を実現します。
データストレージパートナー、データセンタースタッフ、システム冷却インフラストラクチャとの調整、ClusterWareソフトウェアの利用による生産準備の検証など、現場での設置を促進します。
当社のマネージドサービスがどのようにお客様のAI とHPCインフラストラクチャを最適化し、優れた運用を実現し、組織の価値実現までの時間を短縮できるかについて、今すぐお問い合わせください。