サービス > 管理

AI および HPC ワークロード向けのインフラストラクチャ管理サービスの提供

従来のITシステムとは異なり、HPCとAI のインフラストラクチャは異なるプロセッサ、プラットフォーム、ネットワークを使用し、精度の高い運用を行います。これらの違いは、社内ITチームのパフォーマンスと稼働時間の管理能力に影響を与える可能性があります。

相談する

ソルビング・アーキテクチャ
精密管理

高感度機器

AI および HPC クラスターは、独自の障害シグネチャを持つ特殊なコンポーネントを使用します。要素を適切に管理および調整するには、従来の監視ツールを変更する必要がある場合があります。

高価な GPU

どのクラスターでもそうであるように、AI と HPC に使用されるクラスターは、パフォーマンスの問題や障害パターンが財務に大きな影響を与える可能性があるため、ヘルスチェックで継続的に管理する必要があります。

信頼できる方法

NVIDIA 認定のマネージドサービスエンジニアが SLA ベースの稼働時間レポートで継続的に監視、警告、エスカレーション管理を行うことで、ワークロードの遅延を防ぎます。

クラス最高のアーキテクチャ

AI の成功には実証が必要
マネジメント・エクスペリエンス

Penguin Solutions、HPCクラスターの構築と管理において25年以上の経験を持ち、
非常に大規模なクラスターでの8年以上の経験。これ 認定エクスペリエンス これにより、非常に大規模なAI ファクトリーで比類のない機能を開発することができました。

20億時間以上

20億時間を超えるGPUランタイムにより、大規模で複雑な環境の稼働時間とスループットを向上させます。

85,000 GPU

85,000を超えるGPUが導入され、当社の管理サービスを受けているため、現在および進化するAI インフラストラクチャの要件を引き続き満たしています。

センター・オブ・エクセレンス (COE)

エンジニアリングからテクニカルオペレーションまで、Penguinは専門知識を提供し、主要な機能領域を調整して最適なパフォーマンスを実現します。

ニュースで

大規模な NVIDIA DGX クラスターの管理に関する専門知識

私たちの長年の経験により、大規模なAI ファクトリーの運営において比類のない能力を開発することができました。たとえば、私たちが支援しています メタ 2000 台以上の NVIDIA DGX システム、16,000 台の NVIDIA A100 Tensor コア GPU、500 PB のストレージ、40,000 個の NVIDIA InfiniBand ネットワークリンクを備えたメタリサーチスーパークラスターを管理します。

Penguin Solutionsは、Metaの運用チームと協力してハードウェア統合を行い、クラスターをデプロイし、コントロールプレーンの主要部分をセットアップしました。ペンギンのハードウェアとソフトウェアの専門知識は、NVIDIA と Pure Storage の貢献を結びつけるのに役立ちました。

これら3つのパートナーは協力して、Metaに最適化されたソリューション、つまり新しいAI リサーチスーパークラスター(RSC)を提供するための鍵となりました。これにより、Metaは、そのための基礎を築くことができました。 メタバース

全文を読む
プレスリリースを読む

AI に最適化されたアーキテクチャの提供と
AI マネージドサービス

Penguin Solutionsは、Metaの大規模なNVIDIA DGXクラスターに引き続き並外れた稼働時間と可用性を提供しています。

NVIDIA DGX 対応認定済み
AI マネージドサービスパートナー

Penguin Solutions、高速 NVIDIA InfiniBand ネットワーキングと最適化されたストレージを備えた大規模な NVIDIA DGX クラスターを設計しました。私たちはほとんどのストレージベンダーとの関係と専門知識を持っているため、すべてのお客様にオーダーメイドのソリューションを提供できます。

当社のプロセス:追加サービス

AI と HPC インフラストラクチャの総合サービス

Penguin Solutions、お客様の成功に専念しています。AI とアクセラレーテッドコンピューティングクラスターの設計、構築、導入、管理における 25 年のHPCの経験により、世界で最も洗練されたワークロードのいくつかを実現してきました。

[デザイン]

デザイン・インフラストラクチャー・サービス

多数の実稼働環境で大規模に検証された実証済みの設計セットに基づいてシステムアーキテクチャを構築することで、価値創出までの時間を短縮できます。

当社のデザインサービスをご覧ください
当社のデザインサービスをご覧ください
ビルド

ビルディングインフラサービス

ラックインテグレーション、ネットワーク構成、バーンインテストなど、コンピューティングクラスターのすべてのコンポーネントを検証する工場内の専門家が、高いシステム安定性を実現します。

当社のビルドサービスをご覧ください
当社のビルドサービスをご覧ください
デプロイ

導入インフラストラクチャサービス

データストレージパートナー、データセンタースタッフ、システム冷却インフラストラクチャとの調整、ClusterWareソフトウェアの利用による生産準備の検証など、現場での設置を促進します。

当社の導入サービスをご覧ください
当社の導入サービスをご覧ください
コールバックをリクエストする

ペンギン・ソリューションズの専門家に聞く

今すぐお問い合わせいただき、完全な 24 時間 365 日のサポートを含むエンドツーエンドのサービスをフルセットで提供する、認定された NVIDIA DGX 対応 AI マネージドサービスプロバイダーとして、生産準備と変更管理を保証する方法の詳細をご覧ください。

相談する