使用 AI 托管服务优化 HPC 和 AI 工作负载

实现卓越运营
到 AI 和 HPC 基础架构

利用我们的经验

我们的 AI 和 HPC 专家团队拥有超过 33 亿小时的 GPU 运行时管理经验，可靠 AI 基础架构和卓越运营。

保持最佳性能

通过集群优化、预测性维护、全天候主动监控和专门的现场支持，最大限度地提高集群的可靠性、效率和性能。

无缝扩展集群

在没有服务中断或基础设施的情况下快速增长，在不断变化的技术环境中经验丰富的团队的支持下扩展障碍。

一流的架构

我们久经考验的管理
服务交付模型

我们的托管服务采用我们以体验为导向的交付方法，为企业、云服务提供商 (CSP)、新云和超大规模企业带来深厚的运营专业知识。我们的方法加快了价值实现时间，最大限度地延长了正常运行时间，并提高了投资回报率。

运营手册

通过经过验证的程序、可重复的操作模板和经过多年经验完善的详细执行手册，获得一致、可靠的结果。这些手册将专业知识整合到结构化、可重复的执行模型中。

专用技术与工具

我们通过 Penguin Solutions ClusterWareAI™ 提供卓越的运营和顶级的集群性能，这是一款专为现代 AI 集群打造的 AI 工厂平台操作系统软件。该平台统一了所有集群组件，以实现全面的优化和可扩展性。

卓越中心

我们的技术 COE 是专业知识和标准化方法的中心。每个领域的高级技术专家通过可重复使用的资产加快项目交付，通过成熟的方法提高质量，并不断掌握新兴的复杂技术。

在新闻中

管理大型 NVIDIA DGX 集群专业知识

我们多年的经验使我们能够通过运营大型AI工厂来开发无与伦比的能力。例如，我们在帮助 Meta 管理 Meta Research 超级集群，拥有 2000 多个 NVIDIA DGX 系统、16,000 个 NVIDIA A100 Tensor Core GPU、500 PB 存储空间和 40,000 个 NVIDIA InfiniBand 网络链接。

Penguin Solutions与Meta的运营团队合作进行硬件集成，以部署集群并设置控制平面的主要部分。企鹅的硬件和软件专业知识帮助整合了NVIDIA和Pure Storage的贡献。

这三个合作伙伴共同为为 Meta 提供优化解决方案——新的 AI 研究超级集群 (RSC) ——发挥了关键作用，这使得 Meta 能够为此奠定基础元界。

提供经过人工智能优化的架构和
AI 管理服务

Penguin Solutions 继续为 Meta 的大型 NVIDIA DGX 集群提供超长的正常运行时间和可用性。

经认证的英伟达 DGX 就绪
AI 管理服务合作伙伴

Penguin Solutions设计了大型NVIDIA DGX集群，具有高速的NVIDIA InfiniBand网络和优化的存储。我们与大多数存储供应商都有关系和专业知识，这使我们能够为每位客户提供定制的解决方案。

我们的流程：其他服务

一流的
集群管理

任何规模的集群都是复杂的系统，需要计算、存储、网络和软件领域的专业知识。将人工智能和 HPC 基础设施的复杂运营需求转移给拥有超过 23 亿小时 GPU 运行管理经验的专家。

我们采用与技术无关的整体方法，提供跨供应商、架构和协议的专业知识，以支持您的各种技术选择。作为经过认证的NVIDIA DGX Ready托管服务提供商、NVIDIA精英解决方案提供商和戴尔金牌合作伙伴，我们为多供应商环境和标准化平台提供端到端的可视性和管理，让您的AI和HPC基础架构做好工作准备，并以最高效率运行。

参与领导力

项目负责人促进清晰的沟通、问责制和与客户目标的一致性，并定期向利益相关者提供绩效评估。

集群管理和编排

系统工程专家管理基础架构硬件、操作系统、网络基础设施和存储子系统的设置、配置和整个生命周期。包括组件供应商关系管理。

现场或远程硬件支持

我们的支持团队为关键任务应用程序提供持续的系统可用性和正常运行时间，包括本地备件库，以最大限度地减少硬件问题造成的停机时间。

自动化与集成

DevOps 专家提供自动化以减少人为错误，提供自定义监控和警报以主动解决问题，提供仪表板以实现集群的完整可见性和运行状况。

资产和库存控制

AI 和 HPC 服务专家提供已部署资产的详细记录、保护资产存储、支持现场物流、协调 RMA、管理备件并准确跟踪库存。

变更、事件和发布管理

我们的支持团队确保您的 AI 和 HPC 基础设施的合规、完整性和治理。

我们的流程：其他服务

AI 和 HPC 基础设施综合服务

Penguin Solutions致力于帮助客户取得成功。凭借在设计、构建、部署和管理 AI 和加速计算集群方面拥有 25 年的 HPC 经验，我们已经支持了一些世界上最复杂的工作负载。

设计

设计基础设施服务

将系统架构建立在一组经过大规模生产部署中大规模验证的成熟设计基础上，从而缩短实现价值的时间。

构建

建筑基础设施服务

我们的出厂专家会验证计算集群的所有组件，包括机架集成、网络配置和老化测试，从而实现较高的系统稳定性。

部署

部署基础架构服务

推动现场安装，包括与数据存储合作伙伴、数据中心员工、系统冷却基础架构进行协调，以及使用我们的 ClusterWare 软件来验证生产就绪情况。

请求回电

与 Penguin Solutions 的专家交谈

立即联系我们，讨论我们的托管服务如何优化您的AI和HPC基础架构，实现卓越运营，并缩短组织实现价值的时间。

Peak 的专家管理服务
AI 和 HPC 集群性能

实现卓越运营
到 AI 和 HPC 基础架构

利用我们的经验

保持最佳性能

无缝扩展集群

我们久经考验的管理
服务交付模型

运营手册

专用技术与工具

卓越中心

管理大型 NVIDIA DGX 集群专业知识

提供经过人工智能优化的架构和
AI 管理服务

经认证的英伟达 DGX 就绪
AI 管理服务合作伙伴

一流的
集群管理

AI 和 HPC 基础设施综合服务

设计基础设施服务

建筑基础设施服务

部署基础架构服务

与 Penguin Solutions 的专家交谈

AI工厂平台公司

取得联系

合作伙伴

公司

Peak 的专家管理服务 AI 和 HPC 集群性能

实现卓越运营 到 AI 和 HPC 基础架构

利用我们的经验

保持最佳性能

无缝扩展集群

我们久经考验的管理 服务交付模型

运营手册

专用技术与工具

卓越中心

管理大型 NVIDIA DGX 集群专业知识

提供经过人工智能优化的架构和AI 管理服务

经认证的英伟达 DGX 就绪AI 管理服务合作伙伴

一流的 集群管理

AI 和 HPC 基础设施综合服务

设计基础设施服务

建筑基础设施服务

部署基础架构服务

与 Penguin Solutions 的专家交谈

AI工厂平台公司

取得联系

合作伙伴

公司

Peak 的专家管理服务
AI 和 HPC 集群性能

实现卓越运营
到 AI 和 HPC 基础架构

我们久经考验的管理
服务交付模型

提供经过人工智能优化的架构和
AI 管理服务

经认证的英伟达 DGX 就绪
AI 管理服务合作伙伴

一流的
集群管理