Network engineer checking cable connections
服务 > 托管服务

Peak 的专家管理服务
AI 和 HPC 集群性能

Penguin Solutions 托管服务提供卓越的人工智能 (AI) 和高性能计算 (HPC) 运营,重点是最大限度地提高基础设施性能和工作负载可用性。

我们来聊聊吧

实现卓越运营
到 AI 和 HPC 基础架构

加快投资业绩

利用在百万兆级 AI 基础架构方面具有深厚专业知识的 AI 和 HPC 集群管理专家团队,在不中断日常运营和防止工作负载延迟的情况下,加快价值实现时间。

实现最佳性能

受益于我们 23 亿小时的 GPU 运行管理经验,通过自动优化和预测性维护来保持峰值性能、工作负载可靠性和投资回报率。

增强集群弹性

通过全天候主动集群监控、现场支持以及我们的卓越中心 (CoE) 运营团队识别和解决问题,保持业务连续性并减少停机时间。

一流的架构

我们久经考验的管理
服务交付模型

我们的托管服务采用我们以体验为导向的交付方法,为企业、云服务提供商 (CSP)、新云和超大规模企业带来深厚的运营专业知识。我们的方法加快了价值实现时间,最大限度地延长了正常运行时间,并提高了投资回报率。

Data center room aisle

运营手册

通过经过验证的程序、可重复的操作模板和经过多年经验完善的详细执行手册,获得一致、可靠的结果。这些手册将专业知识整合到结构化、可重复的执行模型中。

ClusterWare on laptop screen on desk

专用的技术和工具

我们通过Penguin Solutions ICE ClusterWare™(专为现代人工智能集群构建的智能集群管理平台)提供卓越的运营和峰值集群性能。该平台统一了所有集群组件,以实现全面的优化和可扩展性。

Team members reviewing rack storage

卓越中心

我们的技术 COE 是专业知识和标准化方法的中心。每个领域的高级技术专家通过可重复使用的资产加快项目交付,通过成熟的方法提高质量,并不断掌握新兴的复杂技术。

在新闻中

管理大型 NVIDIA DGX 集群专业知识

我们多年的经验使我们能够通过运营大型AI工厂来开发无与伦比的能力。例如,我们在帮助 Meta 管理 Meta Research 超级集群,拥有 2000 多个 NVIDIA DGX 系统、16,000 个 NVIDIA A100 Tensor Core GPU、500 PB 存储空间和 40,000 个 NVIDIA InfiniBand 网络链接。

Penguin Solutions与Meta的运营团队合作进行硬件集成,以部署集群并设置控制平面的主要部分。企鹅的硬件和软件专业知识帮助整合了NVIDIA和Pure Storage的贡献。

这三个合作伙伴共同为为 Meta 提供优化解决方案——新的 AI 研究超级集群 (RSC) ——发挥了关键作用,这使得 Meta 能够为此奠定基础 元界

阅读完整故事
阅读新闻稿

提供经过人工智能优化的架构和
AI 管理服务

Penguin Solutions 继续为 Meta 的大型 NVIDIA DGX 集群提供超长的正常运行时间和可用性。

Meta data center

经认证的英伟达 DGX 就绪
AI 管理服务合作伙伴

Penguin Solutions设计了大型NVIDIA DGX集群,具有高速的NVIDIA InfiniBand网络和优化的存储。我们与大多数存储供应商都有关系和专业知识,这使我们能够为每位客户提供定制的解决方案。

Meta server racks
我们的流程:其他服务

一流的
集群管理

任何规模的集群都是复杂的系统,需要计算、存储、网络和软件领域的专业知识。将人工智能和 HPC 基础设施的复杂运营需求转移给拥有超过 23 亿小时 GPU 运行管理经验的专家。

我们采用与技术无关的整体方法,提供跨供应商、架构和协议的专业知识,以支持您的各种技术选择。作为经过认证的NVIDIA DGX Ready托管服务提供商、NVIDIA精英解决方案提供商和戴尔金牌合作伙伴,我们为多供应商环境和标准化平台提供端到端的可视性和管理,让您的AI和HPC基础架构做好工作准备,并以最高效率运行。

Server room network engineers
  • 项目负责人促进清晰的沟通、问责制和与客户目标的一致性,并定期向利益相关者提供绩效评估。

  • 系统工程专家管理基础架构硬件、操作系统、网络基础设施和存储子系统的设置、配置和整个生命周期。包括组件供应商关系管理。

  • 我们的支持团队为关键任务应用程序提供持续的系统可用性和正常运行时间,包括本地备件库,以最大限度地减少硬件问题造成的停机时间。

  • DevOps 专家提供自动化以减少人为错误,提供自定义监控和警报以主动解决问题,提供仪表板以实现集群的完整可见性和运行状况。

  • AI 和 HPC 服务专家提供已部署资产的详细记录、保护资产存储、支持现场物流、协调 RMA、管理备件并准确跟踪库存。

  • 我们的支持团队确保您的 AI 和 HPC 基础设施的合规、完整性和治理。

  • 我们的流程:其他服务

    AI 和 HPC 基础设施综合服务

    Penguin Solutions致力于帮助客户取得成功。凭借在设计、构建、部署和管理 AI 和加速计算集群方面拥有 25 年的 HPC 经验,我们已经支持了一些世界上最复杂的工作负载。

    Empty server room
    设计

    设计基础设施服务

    将系统架构建立在一组经过大规模生产部署中大规模验证的成熟设计基础上,从而缩短实现价值的时间。

    探索我们的设计服务
    探索我们的设计服务
    Clean room server build cabling
    构建

    建筑基础设施服务

    我们的出厂专家会验证计算集群的所有组件,包括机架集成、网络配置和老化测试,从而实现较高的系统稳定性。

    探索我们的建造服务
    探索我们的建造服务
    Server room network engineers
    部署

    部署基础架构服务

    推动现场安装,包括与数据存储合作伙伴、数据中心员工、系统冷却基础架构进行协调,以及使用我们的 ClusterWare 软件来验证生产就绪情况。

    探索我们的部署服务
    探索我们的部署服务
    Woman in data center with tablet
    请求回电

    与 Penguin Solutions 的专家交谈

    立即联系我们,讨论我们的托管服务如何优化您的AI和HPC基础架构,实现卓越运营,并缩短组织实现价值的时间。

    我们来聊聊吧