ClusterWare on laptop screen on desk
产品 > ICE ClusterWare

ICE ClusterWare™ 智能基础设施管理软件平台

无论是十个节点还是数万个节点,ICE ClusterWare 平台都能统一和自动化集群部署和管理,为系统架构师和 IT 主管简化操作、简化管理并优化性能。

申请演示
AI 和 HPC 工作负载

与硬件无关的 AI 和 HPC 基础设施管理
软件平台

ICE ClusterWare 将超过三十亿小时的 GPU 运行体验的运营情报嵌入到软件中,极大地增强了您的团队部署、管理和优化 AI 基础架构的能力,从而大规模实现和维持集群的峰值性能。

随着人工智能 (AI) 和高性能计算 (HPC) 工作负载的持续扩大,IT 领导者面临着部署、管理和扩展高级计算基础架构的挑战,这些基础架构既能满足不同用户群体的安全和治理需求,又能维持大规模的正常运行时间和性能。

Penguin Solutions的ICE ClusterWare是一个与硬件无关的智能软件平台,可将裸机硬件、网络和软件资源无缝集成到统一的高性能计算基础架构中。

随着 AI 从试点扩展到生产,基础设施需求发生了变化。最佳绩效和卓越运营对于竞争优势至关重要。多个团队需要在不牺牲效率的情况下进行安全、隔离的集群访问。ICE ClusterWare 无缝支持这种从首次部署到企业规模的演变。

下载数据表
ICE ClusterWare on monitor

使用管理和扩展 AI 和 HPC 工作负载 ICE ClusterWare 平台

ICE ClusterWare 平台简化了 AI 和 HPC 集群的部署、管理、监控和扩展,为组织提供智能自动化、实时洞察和无缝扩展。

ICE ClusterWare on monitor
  • 通过统一的 GUI 和 CLI 控件将硬件、网络和软件集成到统一、易于管理的基础架构中,从而降低复杂性。

  • 通过零接触配置减少管理开销,确保更快的部署和持续的系统优化。

  • 使用高可用性、与硬件无关的配置和智能工作负载分配来协调数千个节点,以实现最佳性能。

  • 通过实时监控计算、网络和 GPU/CPU 指标,以及主动异常检测和自动修复,提供最佳集群性能和可靠性。

  • 使多个用户社区能够通过网络隔离的多租户安全地共享基础架构,从而在租户之间提供零信任隔离。

  • 从第一天起就支持增长,使组织能够在没有运营瓶颈的情况下扩展 AI 和 HPC 基础架构。

  • 在企鹅解决方案数十年的AI和HPC专业知识的支持下,确保了长期基础设施的可靠性和最大的投资回报率。

  • 企业级生产能力

    高级性能优化

    ICE ClusterWare 高级性能优化可提供峰值性能,增强集群弹性和资源可用性,同时减少管理开销。通过使用智能自动化来主动识别和解决隐藏的问题,它可以防止单个性能不佳的节点降低整个集群的效率。

    我们正在申请专利的异常检测技术可以持续监控 AI 基础架构,在问题影响工作负载之前发现问题,并触发自动自我修复——这意味着只有经过验证的高性能节点才能接收工作负载,用户才能获得所需的性能。

    安全资源共享

    随着越来越多的团队和客户需要集群访问权限,首席信息官必须在不牺牲效率的情况下提供安全、隔离的资源。ICE ClusterWare 通过安全地将集群资源扩展到多个独立用户社区(例如 GPU即服务客户和企业部门),使组织能够最大限度地提高人工智能基础设施的投资回报率。

    借助网络隔离的多租户,ICE ClusterWare 可确保在增加用户组时安全、性能和监管。每个租户都将获得一个完全隔离的环境,可以灵活地选择工作负载管理器、管理其用户并安全地运行工作负载。

    Data analyst reviewing monitor
    请求回电

    与 Penguin Solutions 的专家交谈

    联系我们的专家,探索 ICE ClusterWare 如何支持您的智能计算环境——无论您是刚刚起步还是希望优化和管理现有 AI 和 HPC 基础架构。

    不确定从哪里开始?已经有硬件了吗?基础设施已经到位了吗?

    我们可以提供帮助。

    我们来聊聊吧
    申请演示