AI 및 HPC 데이터센터
내결함성 솔루션
통합 메모리
Penguin Solutions® 가 어떻게 ClusterWare를 활용하여 인프라를 코드로 구현하여 HPC 클러스터 배포 및 관리를 간소화하고 효율성과 확장성을 향상시키는지 알아보십시오.

Penguin Solutions ClusterWareAI는 클러스터 관리 소프트웨어입니다. 이 소프트웨어를 통해 관리자는 하드웨어 및 소프트웨어 리소스를 효율적으로 관리하고 HPC 및 AI/ML 클러스터를 최대한 활용할 수 있습니다. ClusterWareAI를 Ansible 및 Git과 같은 익숙한 DevOps 도구와 통합함으로써 관리자는 작업을 자동화하여 조직이 HPC 생산성을 극대화하고 혁신을 가속화할 수 있도록 합니다.
ClusterWareAI의 "Infrastructure as Code"를 통해 관리자는 사용 중인 모든 노드 구성을 포함하는 중앙 코드 베이스(예: Gitlab)를 유지 관리할 수 있습니다. ClusterWareAI 헤드 노드에서 호스팅될 수 있는 Git 리포지토리는 코드뿐만 아니라 데이터 및 워크플로우의 버전 제어에도 사용될 수 있습니다. 이를 통해 변경 관리가 더 간단해지고, 감사 가능하며, 추적하기 쉬워집니다.
또한, Git 리포지토리의 이러한 사용은 정보를 내부적으로 더 쉽게 공유할 수 있게 하며, 필요에 따라 파트너, 제3자 계약업체 및 지원 담당자와도 공유할 수 있게 합니다.
ClusterWareAI는 신속한 이미지 기반 프로비저닝을 사용하여 베어메탈, 가상화 또는 컨테이너화된 환경에서 즉시 실행 가능한 컴퓨팅 클러스터를 생성합니다. 일부 클러스터의 경우, 노드에 필요한 모든 소프트웨어가 해당 이미지 내에 포함될 수 있습니다. ClusterWareAI는 이기종 클러스터를 프로비저닝할 수 있으므로 하드웨어 또는 소프트웨어 속성에 따라 여러 이미지를 생성하고 배포할 수 있습니다.
예를 들어, GPU 노드는 CPU 전용 노드와 다른 이미지를 받을 수 있습니다. 그러나 클러스터의 크기가 커지거나 더 많은 노드 하위 집합이 다르게 프로비저닝되어야 할 경우, 이미지 변경 사항을 추적하기 어려울 수 있습니다.
대안으로, 관리자는 Ansible 또는 Puppet을 포함하는 경량 이미지로 부팅하여 해당 도구가 추가 이미지 구성을 제공하도록 할 수 있습니다. 이러한 방식으로 이미지 구성을 자동화하면 잠재적인 오류를 줄이고, 그렇지 않으면 수동 작업이 될 이 작업에 효율성과 감사 가능성을 도입합니다.
ClusterWareAI의 빠른 프로비저닝과 이기종 환경 지원 능력은 관리 유연성을 높일 수 있습니다. 예를 들어, 관리자는 노드의 하위 집합을 분할하여 새 이미지를 테스트할 수 있으며, 동시에 클러스터의 대부분은 표준 프로덕션 상태로 유지할 수 있습니다.
성공적인 테스트 후, 새 이미지는 클러스터의 나머지 부분에 배포될 수 있습니다. 빈번한 업데이트가 필요한 엔터프라이즈 HPC 환경에서 이 접근 방식은 업데이트가 구현되는 동안 중단 없이 대규모로 프로덕션을 계속할 수 있도록 합니다.
STIGs (Security Technical Implementation Guides)는 시스템이 감사 가능한 방식으로 적절하게 보안되도록 하는 데 사용되는 연방 보안 지침입니다. 클러스터 전체에 STIG 배포를 자동화하는 한 가지 방법은 ClusterWareAI를 통해 기본 컴퓨팅 노드 이미지를 프로비저닝한 다음, Ansible을 사용하여 이러한 기본 이미지 위에 STIG 구성 요소를 추가하는 것입니다.
원하는 STIG 구성은 부팅 시 Ansible pull을 사용하여 자동으로 실행되는 Ansible 플레이북으로 저장될 수 있습니다. 이러한 통합은 Ansible 제어 노드에서 푸시할 때 발생할 수 있는 잠재적인 병목 현상을 제거하고, 관리자가 새 노드의 부팅 프로세스를 자동화할 수 있도록 합니다.
이 예시에서 관리자는 많은 수의 시스템이 세분화된 수준에서 정확하고 효율적으로 보안되도록 보장하며, 필요한 수동 작업량을 줄입니다.

클러스터의 규모가 커짐에 따라 관리 팀의 규모도 커질 수 있습니다. 대규모 환경에서는 클러스터 관리가 더욱 복잡해지고, 더 많은 정보가 더 많은 사람들과 공유되어야 할 수 있습니다.
ClusterWareAI 수십 개에서 수만 개에 이르는 노드 클러스터를 관리하도록 설계되어 모든 규모의 클러스터에 대해 빠르고 안정적인 프로비저닝 및 상태 모니터링을 보장합니다. ClusterWareAI의 고가용성(HA) 기능은 모든 헤드 노드가 모든 컴퓨팅 노드에 서비스를 제공할 수 있도록 하여 헤드 노드 장애로 인한 중단을 크게 줄이고 심지어 제거합니다.
DevOps 관점에서 ClusterWareAI 헤드 노드는 앞서 언급한 Git 리포지토리를 호스팅할 수 있습니다. 이를 Ansible pull과 결합하면 관리자가 수천 개의 노드로 쉽게 확장할 수 있는 가벼운 구성이 가능합니다. 플레이북의 이식성을 통해 다양한 기본 이미지를 가진 여러 환경에서 재사용할 수 있으며 버전 관리를 간소화합니다. 이를 통해 새로운 환경을 빠르게 실행하고 이미지를 알려진 양호한 상태로 일관되게 부팅하는 것이 더 쉬워집니다.
ClusterWareAI는 가장 안전한 환경에서도 실행될 수 있으며 IT 보안 모범 사례를 지원합니다. 에어갭 배포가 지원되어 ISO를 내부 리포지토리에 저장함으로써 공용 인터넷 연결 없이 이미지를 생성할 수 있습니다.
또한 ClusterWareAI는 RedHat MLS 정책, FIPS 및 STIG 연방 보안 프로토콜, TPM 암호화를 포함한 SELinux를 지원합니다. 코드형 인프라를 사용하면 조직의 보안 태세를 더욱 강화하고 체계적인 버전 관리와 CI/CD 감사 가능성을 보장할 수 있습니다.
Ansible-pull 기능과 Git을 버전 제어에 사용하면 관리자가 익숙한 DevOps 도구를 사용하여 클러스터를 프로비저닝하고 관리할 수 있습니다. 이는 조직이 HPC 환경을 효율적이고 안전하게 운영하는 데 도움이 됩니다.
수십 년간의 HPC 경험을 가진 전문가 팀이 개발하고 지원하며, 우리는 사용자들과 긴밀히 협력하여 제품 로드맵을 구축하고 우리 소프트웨어가 사용자의 요구에 맞춰 계속 발전하도록 보장합니다.
AI 및 HPC 클러스터의 배포 및 관리를 간소화하도록 설계된 ClusterWareAI는 원활한 확장성, 실시간 상태 모니터링 및 최고 성능 최적화를 제공합니다. 이 솔루션은 완벽하게 최적화된 AI 생태계를 지원하며, 내장된 안정성과 효율성으로 손쉬운 관리와 원활한 확장성을 가능하게 합니다.
데모 신청 Penguin Solutions가 엔터프라이즈급 HPC 및 AI/ML 클러스터 관리를 간소화하는 데 어떻게 도움이 되는지 확인하세요. 전문가와 상담하고 가격 문의 지금 바로!

Penguin에서 우리 팀은 고성능, 고가용성 HPC 및 AI 엔터프라이즈 솔루션을 설계, 구축, 배포 및 관리하여 고객이 획기적인 혁신을 달성할 수 있도록 지원합니다.
오늘 연락하셔서 인프라 솔루션 프로젝트 요구 사항에 대해 논의해 보겠습니다.