Penguin Solutions ClusterWareAI는 클러스터 관리 소프트웨어입니다. 이 소프트웨어를 통해 관리자는 하드웨어 및 소프트웨어 리소스를 효율적으로 관리하고 HPC 및 AI/ML 클러스터를 최대한 활용할 수 있습니다. ClusterWareAI를 Ansible 및 Git과 같은 익숙한 DevOps 도구와 통합함으로써 관리자는 작업을 자동화하여 조직이 HPC 생산성을 극대화하고 혁신을 가속화할 수 있도록 합니다.

ClusterWareAI의 "Infrastructure as Code"를 통해 관리자는 사용 중인 모든 노드 구성을 포함하는 중앙 코드 베이스(예: Gitlab)를 유지 관리할 수 있습니다. ClusterWareAI 헤드 노드에서 호스팅될 수 있는 Git 리포지토리는 코드뿐만 아니라 데이터 및 워크플로우의 버전 제어에도 사용될 수 있습니다. 이를 통해 변경 관리가 더 간단해지고, 감사 가능하며, 추적하기 쉬워집니다.

또한, Git 리포지토리의 이러한 사용은 정보를 내부적으로 더 쉽게 공유할 수 있게 하며, 필요에 따라 파트너, 제3자 계약업체 및 지원 담당자와도 공유할 수 있게 합니다.

이미지 구성 자동화

ClusterWareAI는 신속한 이미지 기반 프로비저닝을 사용하여 베어메탈, 가상화 또는 컨테이너화된 환경에서 즉시 실행 가능한 컴퓨팅 클러스터를 생성합니다. 일부 클러스터의 경우, 노드에 필요한 모든 소프트웨어가 해당 이미지 내에 포함될 수 있습니다. ClusterWareAI는 이기종 클러스터를 프로비저닝할 수 있으므로 하드웨어 또는 소프트웨어 속성에 따라 여러 이미지를 생성하고 배포할 수 있습니다.

예를 들어, GPU 노드는 CPU 전용 노드와 다른 이미지를 받을 수 있습니다. 그러나 클러스터의 크기가 커지거나 더 많은 노드 하위 집합이 다르게 프로비저닝되어야 할 경우, 이미지 변경 사항을 추적하기 어려울 수 있습니다.

대안으로, 관리자는 Ansible 또는 Puppet을 포함하는 경량 이미지로 부팅하여 해당 도구가 추가 이미지 구성을 제공하도록 할 수 있습니다. 이러한 방식으로 이미지 구성을 자동화하면 잠재적인 오류를 줄이고, 그렇지 않으면 수동 작업이 될 이 작업에 효율성과 감사 가능성을 도입합니다.

신속한 프로비저닝으로 유연성 확보

ClusterWareAI의 빠른 프로비저닝과 이기종 환경 지원 능력은 관리 유연성을 높일 수 있습니다. 예를 들어, 관리자는 노드의 하위 집합을 분할하여 새 이미지를 테스트할 수 있으며, 동시에 클러스터의 대부분은 표준 프로덕션 상태로 유지할 수 있습니다.

성공적인 테스트 후, 새 이미지는 클러스터의 나머지 부분에 배포될 수 있습니다. 빈번한 업데이트가 필요한 엔터프라이즈 HPC 환경에서 이 접근 방식은 업데이트가 구현되는 동안 중단 없이 대규모로 프로덕션을 계속할 수 있도록 합니다.

보안 프로토콜 배포

STIGs (Security Technical Implementation Guides)는 시스템이 감사 가능한 방식으로 적절하게 보안되도록 하는 데 사용되는 연방 보안 지침입니다. 클러스터 전체에 STIG 배포를 자동화하는 한 가지 방법은 ClusterWareAI를 통해 기본 컴퓨팅 노드 이미지를 프로비저닝한 다음, Ansible을 사용하여 이러한 기본 이미지 위에 STIG 구성 요소를 추가하는 것입니다.

원하는 STIG 구성은 부팅 시 Ansible pull을 사용하여 자동으로 실행되는 Ansible 플레이북으로 저장될 수 있습니다. 이러한 통합은 Ansible 제어 노드에서 푸시할 때 발생할 수 있는 잠재적인 병목 현상을 제거하고, 관리자가 새 노드의 부팅 프로세스를 자동화할 수 있도록 합니다.

이 예시에서 관리자는 많은 수의 시스템이 세분화된 수준에서 정확하고 효율적으로 보안되도록 보장하며, 필요한 수동 작업량을 줄입니다.

Diagram of how the Scyld Clusterware works.

엔터프라이즈 수준에서 시스템 관리 간소화

클러스터의 규모가 커짐에 따라 관리 팀의 규모도 커질 수 있습니다. 대규모 환경에서는 클러스터 관리가 더욱 복잡해지고, 더 많은 정보가 더 많은 사람들과 공유되어야 할 수 있습니다.

ClusterWareAI 수십 개에서 수만 개에 이르는 노드 클러스터를 관리하도록 설계되어 모든 규모의 클러스터에 대해 빠르고 안정적인 프로비저닝 및 상태 모니터링을 보장합니다. ClusterWareAI의 고가용성(HA) 기능은 모든 헤드 노드가 모든 컴퓨팅 노드에 서비스를 제공할 수 있도록 하여 헤드 노드 장애로 인한 중단을 크게 줄이고 심지어 제거합니다.

DevOps 관점에서 ClusterWareAI 헤드 노드는 앞서 언급한 Git 리포지토리를 호스팅할 수 있습니다. 이를 Ansible pull과 결합하면 관리자가 수천 개의 노드로 쉽게 확장할 수 있는 가벼운 구성이 가능합니다. 플레이북의 이식성을 통해 다양한 기본 이미지를 가진 여러 환경에서 재사용할 수 있으며 버전 관리를 간소화합니다. 이를 통해 새로운 환경을 빠르게 실행하고 이미지를 알려진 양호한 상태로 일관되게 부팅하는 것이 더 쉬워집니다.

보안 중심 환경에 최적화

ClusterWareAI는 가장 안전한 환경에서도 실행될 수 있으며 IT 보안 모범 사례를 지원합니다. 에어갭 배포가 지원되어 ISO를 내부 리포지토리에 저장함으로써 공용 인터넷 연결 없이 이미지를 생성할 수 있습니다.

또한 ClusterWareAI는 RedHat MLS 정책, FIPS 및 STIG 연방 보안 프로토콜, TPM 암호화를 포함한 SELinux를 지원합니다. 코드형 인프라를 사용하면 조직의 보안 태세를 더욱 강화하고 체계적인 버전 관리와 CI/CD 감사 가능성을 보장할 수 있습니다.

Penguin Solutions의 HPC 전문가와 협력하세요

Ansible-pull 기능과 Git을 버전 제어에 사용하면 관리자가 익숙한 DevOps 도구를 사용하여 클러스터를 프로비저닝하고 관리할 수 있습니다. 이는 조직이 HPC 환경을 효율적이고 안전하게 운영하는 데 도움이 됩니다.

수십 년간의 HPC 경험을 가진 전문가 팀이 개발하고 지원하며, 우리는 사용자들과 긴밀히 협력하여 제품 로드맵을 구축하고 우리 소프트웨어가 사용자의 요구에 맞춰 계속 발전하도록 보장합니다.

AI 및 HPC 클러스터의 배포 및 관리를 간소화하도록 설계된 ClusterWareAI는 원활한 확장성, 실시간 상태 모니터링 및 최고 성능 최적화를 제공합니다. 이 솔루션은 완벽하게 최적화된 AI 생태계를 지원하며, 내장된 안정성과 효율성으로 손쉬운 관리와 원활한 확장성을 가능하게 합니다.

데모 신청 Penguin Solutions가 엔터프라이즈급 HPC 및 AI/ML 클러스터 관리를 간소화하는 데 어떻게 도움이 되는지 확인하세요. 전문가와 상담하고 가격 문의 지금 바로!

작성자 이미지

관련 기사

에서 전문가와 상담하세요
Penguin Solutions

Penguin에서 우리 팀은 고성능, 고가용성 HPC 및 AI 엔터프라이즈 솔루션을 설계, 구축, 배포 및 관리하여 고객이 획기적인 혁신을 달성할 수 있도록 지원합니다.

오늘 연락하셔서 인프라 솔루션 프로젝트 요구 사항에 대해 논의해 보겠습니다.

렛츠 토크