다음을 통해 공유


Slurm용 Azure CycleCloud 작업 영역이란?

Slurm은 AI/HPC 및 클라우드 컴퓨팅에 가장 인기 있고 널리 사용되는 오픈 소스 워크로드 관리자 중 하나입니다. Slurm을 사용하면 사용자가 컴퓨팅 노드 집합에서 대규모 병렬 및 분산 애플리케이션을 실행할 수 있으며 작업 예약, 리소스 관리, 내결함성 및 전원 관리와 같은 기능을 제공합니다. Slurm은 세계 최고의 슈퍼컴퓨터, 연구 기관, 대학 및 기업에서 사용됩니다.

그러나 클라우드에서 Slurm 클러스터를 설정하고 관리하는 것은 특히 클라우드 환경 또는 Slurm 구성에 익숙하지 않은 사용자에게는 도전적이고 시간이 많이 걸릴 수 있습니다. 사용자는 컴퓨팅 노드 프로비전 및 크기 조정, Slurm 소프트웨어 설치 및 업데이트, 네트워크 및 스토리지 구성, 클러스터 상태 및 성능 모니터링 및 문제 해결과 같은 작업을 처리해야 합니다. 이러한 작업은 핵심 연구 또는 비즈니스 목표에서 사용자를 방해하고 AI/HPC 워크로드의 생산성과 효율성을 줄일 수 있습니다.

Slurm용 Azure CycleCloud 작업 영역은 사용자가 Azure 또는 Slurm에 대한 사전 지식 없이도 Azure의 CycleCloud를 사용하여 미리 정의된 Slurm 클러스터를 쉽게 만들고, 구성하고, 배포할 수 있는 Azure Marketplace 솔루션 템플릿입니다. Slurm 클러스터는 컨테이너화된 AI/HPC Slurm 작업을 지원하도록 PMix v4, Pyxis 및 enroot로 미리 구성됩니다. 사용자는 SSH 또는 Visual Studio Code를 사용하여 프로비전된 로그인 노드에 액세스하여 Slurm 작업 제출 및 관리와 같은 일반적인 작업을 수행할 수 있습니다.

Azure CycleCloud는 이미 이러한 중 일부를 수행할 수 있지만 AI/HPC 인프라를 배포하지는 않습니다. 사용자는 CycleCloud 설치 및 구성, 네트워크 및 스토리지 구성, Slurm 클러스터 만들기 및 구성과 같은 작업을 처리해야 합니다. Slurm용 Azure CycleCloud 작업 영역은 Azure Portal 또는 Azure CLI를 통해 직접 배포할 수 있는 Marketplace 솔루션 템플릿에서 이러한 작업을 실행합니다. 며칠 또는 몇 주가 아닌 몇 분 안에 준비가 완료되었습니다.

Slurm용 Azure CycleCloud 작업 영역의 이점은 무엇인가요?

Azure CycleCloud는 온-프레미스 AI/HPC 워크로드의 일부를 리프트 앤 시프트하거나 새 워크로드를 빌드하기 위해 Azure에서 AI/HPC 환경을 빌드하려는 경우에 유용한 솔루션입니다. 그러나 전체 엔드투엔드 AI/HPC 환경을 구축하는 것은 쉬운 일이 아니며, 네트워크를 디자인하는 방법, 공유 파일 시스템으로 사용할 스토리지 구성 요소, 워크로드를 실행하기 위한 VM 유형, 프로젝트를 복잡하게 만들 수 있는 많은 작은 것들을 결정해야 합니다.

Slurm용 Azure CycleCloud 작업 영역은 Azure에서 Slurm 워크로드를 실행하려는 사용자에게 다음과 같은 몇 가지 이점을 제공합니다.

  • 쉽고 빠른 클러스터 만들기: 사용자는 GUI의 몇 가지 간단한 단계를 수행하여 몇 분 안에 Azure에서 Slurm 클러스터를 만들 수 있습니다. 이는 Slurm용 Azure CycleCloud 작업 영역이 없는 과거의 일 또는 주 작업과 비교해야 합니다. 사용자는 다양한 Azure VM(가상 머신) 크기 및 유형 중에서 선택하고 노드 수, 네트워크 구성, Azure NetApp Files에서 Azure Managed Lustre Filesystem으로의 스토리지 옵션 및 Slurm 매개 변수와 같은 클러스터 설정을 사용자 지정할 수 있습니다.

  • 유연하고 동적인 클러스터 관리: Slurm 클러스터는 Azure CycleCloud에 의해 확장 또는 축소됩니다. 사용자는 클러스터 상태, 성능 및 사용률을 모니터링하고 GUI에서 클러스터 로그 및 메트릭을 볼 수도 있습니다. 또한 사용자는 더 이상 필요하지 않을 때 Slurm 클러스터를 삭제하고 사용하는 리소스에 대해서만 비용을 지불할 수 있습니다.

Slurm용 Azure CycleCloud 작업 영역을 만들려면 어떻게 해야 하나요?

Slurm용 Azure CycleCloud 작업 영역은 Azure Marketplace에서 또는 Azure CLI를 사용하여 배포할 수 있습니다. Marketplace에서 배포하려면 먼저 Slurm을 검색한 다음 만들기 단추를 선택합니다. Azure CLI를 사용하여 배포하려면 먼저 입력 매개 변수 파일을 만든 다음 명령을 사용하여 az deployment sub create 배포해야 합니다. 자세한 지침은 CLI를 사용하여 CycleCloud Slurm 작업 영역 환경을 배포하는 방법에서 찾을 수 있습니다.

Slurm용 Azure CycleCloud 작업 영역이 아닌 것은 무엇인가요?

Slurm용 Azure CycleCloud 작업 영역은 PaaS 서비스가 아닙니다. 전체 인프라가 테넌트에 배포되므로 모든 인프라를 배포하거나(그린필드 배포) 기존 리소스를 재사용(브라운필드 배포)할 수 있습니다(예: 대상 리소스 그룹, Virtual Network, Azure NetApp Files 등).

Slurm 배포 환경에 대한 Azure CycleCloud 작업 영역의 모양

개요 아키텍처

Slurm용 Azure CycleCloud 작업 영역에서 배포할 일반적인 아키텍처는 다음과 같습니다. CycleCloud를 실행하기 위한 Virtual Machine, 사용자의 홈 디렉터리를 위한 공유 파일 시스템, CycleCloud 프로젝트 스토리지에 대한 스토리지 계정과 같은 필수 리소스가 있습니다.

가상 네트워크는 Slurm용 Azure CycleCloud 작업 영역 또는 리소스를 만들 기존 네트워크를 통해 배포할 수 있습니다. 필요에 따라 Azure Managed Lustre Filesystem이 자체 서브넷에 만들어집니다.

회사 보안 규칙에서 공용 IP를 허용하지 않는 경우(그리고 많은 경우) 일반적인 허브 및 스포크 패턴으로 기존 가상 네트워크에 대한 가상 네트워크 피어링을 만들 수 있습니다. 허브에는 Virtual Network 게이트웨이 또는 Azure Bastion과 같은 모든 연결 서비스가 포함됩니다.

마지막으로 공용 IP가 없는 VPN 환경에서 Bastion이 필요하며 로그인 노드에서 CycleCloud 웹 포털 및 SSH에 연결하기 위한 모든 보안 연결을 제공합니다.

다음 단계