HPC(고성능 컴퓨팅) 랜딩 존 가속기는 환경 배포를 자동화합니다. 이 환경은 Azure에서 전체 HPC 클러스터 솔루션을 위한 엔드 투 엔드 배포 메커니즘을 만들기 위해 사용자 지정할 수 있는 기본 프레임워크를 제공합니다. 가속기는 엔터프라이즈 규모 랜딩 존을 준비할 수 있는 오픈 소스 스크립트 및 템플릿의 컬렉션입니다. 클라우드 채택 프레임워크의 아키텍처 및 모범 사례를 준수하는 특정 아키텍처 접근 방식 및 참조 구현을 제공할 수 있습니다.
고객은 비즈니스 요구 사항에 맞게 다양한 방법으로 HPC를 채택하고 HPC 랜딩 존 가속기를 조정하여 사용자 방식에 맞는 아키텍처를 생성할 수 있습니다. 액셀러레이터를 사용하면 조직을 지속 가능한 규모로 전환할 수 있습니다.
엔터프라이즈 규모 랜딩 존 구현
HPC 랜딩 존 가속기는 성공적으로 구현된 엔터프라이즈 규모 랜딩 존으로 시작한다고 가정합니다. 이 필수 구성 요소에 대한 자세한 내용은 다음 문서를 참조하세요.
HPC 랜딩 존 가속기가 제공하는 내용
HPC 랜딩 존 가속기의 랜딩 존에 대한 접근 방식은 프로젝트에 다음 자산을 제공합니다.
- 중요한 의사 결정을 평가하는 데 도움이 되는 디자인 지침
- 랜딩 존 아키텍처
- 다음을 포함하는 구현:
- HPC 배포를 위한 환경을 만들 수 있는 배포 가능한 참조
- 배포된 환경을 테스트하기 위한 Microsoft 승인 HPC 참조 구현
에너지, 제조 및 금융에 대한 디자인 지침
랜딩 존의 아키텍처는 조직마다 다를 뿐 아니라 비즈니스 부문에 따라 다릅니다. 이 섹션에서는 랜딩 존을 만들기 위한 지침을 제공하는 문서를 나열합니다.
- Azure HPC에 대한 ID 및 액세스 관리
- Azure HPC에 대한 네트워크 토폴로지 및 연결
- HPC에 대한 리소스 조직
- Azure VM에서 대규모 HPC 애플리케이션 워크로드를 처리하기
- HPC 환경용 스토리지
AI 워크로드용 HPC 컴퓨팅을 선택하기 위한 디자인 지침
AI 워크로드에 적합한 GPU 최적화 컴퓨팅 SKU를 선택하는 것은 성능을 최적화하고 비용을 제어하는 데 중요합니다. Microsoft는 더 많은 GPU 성능을 활용하는 워크로드에 최적화된 다양한 SKU를 제공합니다. AI 워크로드에 적합한 SKU를 선택할 때는 몇 가지 고려 사항이 있습니다. 워크로드가 작을수록 NDv6과 같은 더 강력한 SKU의 CPU, GPU 및 대역폭의 일부만 활용할 수 있습니다. 더 작은 작업에 대해 NCv4 및 NDv4와 같은 다른 컴퓨팅 SKU를 고려할 수 있습니다. AI 워크로드에 적합한 GPU 최적화 컴퓨팅 SKU를 선택할 때 다음 요소를 고려합니다.
- 체크포인팅. 기계 학습 모델을 실행할 때 검사점 간격과 같은 요소를 고려합니다. 이는 학습 단계 동안 GPU 성능에 영향을 미칠 수 있습니다. 스토리지 효율성과 원활한 GPU 작업 유지 관리 간의 균형을 유지합니다. GPU 사용량을 모니터링합니다.
- 추론. 추론 요구 사항은 학습 요구 사항과 다르며 CPU 성능을 최대화할 수 있는 CPU 부하가 더 높을 수 있습니다. 컴퓨팅 SKU를 선택할 때 모델의 추론 요구 사항을 고려합니다. CPU 사용량을 모니터링합니다.
- 훈련. 학습 중에 CPU 및 GPU 사용량을 모두 모니터링하는 모델의 요구 사항을 고려합니다.
- 작업 크기 조정. AI 워크로드에 대한 컴퓨팅 SKU를 고려할 때 작업의 크기를 고려합니다. 약 OPT 1.3B와 같은 더 작은 작업은 더 큰 SKU 크기를 활용하지 못할 수 있으며 작업의 단계(추론, 학습)에 따라 CPU 및 GPU 전원을 유휴 상태로 둘 수 있습니다.
- 대역폭. 더 크고 낮은 대기 시간 대역폭은 활용되지 않을 때 비용이 발생할 수 있습니다. 추가 대역폭이 필요한 가장 큰 모델에 대해서만 InfiniBand를 고려합니다.
Azure의 GPU 최적화 가상 머신 크기를 봅니다.
예: 에너지에 대한 개념 참조 아키텍처
다음 개념 참조 아키텍처는 에너지 환경에 대한 디자인 영역 및 모범 사례를 보여 주는 예제입니다.
예: 재무에 대한 개념 참조 아키텍처
다음 개념 참조 아키텍처는 재무 환경에 대한 디자인 영역 및 모범 사례를 보여 주는 예제입니다.
예제: 제조를 위한 개념 참조 아키텍처
다음 개념 참조 아키텍처는 디자인 영역 및 제조 환경에 대한 모범 사례를 보여 주는 예제입니다.
HPC 랜딩 존 가속기 가져오기
HPC 랜딩 존 가속기를 배포하려면 Azure Marketplace 또는 Azure CLI를 사용합니다.
Azure Marketplace를 통해 배포하려면 Azure Marketplace를 사용하여 Slurm용 Azure CycleCloud 작업 영역 배포를 참조하세요.
CLI를 통해 배포하려면 CLI를 사용하여 Slurm 환경에 대한 Azure CycleCloud 작업 영역 배포를 참조하세요.
이 가속기 솔루션에 대한 자세한 내용은 Slurm용 Azure CycleCloud 작업 영역을 참조하세요.
다음 단계
HPC 랜딩 존 가속기 아키텍처에 대한 고려 사항 및 권장 사항은 Azure ID 및 액세스 관리에서 HPC 랜딩 존 가속기의 중요한 디자인 영역을 검토합니다.