다음을 통해 공유


Azure HPC(고성능 컴퓨팅) 랜딩 존 가속기

HPC(고성능 컴퓨팅) 랜딩 존 가속기는 환경 배포를 자동화합니다. 이 환경은 Azure에서 전체 HPC 클러스터 솔루션을 위한 엔드 투 엔드 배포 메커니즘을 만들기 위해 사용자 지정할 수 있는 기본 프레임워크를 제공합니다. 가속기는 엔터프라이즈 규모 랜딩 존을 준비할 수 있는 오픈 소스 스크립트 및 템플릿의 컬렉션입니다. 클라우드 채택 프레임워크의 아키텍처 및 모범 사례를 준수하는 특정 아키텍처 접근 방식 및 참조 구현을 제공할 수 있습니다.

고객은 비즈니스 요구 사항에 맞게 다양한 방법으로 HPC를 채택하고 HPC 랜딩 존 가속기를 조정하여 사용자 방식에 맞는 아키텍처를 생성할 수 있습니다. 액셀러레이터를 사용하면 조직을 지속 가능한 규모로 전환할 수 있습니다.

엔터프라이즈 규모 랜딩 존 구현

HPC 랜딩 존 가속기는 성공적으로 구현된 엔터프라이즈 규모 랜딩 존으로 시작한다고 가정합니다. 이 필수 구성 요소에 대한 자세한 내용은 다음 문서를 참조하세요.

HPC 랜딩 존 가속기가 제공하는 내용

HPC 랜딩 존 가속기의 랜딩 존에 대한 접근 방식은 프로젝트에 다음 자산을 제공합니다.

  • 중요한 의사 결정을 평가하는 데 도움이 되는 디자인 지침
  • 랜딩 존 아키텍처
  • 다음을 포함하는 구현:
    • HPC 배포를 위한 환경을 만들 수 있는 배포 가능한 참조
    • 배포된 환경을 테스트하기 위한 Microsoft 승인 HPC 참조 구현

에너지, 제조 및 금융에 대한 디자인 지침

랜딩 존의 아키텍처는 조직마다 다를 뿐 아니라 비즈니스 부문에 따라 다릅니다. 이 섹션에서는 랜딩 존을 만들기 위한 지침을 제공하는 문서를 나열합니다.

AI 워크로드용 HPC 컴퓨팅을 선택하기 위한 디자인 지침

AI 워크로드에 적합한 GPU 최적화 컴퓨팅 SKU를 선택하는 것은 성능을 최적화하고 비용을 제어하는 데 중요합니다. Microsoft는 더 많은 GPU 성능을 활용하는 워크로드에 최적화된 다양한 SKU를 제공합니다. AI 워크로드에 적합한 SKU를 선택할 때는 몇 가지 고려 사항이 있습니다. 워크로드가 작을수록 NDv6과 같은 더 강력한 SKU의 CPU, GPU 및 대역폭의 일부만 활용할 수 있습니다. 더 작은 작업에 대해 NCv4 및 NDv4와 같은 다른 컴퓨팅 SKU를 고려할 수 있습니다. AI 워크로드에 적합한 GPU 최적화 컴퓨팅 SKU를 선택할 때 다음 요소를 고려합니다.

  • 체크포인팅. 기계 학습 모델을 실행할 때 검사점 간격과 같은 요소를 고려합니다. 이는 학습 단계 동안 GPU 성능에 영향을 미칠 수 있습니다. 스토리지 효율성과 원활한 GPU 작업 유지 관리 간의 균형을 유지합니다. GPU 사용량을 모니터링합니다.
  • 추론. 추론 요구 사항은 학습 요구 사항과 다르며 CPU 성능을 최대화할 수 있는 CPU 부하가 더 높을 수 있습니다. 컴퓨팅 SKU를 선택할 때 모델의 추론 요구 사항을 고려합니다. CPU 사용량을 모니터링합니다.
  • 훈련. 학습 중에 CPU 및 GPU 사용량을 모두 모니터링하는 모델의 요구 사항을 고려합니다.
  • 작업 크기 조정. AI 워크로드에 대한 컴퓨팅 SKU를 고려할 때 작업의 크기를 고려합니다. 약 OPT 1.3B와 같은 더 작은 작업은 더 큰 SKU 크기를 활용하지 못할 수 있으며 작업의 단계(추론, 학습)에 따라 CPU 및 GPU 전원을 유휴 상태로 둘 수 있습니다.
  • 대역폭. 더 크고 낮은 대기 시간 대역폭은 활용되지 않을 때 비용이 발생할 수 있습니다. 추가 대역폭이 필요한 가장 큰 모델에 대해서만 InfiniBand를 고려합니다.

Azure의 GPU 최적화 가상 머신 크기를 봅니다.

예: 에너지에 대한 개념 참조 아키텍처

다음 개념 참조 아키텍처는 에너지 환경에 대한 디자인 영역 및 모범 사례를 보여 주는 예제입니다.

컴퓨팅, 스토리지, 서브넷, 데이터베이스 및 온-프레미스 사용자를 위한 프런트 엔드를 비롯한 에너지 환경의 예제 아키텍처를 보여 주는 다이어그램.

예: 재무에 대한 개념 참조 아키텍처

다음 개념 참조 아키텍처는 재무 환경에 대한 디자인 영역 및 모범 사례를 보여 주는 예제입니다.

온-프레미스 리소스, 가상 네트워크, 서브넷 및 네트워크 보안 그룹을 포함하여 재무 환경에 대한 예제 아키텍처를 보여 주는 다이어그램.

예제: 제조를 위한 개념 참조 아키텍처

다음 개념 참조 아키텍처는 디자인 영역 및 제조 환경에 대한 모범 사례를 보여 주는 예제입니다.

온-프레미스 및 클라우드 리소스 및 HPC 랜딩 존을 비롯한 제조 환경의 예제 아키텍처를 보여 주는 다이어그램

HPC 랜딩 존 가속기 가져오기

HPC 랜딩 존 가속기를 배포하려면 Azure Marketplace 또는 Azure CLI를 사용합니다.

이 가속기 솔루션에 대한 자세한 내용은 Slurm용 Azure CycleCloud 작업 영역을 참조하세요.

다음 단계

HPC 랜딩 존 가속기 아키텍처에 대한 고려 사항 및 권장 사항은 Azure ID 및 액세스 관리에서 HPC 랜딩 존 가속기의 중요한 디자인 영역을 검토합니다.