다음을 통해 공유


Azure VM에서 대규모 HPC 애플리케이션 워크로드 컴퓨팅

빅 컴퓨팅(HPC와 관련하여 사용됨)이라는 용어는 수백 또는 수천 개의 번호 매기기 등 코어 수를 많이 요구하는 대규모 워크로드를 설명합니다. 시나리오에는 이미지 렌더링, 유체 역학, 재무 위험 모델링, 석유 탐색, 약 디자인 및 스트레스 분석 엔지니어링이 포함됩니다.

빅 컴퓨팅 애플리케이션의 일반적인 특성은 다음과 같습니다.

  • 작업은 여러 코어에서 동시에 실행할 수 있는 불연속 작업으로 분할될 수 있습니다.
  • 각 작업은 유한합니다. 몇 가지 입력이 필요하고, 일부 처리를 수행하고, 출력을 생성합니다. 전체 애플리케이션은 제한된 양의 시간(몇 분, 몇 일) 동안 실행됩니다. 일반적인 패턴은 버스트에 많은 수의 코어를 설정한 다음, 애플리케이션이 완료되면 0으로 스핀 다운하는 것입니다.
  • 애플리케이션을 일주일 내내 사용하지 않아도 됩니다. 그러나 시스템은 노드 오류 또는 애플리케이션 충돌을 처리해야 합니다.
  • 일부 애플리케이션의 경우 작업은 독립적이며 병렬로 실행할 수 있습니다. 다른 경우에는 태스크가 긴밀하게 결합되므로 중간 결과를 상호 작용하거나 교환해야 합니다. 이 경우 InfiniBand 및 RDMA(원격 직접 메모리 액세스)와 같은 고속 네트워킹 기술을 사용하는 것이 좋습니다.
  • 워크로드에 따라 계산 집약적인 VM 크기(H16r, H16mr 및 A9)를 사용할 수 있습니다.

Azure 작업의 다이어그램.

Azure는 CPU 및 GPU 집약적 워크로드(컴퓨팅 및 시각화 모두)에 최적화된 다양한 VM 인스턴스를 제공합니다. VM은 석유 및 가스 워크로드를 실행하는 데 이상적입니다.

Azure는 InfiniBand 지원 하드웨어가 있는 VM 인스턴스를 제공하는 유일한 클라우드 플랫폼입니다. 이 기능은 저수지 시뮬레이션 및 지진 워크로드를 실행하는 데 상당한 성능 이점을 제공합니다. 향상된 성능으로 인해 성능 격차가 좁아지고 현재 온-프레미스 인프라와 비슷하거나 더 나은 성능을 제공합니다.

Azure VM에는 VM 크기라고 하는 다양한 옵션이 있습니다. HPC 및 GPU 최적화 컴퓨팅을 위한 다양한 VM 크기가 있습니다. 사용할 워크로드에 적합한 VM 크기를 선택합니다. VM 크기를 선택하는 방법에 대한 자세한 내용은 Azure 선택기 도구의 VM 크기를 참조하세요.

Azure 지역에 따라 일부 Azure 제품은 제공되지 않을 수도 있습니다. 자세한 내용은 현재 지역별 사용 가능한 제품 목록을 참조하세요.

Azure 컴퓨팅에서 선택하는 모범 사례는 Azure 컴퓨팅 블로그를 참조하거나 Azure 컴퓨팅 서비스 콘텐츠를 참조하여 서비스를 선택합니다.

CPU 기반 가상 머신

GPU 사용 가상 머신

N 시리즈 VM은 AI(인공 지능) 학습 및 시각화를 포함한 계산 집약적 또는 그래픽 집약적 애플리케이션을 위해 설계된 NVIDIA GPU를 특징으로 합니다.

HPC SKU는 고성능 시나리오를 위해 특별히 빌드됩니다. 그러나 Azure는 HPC 인프라에서 실행하는 특정 워크로드에 적합할 수 있는 다른 SKU도 제공합니다. 저렴한 하드웨어에서 이러한 SKU를 효과적으로 실행할 수 있습니다. 일반적으로 사용되는 몇 가지 컴퓨팅 SKU는 E 및 F 시리즈입니다.

HPC 디자인 고려 사항

작업 스케줄러는 가상 머신의 관리되는 풀에서 실행할 계산 집약적 작업을 예약하기 위한 특수 서비스입니다. 작업의 요구 사항을 충족하도록 컴퓨팅 리소스의 크기를 자동으로 조정할 수 있습니다.

Azure Batch는 대규모 HPC 애플리케이션을 실행하기 위한 관리형 서비스입니다. Azure Batch를 사용하여 VM 풀을 구성한 다음, 애플리케이션 및 데이터 파일을 업로드합니다. 그런 다음, Batch 서비스는 VM을 구성하고, VM에 작업을 할당하고, 작업을 실행하고, 진행 상황을 모니터링합니다. Batch는 워크로드 변경에 따라 VM을 자동으로 확장 및 축소할 수 있습니다. Batch는 작업 예약 기능도 제공합니다.

Azure CycleCloud는 Azure에서 HPC 및 빅 컴퓨팅 클러스터를 만들고, 관리하고, 운영하고, 최적화하기 위한 도구입니다. Azure CycleCloud를 통해 사용자는 HPC Azure 클러스터를 동적으로 구성하고 하이브리드 및 클라우드 워크플로에 대한 데이터 및 작업을 오케스트레이션할 수 있습니다. Azure CycleCloud는 Azure에서 다양한 작업 부하 관리자(예: Grid Engine, HPC Pack, HTCondor, LSF, PBS Pro, Slurm 또는 Symphony)를 사용하여 HPC 워크로드를 관리하는 가장 간단한 방법을 제공합니다.

HPC 디자인 권장 사항

  • 저수지 및 지진 워크플로는 일반적으로 컴퓨팅 및 작업 예약에 대해 유사한 요구 사항이 있습니다.
  • 네트워크 요구 사항을 고려하지만 메모리 집약적 지진 이미징 및 저수지 시뮬레이션을 위해 Azure HPC는 HBv2 및 HBv3 VM 크기를 제공합니다.
  • 메모리 대역폭 바인딩 애플리케이션에 HB VM을 사용하고 컴퓨팅 바인딩된 저수지 시뮬레이션에 HC VM을 사용합니다.
  • 3D 저수지 모델링 및 지진 데이터 시각화에 NV VM을 사용합니다.
  • GPU 가속 지진 FWI 분석의 경우 NCv4가 권장되는 솔루션입니다. 데이터 집약적 RTM 처리를 위해 NDv4 SKU는 누적 용량이 7TB인 NVMe 드라이브의 가용성 덕분에 가장 좋은 옵션입니다. MPI 워크로드가 있는 HB 시리즈 VM에서 최상의 성능을 얻으려면 프로세서의 코어에 최적의 프로세스 고정을 수행합니다. 자세한 내용은 Azure HB 시리즈 VM에 대한 최적의 MPI 프로세스 배치 블로그 게시물을 참조하세요. 여기에 설명된 대로 병렬 애플리케이션 프로세스의 올바른 고정을 보장하기 위한 전용 도구도 제공됩니다.
  • NDv4 시리즈 VM의 복잡한 아키텍처로 인해 GPU 가속 애플리케이션을 최적으로 시작할 수 있도록 VM을 구성할 때 특히 주의해야 합니다. Azure 고성능 컴퓨팅에 대한 자세한 내용은 Azure 확장 가능한 GPU VM 블로그 게시물을 참조하세요.

HPC 참조 아키텍처

다음은 에너지 HPC 환경에 대한 사용 사례 및 참조 아키텍처입니다.

석유 및 가스 지진 및 저수지 시뮬레이션 참조 아키텍처 사용 사례

일반적으로 저수지 및 지진 워크플로는 컴퓨팅 및 작업 예약에 대해 유사한 요구 사항이 있습니다. 그러나 지진 워크로드는 수백 GB로 측정될 수 있는 잠재적으로 다중 PB 스토리지 및 처리량 요구 사항이 있는 스토리지의 인프라에 문제가 있습니다. 예를 들어 단일 지진 처리 프로젝트는 500TB의 원시 데이터로 시작할 수 있으며, 여기에는 잠재적으로 여러 PB의 장기 스토리지가 필요할 수 있습니다. 다음은 Azure에서 애플리케이션을 실행하기 위한 목표를 성공적으로 충족하는 데 도움이 될 수 있는 몇 가지 참조 아키텍처입니다.

지진 처리를 위한 사례 및 참조 아키텍처 사용

지진 처리 및 이미징은 탐사 데이터에서 지하 모델을 만들기 때문에 석유 및 가스 비즈니스의 기본 사항입니다. 지하에 있을 수 있는 것을 선별하고 정량화하는 프로세스는 일반적으로 지구 과학자에 의해 수행됩니다. 지구 과학자는 종종 데이터 센터와 클라우드에 바인딩되는 소프트웨어를 사용합니다. 경우에 따라 원격으로 또는 클라우드에서 가상 데스크톱 기술을 사용하여 소프트웨어에 액세스합니다.

지하 모델의 품질과 데이터의 품질 및 해상도는 임대 입찰 또는 드릴 위치 결정과 관련하여 올바른 비즈니스 결정을 내리는 데 매우 중요합니다. 지진 이미지 해석 이미지는 우물의 위치를 개선하고 "마른 구멍"을 드릴링할 위험을 줄일 수 있습니다. 석유 및 가스 회사의 경우 지하 구조를 더 잘 이해하는 것은 탐사 위험을 줄이는 것으로 직결됩니다. 기본적으로 지질화적 영역에 대한 회사의 관점의 정확도가 높을수록 드릴 시 오일을 발견할 가능성이 높아질 수 있습니다.

이 작업은 데이터 및 컴퓨팅 집약적입니다. 이 회사는 테라바이트 단위의 데이터를 처리해야 하며, 빠른 네트워킹을 포함하는 대규모의 빠른 계산 능력이 필요합니다. 지진 이미징의 데이터 및 컴퓨팅 집약적 특성으로 인해 회사는 병렬 컴퓨팅을 사용하여 데이터를 처리하고 컴파일 및 완료 시간을 줄입니다. 기업들은 복구 작업이 시작되기 전에 지하에서 발견된 저수지에서 탄화수소 함량을 찾고, 정확하게 정량화하고, 선별하기 위해 대량의 지진 획득 데이터를 끊임없이 처리합니다. 취득 데이터는 구조화되지 않고 하나의 잠재적인 석유 및 가스 필드에 대해 페타바이트 수준에 쉽게 도달할 수 있으므로 HPC 및 적절한 데이터 관리 전략을 사용하여 의미 있는 기간 내에 내진 처리 작업을 완료할 수 있습니다.

네트워크 상호 연결 컴퓨팅 및 스토리지 다이어그램 - 내진 해석 및 모델링.

네트워크 참조 아키텍처 다이어그램 - 내진 처리.

저수지 시뮬레이션 및 모델링에 사례 및 참조 아키텍처 사용

또한 저수지 모델링은 물 포화, 다공성 및 투과성과 같은 물리적 하위 표면 특성에 값을 부여합니다. 이 데이터는 배포할 복구 접근 방식 및 장비의 종류와 궁극적으로 우물의 위치를 결정하는 데 중요합니다.

저수지 모델링 워크로드는 저수지 엔지니어링의 영역이기도 합니다. 워크로드는 저수지 모델의 물리학, 수학 및 컴퓨터 프로그래밍을 결합하여 시간 경과에 따른 저수지의 유체 동작을 분석하고 예측합니다. 이 분석에는 높은 계산 능력과 빠른 네트워킹을 비롯한 일반적으로 큰 컴퓨팅 워크로드 요구 사항이 필요합니다.

네트워크 참조 아키텍처 다이어그램 - 저수지 시뮬레이션.

네트워크 상호 연결 컴퓨팅 및 스토리지 지진 분석 다이어그램.

에너지 사용 사례에 대해 HPC를 지원하는 관련 HPC ISV 애플리케이션에 대한 참조 아키텍처 또는 쿡북에 대한 자세한 내용은 다음을 참조하세요.

다음 단계

다음 문서에서는 에너지 HPC 환경에 대한 클라우드 채택 경험의 각 단계에 대한 참고 자료를 제공합니다.