다음을 통해 공유


HPC 스토리지 제조

스토리지 액세스는 HPC 워크로드 성능 계획의 중요한 부분입니다. 다음 자료는 의사 결정 프로세스를 간소화하고 특정 스토리지 솔루션의 기능(또는 기능 부족)을 둘러싼 오해를 최소화하는 데 도움이 됩니다.

디자인 고려 사항

필요한 데이터가 적시에 HPC 클러스터 머신에 도달하도록 하는 것이 중요합니다. 또한 개별 머신의 결과를 신속하게 저장하고 추가 분석에 사용할 수 있도록 해야 합니다.

워크로드 트래픽 분산

HPC 환경에서 생성하고 처리할 트래픽 유형을 고려합니다. 이 단계는 여러 유형의 워크로드를 실행하고 스토리지를 다른 용도로 사용하려는 경우에 특히 중요합니다. 다음 트래픽 유형을 고려하고 기록합니다.

  • 단일 스트림 및 다중 스트림
  • 읽기 트래픽 대 쓰기 트래픽 비율
  • 평균 파일 크기 및 개수
  • 임의 액세스 패턴, 순차적 액세스 패턴

데이터 위치

다음 범주는 데이터 위치를 고려해야 합니다. 위치 인식은 복사, 캐싱 또는 동기화를 데이터 이동 전략으로 사용할 수 있는지를 확인하는 데 도움이 됩니다. 사전에 확인해야 할 지역 항목은 다음과 같습니다.

  • 원본 데이터를 온-프레미스나 Azure 또는 둘 다에 유지하나요?
  • 결과 데이터를 온-프레미스나 Azure 또는 둘 다에 유지하나요?
  • Azure의 HPC 워크로드가 원본 데이터 수정 타임라인에 맞게 조정되나요?
  • 중요/HIPAA 데이터인가요?

성능 요구 사항

스토리지 솔루션에 대한 성능 요구 사항은 일반적으로 다음과 같이 요약됩니다.

  • 단일 스트림 처리량(Gb/ps)
  • 다중 스트림 처리량(Gb/ps)
  • 예상 최대 IOPS
  • 평균 대기 시간(밀리초)

모든 고려 사항이 성능에 영향을 주므로 이 수치는 특정 솔루션이 달성해야 하는 기준을 나타냅니다. 예를 들어 워크플로의 일부로 광범위한 파일 만들기 및 삭제를 수행하는 HPC 워크로드가 있을 수 있습니다. 해당 작업은 전체 처리량에 영향을 줄 수 있습니다.

액세스 방법

필요한 클라이언트 액세스 프로토콜을 고려하며 필요한 프로토콜의 기능에 대해 명확히 설명합니다. 다양한 버전의 NFS 및 SMB가 있습니다.

고려할 사항은 다음과 같습니다.

  • NFS/SMB 버전 필요
  • 필요한 프로토콜 기능(ACL, 암호화)
  • 병렬 파일 시스템 솔루션

총 용량 요구 사항

Azure의 스토리지 용량은 다음 고려 사항입니다. 이를 통해 솔루션의 전체 비용을 알 수 있습니다. 오랫동안 많은 양의 데이터를 저장하려는 경우에는 스토리지 솔루션의 일부로 ‘계층화’를 고려하는 것이 좋습니다. 계층화를 사용하면 핫 계층에서 더 저렴한 스토리지 옵션을 가격은 더 높지만 성능은 더 뛰어난 스토리지와 결합할 수 있습니다. 따라서 다음과 같이 용량 요구 사항을 평가합니다.

  • 필요한 총 용량
  • 필요한 총 핫 계층 용량
  • 필요한 총 웜 계층 용량
  • 필요한 총 콜드 계층 용량

인증 및 권한 부여 방법

LDAP 서버 또는 Active Directory 환경 사용과 같은 인증 및 권한 부여 요구 사항과 관련하여 아키텍처에 적합한 지원 시스템을 포함해야 합니다. Active Directory 사용자에 대한 UID/GID 매핑과 같은 기능을 지원해야 하는 경우 스토리지 솔루션이 해당 기능을 지원하는지 확인합니다.

고려할 사항은 다음과 같습니다.

  • 로컬(파일 서버의 UID/GID만)
  • 디렉터리(LDAP, Active Directory)
  • Active Directory 사용자에 대한 UID/GID 매핑 여부

일반적인 Azure Storage 솔루션 비교

범주 Azure Blob Storage Azure 파일 Azure Managed Lustre Azure NetApp Files
사용 사례 Azure Blob Storage는 추가 수정이 거의 또는 전혀 없이 데이터가 한 번 수집되는 대규모 읽기 작업이 많은 순차 액세스 워크로드에 가장 적합합니다.

유지 관리가 거의 없거나 전혀 없는 경우 Blob Storage는 가장 낮은 총 소유 비용을 제공합니다.

몇 가지 예제 시나리오는 대규모 분석 데이터, 처리량에 민감한 고성능 컴퓨팅, 백업/보관, 자치 구동, 미디어 렌더링 또는 게놈 시퀀싱입니다.
Azure Files는 임의 액세스 워크로드에 가장 적합한 고가용성 서비스입니다.

NFS 공유의 경우 Azure Files는 전체 POSIX 파일 시스템 지원을 제공합니다. 기본 제공 CSI 드라이버가 있는 ACI(Azure Container Instance) 및 AKS(Azure Kubernetes Service)와 같은 컨테이너 플랫폼과 VM 기반 플랫폼에서 쉽게 사용할 수 있습니다.

몇 가지 예제 시나리오에는 공유 파일, 데이터베이스, 홈 디렉터리, 기존 애플리케이션, ERP, CMS, 고급 관리가 필요 없는 NAS 마이그레이션, 스케일 아웃 파일 스토리지가 필요한 사용자 지정 애플리케이션 등이 있습니다.
Azure Managed Lustre는 중대형 HPC 워크로드에 가장 적합한 완전 관리형 병렬 파일 시스템입니다.

친숙한 Lustre 병렬 파일 시스템 기능, 동작 및 성능을 제공하여 애플리케이션 호환성을 손상하지 않고 클라우드에서 HPC 애플리케이션을 사용하도록 설정하여 장기적인 애플리케이션 투자를 확보합니다.
고급 관리 기능을 통해 NetApp에서 구동하는 클라우드의 완전 관리형 파일 서비스입니다.

NetApp 파일은 임의 액세스가 필요한 워크로드에 적합하며 광범위한 프로토콜 지원 및 데이터 보호 기능을 제공합니다.

몇 가지 예제 시나리오에는 다양한 관리 기능이 필요한 온-프레미스 엔터프라이즈 NAS 마이그레이션, SAP HANA와 같은 대기 시간에 민감한 워크로드, 대기 시간에 민감한 또는 IOPS 집약적 고성능 컴퓨팅, 동시 멀티 프로토콜 액세스를 필요로 하는 워크로드 등이 있습니다.
사용 가능한 프로토콜 NFS 3.0

나머지

Data Lake Storage Gen2
Smb

NFS 4.1

(두 프로토콜 간의 상호 운용성 없음)
Lustre NFS 3.0 및 4.1

SMB
주요 특징 짧은 대기 시간 워크로드를 위해 HPC 캐시와 통합됩니다.

수명 주기, 변경할 수 없는 Blob, 데이터 장애 조치(failover) 및 메타데이터 인덱스를 비롯한 통합 관리
고가용성을 위한 영역 중복

일관된 한 자리 밀리초 대기 시간.

용량으로 스케일링하는 예측 가능한 성능 및 비용.
최대 2.5PB의 높은 스토리지 용량

짧은(~2ms) 대기 시간.

몇 분 안에 새 클러스터를 스핀업합니다.

AKS를 사용하여 컨테이너화된 워크로드를 지원합니다.
매우 짧은 대기 시간(하위 밀리초만큼 낮음)

클라우드의 SnapMirror와 같은 다양한 NetApp ONTAP 관리 기능.

일관된 하이브리드 클라우드 환경.
성능(볼륨당) 최대 20,000 IOPS, 최대 100GiB/s 처리량 최대 100,000 IOPS, 최대 80GiB/s 처리량. 최대 100,000 IOPS, 최대 500GiB/s 처리량 최대 460,000 IOPS, 최대 36GiB/s 처리량.
가격 책정 Azure Blob Storage 가격 책정 Azure Files 가격 책정 Azure Managed Lustre 가격 책정 Azure NetApp Files 가격 책정

사용자 고유의 병렬 파일 시스템 롤

NFS와 마찬가지로 다중 노드 BeeGFS 또는 Lustre 파일 시스템을 만들 수 있습니다. 이러한 시스템의 성능은 주로 선택한 Virtual Machines 유형에 따라 달라집니다. BeeGFS용 Azure Marketplace에서 찾은 이미지 또는 Whamcloud라는 DDN의 Lustre 구현을 사용할 수 있습니다. BeeGFS 또는 DDN과 같은 공급업체의 타사 이미지를 사용하면 지원을 구매할 수 있습니다. 그렇지 않으면 다른 요금 없이 GPL 라이선스를 통해 BeeGFS와 Lustre를 모두 사용할 수 있습니다(머신 및 디스크 이외). 이러한 도구는 임시 로컬 디스크(스크래치용) 또는 영구 스토리지용 Premium/Ultra SSD와 함께 Azure HPC 스크립트를 사용하여 쉽게 롤아웃할 수 있습니다.

Cray ClusterStor

더 큰 워크로드의 가장 큰 과제 중 하나는 대규모 Lustre 환경(TB/s 처리량 및 페타바이트급 스토리지 측면)과 함께 작동하는 대형 컴퓨팅 클러스터의 순수한 "완전" 성능을 복제하는 것입니다. 이제 Azure Cray ClusterStor 솔루션을 사용하여 이러한 워크로드를 실행할 수 있습니다. 이 방식은 관련 Azure 데이터 센터에 배치된 순수한 운영 체제 미설치 Lustre 배포입니다. BeeGFS 및 Lustre와 같은 병렬 파일 시스템은 아키텍처로 인해 가장 높은 성능을 제공합니다. 그러나 이러한 아키텍처는 높은 관리 비용이 수반되며 이러한 기술의 사용도 마찬가지입니다.

다음 단계

다음 문서에서는 HPC 환경 제조를 위한 클라우드 채택 과정의 각 단계에 대한 지침을 제공합니다.