다음을 통해 공유


Azure Blob Storage로 데이터 이동

워크플로에 데이터를 Azure Blob Storage로 이동하는 작업이 포함된 경우 효율적인 전략을 사용하고 있는지 확인합니다. 캐시를 만들고 Blob 컨테이너를 스토리지 대상으로 추가한 다음 Azure HPC Cache를 사용하여 데이터를 복사해야 합니다.

이 문서에서는 Azure HPC Cache에서 사용할 수 있도록 Blob 스토리지로 데이터를 이동하는 가장 좋은 방법을 설명합니다.

이 문서는 NFS 탑재 Blob 스토리지(ADLS-NFS 스토리지 대상)에는 적용되지 않습니다. NFS 기반 방법을 사용하여 HPC Cache에 추가하기 전이나 후에 ADLS-NFS Blob 컨테이너를 채울 수 있습니다. 자세한 내용은 NFS 프로토콜을 사용하여 데이터 미리 로드를 참조하세요.

다음 사항을 명심하십시오.

  • Azure HPC Cache는 특수화된 스토리지 형식을 사용하여 Blob 스토리지에서 데이터를 구성합니다. 이로 인해 Blob 스토리지 대상은 새로운 빈 컨테이너이거나, 이전에 Azure HPC Cache 데이터에 사용된 Blob 컨테이너여야 합니다.

  • 여러 클라이언트와 병렬 작업을 사용하는 경우 Azure HPC Cache를 사용하여 백 엔드 스토리지 대상으로 데이터를 복사하는 것이 더 효율적입니다. 클라이언트 하나의 단순 복사 명령이 데이터 이동을 느리게 합니다.

이 문서에 설명된 전략은 빈 Blob 컨테이너를 채우거나 이전에 사용된 스토리지 대상에 파일을 추가하는 데 사용됩니다.

Azure HPC Cache를 사용하는 데이터 복사

Azure HPC Cache는 여러 클라이언트를 동시에 지원하도록 설계되었으므로, 캐시를 사용하여 데이터를 복사하려면 여러 클라이언트에서 병렬 쓰기를 사용해야 합니다.

Diagram showing multi-client, multi-threaded data movement: At the top left, an icon for on-premises hardware storage has multiple arrows coming from it. The arrows point to four client machines. From each client machine three arrows point toward the Azure HPC Cache. From the Azure HPC Cache, multiple arrows point to blob storage.

데이터를 한 스토리지 시스템에서 다른 스토리지 시스템으로 전송하는 데 일반적으로 사용하는 cp 또는 copy 명령은 한 번에 하나의 파일만 복사할 수 있는 단일 스레드 프로세스입니다. 즉, 파일 서버에서 한 번에 하나의 파일만 수집한다는 것을 의미합니다. 이로 인해 캐시의 리소스가 낭비됩니다.

이 섹션에서는 Azure HPC Cache를 사용하여 Blob 스토리지로 데이터를 이동하기 위해 다중 클라이언트, 다중 스레드 파일 복사 시스템을 만들기 위한 전략을 설명합니다. 여러 클라이언트와 단순 복사 명령을 사용하여 효율적인 데이터 복사에 사용할 수 있는 파일 전송 개념 및 결정 사항에 대해 설명합니다.

또한 도움이 되는 몇 가지 유틸리티도 설명합니다. msrsync 유틸리티는 데이터 세트를 버킷으로 분할하고 rsync 명령을 사용하는 프로세스를 부분적으로 자동화하는 데 사용할 수 있습니다. parallelcp 스크립트는 원본 디렉터리를 읽고 복사 명령을 자동으로 실행하는 또 다른 유틸리티입니다.

전략적 계획

데이터를 병렬로 복사하는 전략을 수립할 때는 파일 크기, 파일 수 및 디렉터리 깊이의 장단점을 이해해야 합니다.

  • 파일이 작은 경우 관심 있는 메트릭은 초당 파일 수입니다.
  • 파일이 큰 경우(10MiBi 이상) 관심 있는 메트릭은 초당 바이트 수입니다.

각 복사 프로세스에는 복사 명령의 길이를 타이밍으로 측정하고 파일 크기와 파일 수를 팩터링하여 측정할 수 있는 처리량 속도와 파일 전송 속도가 있습니다. 속도를 측정하는 방법은 이 문서의 범위를 벗어나므로 설명할 수 없지만 작거나 큰 파일을 처리할지 여부를 이해하는 것이 중요합니다.

Azure HPC Cache를 사용하는 병렬 데이터 수집 전략은 다음과 같습니다.

다음 단계

스토리지를 설정한 후 클라이언트에서 캐시를 탑재하는 방법을 알아봅니다.