Azure HPC Cache 데이터 수집 - msrsync 메서드

이 문서에서는 msrsync 유틸리티를 사용하여 데이터를 Azure Blob Storage 컨테이너로 복사하여 Azure HPC Cache와 함께 사용하는 방법에 대한 자세한 지침을 제공합니다.

Azure HPC Cache에 대한 Blob Storage로 데이터를 이동하는 방법에 대한 자세한 내용은 Azure Blob Storage로 데이터 이동을 읽어보세요.

이 msrsync 도구를 사용하여 Azure HPC Cache에 대한 백 엔드 스토리지 대상으로 데이터를 이동할 수 있습니다. 이 도구는 여러 병렬 rsync 프로세스를 실행하여 대역폭 사용을 최적화하도록 설계되었습니다. GitHub에서 https://github.com/jbd/msrsync사용할 수 있습니다.

msrsync 는 원본 디렉터리를 별도의 "버킷"으로 분할한 다음 각 버킷에서 개별 rsync 프로세스를 실행합니다.

4코어 VM을 사용한 예비 테스트는 64개의 프로세스를 사용할 때 최상의 효율성을 보였습니다. 이 msrsync 옵션을 -p 사용하여 프로세스 수를 64로 설정합니다.

msrsync 로컬 볼륨에서만 쓸 수 있습니다. 명령을 실행하는 워크스테이션에서 원본과 대상에 로컬 마운트로 액세스할 수 있어야 합니다.

다음 지침에 따라 Azure HPC Cache를 사용하여 msrsync Azure Blob Storage를 채웁니다.

설치 msrsync 및 해당 필수 구성 요소(rsync 및 Python 2.6 이상)
복사할 파일 및 디렉터리 총 수를 결정합니다.

예를 들어 인수 prime.py 와 함께 유틸리티 prime.py --directory /path/to/some/directory 를 사용합니다(다운로드하여 https://github.com/Azure/Avere/blob/main/src/clientapps/dataingestor/prime.py사용 가능).

사용하지 prime.py않는 경우 다음과 같이 GNU find 도구를 사용하여 항목 수를 계산할 수 있습니다.
```
find <path> -type f |wc -l         # (counts files)
find <path> -type d |wc -l         # (counts directories)
find <path> |wc -l                 # (counts both)
```
프로세스당 항목 수를 확인하려면 항목 수를 64로 나눕니다. 명령을 실행할 때 버킷의 크기를 설정하는 옵션과 함께 -f 이 숫자를 사용합니다.
msrsync 명령을 실행하여 파일을 복사합니다.
```
msrsync -P --stats -p64 -f<ITEMS_DIV_64> --rsync "-ahv --inplace" <SOURCE_PATH> <DESTINATION_PATH>
```
예를 들어 이 명령은 /test/source-repository에서 /mnt/hpccache/repository로 64개 프로세스의 11,000개 파일을 이동하도록 설계되었습니다.

mrsync -P --stats -p64 -f170 --rsync "-ahv --inplace" /test/source-repository/ /mnt/hpccache/repository

Last updated on 2019-10-30

Azure HPC Cache 데이터 수집 - msrsync 메서드

추가 리소스