NFS Azure 파일 공유로 마이그레이션

이 문서에서는 프리미엄 파일 공유(FileStorage 계정 종류)로만 사용할 수 있는 Linux 파일 서버에서 NFS Azure 파일 공유로 마이그레이션하는 기본적인 측면을 설명합니다. 또한 오픈 소스 파일 복사 도구 fpsync 및 rsync를 비교하여 Azure 파일 공유에 데이터를 복사할 때 성능을 파악해보겠습니다.

참고 항목

Azure Files는 NFS ACL(액세스 제어 목록)을 지원하지 않습니다.

적용 대상

파일 공유 유형 SMB NFS
표준 파일 공유(GPv2), LRS/ZRS No No
표준 파일 공유(GPv2), GRS/GZRS No No
프리미엄 파일 공유(FileStorage), LRS/ZRS No Yes

필수 조건

Linux VM(가상 머신)에 탑재된 NFS Azure 파일 공유가 하나 이상 필요합니다. 만들려면 NFS Azure 파일 공유를 만들고 Linux VM에 탑재를 참조하세요. 여러 TCP 연결을 사용하려면 nconnect를 사용하여 공유를 탑재하는 것이 좋습니다. 자세한 내용은 NFS Azure 파일 공유 성능 향상을 참조하세요.

마이그레이션 도구

데이터를 NFS 파일 공유로 전송하는 데 많은 오픈 소스 도구를 사용할 수 있습니다. 그러나 분산 파일 시스템을 처리할 때 이들 모두가 효율적인 것은 아니며 온-프레미스 설정과 비교하여 뚜렷한 성능 고려 사항이 있습니다. 분산 파일 시스템에서 각 네트워크 호출에는 서버(로컬이 아닐 수도 있음)로의 왕복이 포함됩니다. 따라서 네트워크를 통해 최적의 성능과 효율적인 데이터 전송을 달성하려면 네트워크 호출에 소요되는 시간을 최적화하는 것이 중요합니다.

fpsync 및 rsync 사용

단일 스레드임에도 불구하고 rsync는 다용도 오픈 소스 파일 복사 도구입니다. 로컬에서 원격 셸을 통해 다른 호스트와 또는 원격 rsync 데몬과 복사를 주고 받을 수 있습니다. 다양한 옵션을 제공하며 복사할 파일 집합을 유연하게 지정할 수 있습니다. 그러나 fpsync는 다중 스레드 애플리케이션이며 따라서 rsync 작업을 병렬로 실행하는 기능을 포함하여 몇 가지 이점을 제공합니다.

이 문서에서는 fpsync를 사용하여 Linux 파일 서버에서 NFS Azure 파일 공유로 데이터를 이동합니다.

fpsync는 데이터를 복사하기 위해 rsync(기본값), cpio 또는 tar 도구를 사용합니다. 원본 디렉터리 src_dir/의 하위 집합을 컴퓨팅하고 동기화 작업을 생성하여 대상 디렉터리 dst_dir/에 동기화합니다. 파일 시스템을 크롤링하는 동시에 즉석에서 동기화 작업을 실행하므로대규모 파일 시스템을 효율적으로 마이그레이션하고 여러 파일이 포함된 대규모 데이터 세트를 복사하는 데 유용한 도구입니다.

참고 항목

fpsync는 원본 디렉터리 자체가 아닌 디렉터리 콘텐츠만 동기화합니다. rsync와 달리 fpsync는 원본 디렉터리에 마지막 '/'를 적용합니다. 즉, 동기화 후에 대상 디렉터리에 원본 디렉터리 이름을 가진 하위 디렉터리가 생성되지 않습니다.

fpart 설치

fpsync를 사용하려면 fpart 파일 시스템 파티셔너를 설치해야 합니다. 원하는 Linux 배포판에 fpart를 설치합니다. 설치되면 /usr/bin/ 아래에 fpsync가 표시됩니다.

Ubuntu에서 apt 패키지 관리자를 사용하여 fpart를 설치합니다.

sudo apt-get install fpart

원본에서 대상으로 데이터 복사

목적지(대상) Azure 파일 공유가 Linux VM에 탑재되어 있는지 확인합니다. 필수 조건을 참조하세요.

전체 마이그레이션을 수행하는 경우 다음 세 단계에 걸쳐 데이터를 복사합니다.

  1. 기준선 복사: 대상에 데이터가 없을 때 원본에서 대상으로 복사합니다. 기준선 복사의 경우 cpio와 함께 fpsync를 복사 도구로 사용하는 것이 좋습니다.
  2. 증분 복사: 원본에서 대상으로 증분 변경 내용만 복사합니다. 증분 동기화의 경우 rsync와 함께 fpsync를 복사 도구로 사용하는 것이 좋습니다. 모든 변경 내용을 캡처하려면 이 작업을 여러 번 수행해야 합니다.
  3. 최종 패스: 원본에 존재하지 않는 대상의 파일을 삭제하려면 최종 패스가 필요합니다.

fpsync를 사용하여 데이터를 복사하려면 항상 이 명령의 일부 버전이 포함됩니다.

fpsync -m <specify copy tool - rsync/cpio/tar> -n <parallel transfers> <absolute source path> <absolute destination path>

기준선 복사

기준선 복사의 경우 cpio와 함께 fpsync를 사용합니다.

fpsync -m cpio -n <parallel transfers> <absolute source path> <absolute destination path>

자세한 내용은 Cpio 및 Tar 지원을 참조하세요.

증분 복사

증분 동기화의 경우 기본 복사 도구(rsync)와 함께 fpsync를 사용합니다. 모든 변경 내용을 캡처하려면 이 작업을 여러 번 실행하는 것이 좋습니다.

fpsync -n <parallel transfers> <absolute source path> <absolute destination path>

기본적으로 fpsync는 다음 rsync 옵션을 지정합니다. -lptgoD -v --numeric-ids. fpsync 명령에 -o option을 추가하여 추가 rsync 옵션을 지정할 수 있습니다.

최종 패스

여러 번 증분 동기화 후 최종 패스를 수행하여 원본에 존재하지 않는 대상의 파일을 삭제해야 합니다. rsync --delete를 사용하여 수동으로 이 작업을 수행하여 /data/dst/ 디렉터리에서 추가 파일을 삭제하거나 -E 옵션과 함께 fpsync를 사용할 수 있습니다. 자세한 내용은 최종 패스를 참조하세요.

rsync와 fpsync를 다양한 데이터 세트로 비교

이 섹션에서는 rsync 및 fpsync의 성능을 다양한 데이터 세트로 비교합니다.

데이터 세트 및 구성

다음 표에는 다양한 워크로드에서 복사 도구 성능을 비교하는 데 사용한 다양한 데이터 세트가 나와 있습니다.

구성 # 복사 형식 파일 수 디렉터리 수 파일 크기 총 크기
1.1 기준선 복사 1백만 1 0-32KiB 18GiB
1.2 증분(델타 변경) 1백만 1 0-32KiB 18GiB
2 기준선 복사 191,345 3,906 0-32KiB 3GiB
3 기준선 복사 5,000 1 10MiB 50GiB

테스트는 대규모 데이터 세트에 대해 Azure Standard_D8s_v3 VM(vCPU 8개, 메모리 32GiB, 디스크 공간 1TiB 이상)에서 수행되었습니다. 대상의 경우 프로비전된 크기가 1TiB를 초과하는 NFS Azure File 공유를 구성했습니다.

실험 및 결과: rsync 및 fpsync

위의 구성을 사용한 실험에 따르면 fpsync는 nconnect=8로 탑재된 Azure NFS 파일 공유에 대해 rsync가 있는 64개 스레드와 cpio가 있는 16개 스레드에서 가장 잘 수행되는 것으로 나타났습니다. 실제 결과는 구성 및 데이터 세트에 따라 달라집니다.

참고 항목

Azure Files의 처리량은 다음 차트에 표시된 것보다 훨씬 높을 수 있습니다. 일부 실험은 간소화하기 위해 의도적으로 작은 데이터 세트를 사용하여 수행되었습니다.

구성 1

총 18GiB에 달하는 100만 개의 작은 파일이 있는 단일 디렉터리에 대해 이 테스트를 기준선 복사와 증분 복사로 실행했습니다.

원본에서 대상으로 기준선 복사를 수행하면서 다음과 같은 결과가 나타났습니다.

Chart showing the test results of configuration 1 for a baseline copy.

증분 복사(델타 변경)를 수행하여 다음과 같은 결과가 나타났습니다.

Chart showing the test results of configuration 1 for an incremental copy.

구성 2

총 크기가 3GiB인 3,906개 디렉터리에 있는 191,345개의 작은 파일에 대한 기준선 복사를 수행하여 다음과 같은 결과가 나타났습니다.

Chart showing the test results of configuration 2 for a baseline copy.

구성 3

총 크기가 50GiB인 단일 디렉터리에 있는 5,000개의 대용량 파일(10MiB)에 대한 기준선 복사를 수행하여 다음과 같은 결과가 나타났습니다.

Chart showing the test results of configuration 3 for a baseline copy.

결과 요약

fpsync와 같은 다중 스레드 애플리케이션을 사용하면 rsync와 같은 단일 스레드 복사 도구에 비해 NFS Azure 파일 공유로 마이그레이션할 때 처리량 및 IOPS가 향상될 수 있습니다. 테스트 결과는 다음과 같습니다.

  • 디렉터리 전체에 데이터를 분산하면 마이그레이션 프로세스를 병렬화하는 데 도움이 되어 더 나은 성능을 얻을 수 있습니다.
  • 더 큰 파일 크기에서 데이터를 복사하면 더 작은 파일 크기에서 데이터를 복사하는 것보다 성능이 향상됩니다.

다음 표에서는 이 결과를 요약합니다.

구성 # 파일 수 디렉터리 수 파일 크기 총 크기 rsync 지속 시간 rsync 처리량 fpsync 지속 시간 fpsync 처리량 처리량 증가
1.1(기준선) 1백만 1 0-32KiB 18GiB 837.06분 0.33MiB/s 228.16분 1.20MiB/s 267%
1.2(증분) 1백만 1 0-32KiB 18GiB 84.02분 3.25MiB/s 7.5분 36.41MiB/s 1,020%
2(기준선) 191,345 3,906 0-32KiB 3GiB 191.86분 0.27MiB/s 8.47분 6.04MiB/s 2,164%
3(기준선) 5,000 1 10MiB 50GiB 8.12분 105.04MiB/s 2.76분 308.90MiB/s 194%

타사 정보 고지 사항

이 문서에 언급된 오픈 소스 도구는 잘 알려진 타사 솔루션입니다. 직접 또는 간접적으로 Microsoft에서 개발, 소유 또는 지원하지 않습니다. 타사 설명서에 제공된 소프트웨어 라이선스 및 지원 설명을 검토하는 것은 고객의 책임입니다.

다음 단계