Azure HPC Cache-gegevensopname - msrsync-methode

In dit artikel vindt u gedetailleerde instructies voor het gebruik van het hulpprogramma voor het msrsync kopiëren van gegevens naar een Azure Blob Storage-container voor gebruik met Azure HPC Cache.

Lees Gegevens verplaatsen naar Azure Blob Storage voor meer informatie over het verplaatsen van gegevens naar Blob Storage voor uw Azure HPC Cache.

Het msrsync hulpprogramma kan worden gebruikt om gegevens te verplaatsen naar een back-endopslagdoel voor de Azure HPC Cache. Dit hulpprogramma is ontworpen om het bandbreedtegebruik te optimaliseren door meerdere parallelle rsync processen uit te voeren. Het is beschikbaar via GitHub op https://github.com/jbd/msrsync.

msrsync breekt de bronmap op in afzonderlijke buckets en voert vervolgens afzonderlijke rsync processen uit op elke bucket.

Voorlopige tests met behulp van een VM met vier kernen toonden de beste efficiëntie bij het gebruik van 64 processen. Gebruik de msrsync optie -p om het aantal processen in te stellen op 64.

Houd er rekening mee dat msrsync u alleen naar en van lokale volumes kunt schrijven. De bron en het doel moeten toegankelijk zijn als lokale koppeling op het werkstation dat wordt gebruikt om de opdracht uit te voeren.

Volg deze instructies om msrsync Azure Blob Storage te vullen met Azure HPC Cache:

  1. Installeren msrsync en de bijbehorende vereisten (rsync en Python 2.6 of hoger)

  2. Bepaal het totale aantal bestanden en mappen dat moet worden gekopieerd.

    Gebruik bijvoorbeeld het hulpprogramma prime.py met argumenten prime.py --directory /path/to/some/directory (beschikbaar door te https://github.com/Azure/Avere/blob/main/src/clientapps/dataingestor/prime.pydownloaden).

    Als u dit niet gebruikt prime.py, kunt u het aantal items als volgt berekenen met het GNU-hulpprogramma find :

    find <path> -type f |wc -l         # (counts files)
    find <path> -type d |wc -l         # (counts directories)
    find <path> |wc -l                 # (counts both)
    
  3. Deel het aantal items door 64 om het aantal items per proces te bepalen. Gebruik dit nummer met de -f optie om de grootte van de buckets in te stellen wanneer u de opdracht uitvoert.

  4. Geef de msrsync opdracht om bestanden te kopiëren:

    msrsync -P --stats -p64 -f<ITEMS_DIV_64> --rsync "-ahv --inplace" <SOURCE_PATH> <DESTINATION_PATH>
    

    Deze opdracht is bijvoorbeeld ontworpen voor het verplaatsen van 11.000 bestanden in 64 processen van /test/source-repository naar /mnt/hpccache/repository:

    mrsync -P --stats -p64 -f170 --rsync "-ahv --inplace" /test/source-repository/ /mnt/hpccache/repository