Azure HPC Cache adatbetöltés – msrsync metódus

Ez a cikk részletes útmutatást nyújt az adatok Azure Blob Storage-tárolóba való másolásához a msrsync segédprogrammal az Azure HPC Cache való használathoz.

Az azure-HPC Cache blobtárolóba való áthelyezéséről további információt az Adatok áthelyezése az Azure Blob Storage-ba című témakörben olvashat.

Az msrsync eszközzel adatokat helyezhet át az Azure HPC Cache háttérbeli tárolóhelyére. Ez az eszköz több párhuzamos rsync folyamat futtatásával optimalizálja a sávszélesség-használatot. A GitHubon érhető el a címen https://github.com/jbd/msrsync.

msrsync a forráskönyvtárat külön "gyűjtőkre" bontja, majd egyenként rsync futtatja az egyes folyamatokat az egyes gyűjtőkben.

A négymagos virtuális gép előzetes tesztelése a legjobb hatékonyságot mutatta 64 folyamat használatakor. msrsync A beállítással -p a folyamatok számát 64-esre állíthatja.

Vegye figyelembe, hogy msrsync csak helyi kötetekre és kötetekről tud írni. A forrásnak és a célnak elérhetőnek kell lennie helyi csatlakoztatásként a parancs kiadásához használt munkaállomáson.

Kövesse az alábbi utasításokat az msrsync Azure Blob Storage Azure-HPC Cache való feltöltéséhez:

  1. Telepítés msrsync és előfeltételei (rsync és a Python 2.6-os vagy újabb verziója)

  2. Határozza meg a másolandó fájlok és könyvtárak teljes számát.

    Használja például a segédprogramot prime.py argumentumokkal prime.py --directory /path/to/some/directory (a letöltéssel https://github.com/Azure/Avere/blob/main/src/clientapps/dataingestor/prime.pyérhető el).

    Ha nem a -t használja prime.py, a GNU find eszközzel az alábbi módon számíthatja ki az elemek számát:

    find <path> -type f |wc -l         # (counts files)
    find <path> -type d |wc -l         # (counts directories)
    find <path> |wc -l                 # (counts both)
    
  3. A folyamatonkénti elemek számának meghatározásához ossza el az elemek számát 64-sel. Ezzel a -f számmal megadhatja a gyűjtők méretét a parancs futtatásakor.

  4. Adja ki a parancsot a msrsync fájlok másolásához:

    msrsync -P --stats -p64 -f<ITEMS_DIV_64> --rsync "-ahv --inplace" <SOURCE_PATH> <DESTINATION_PATH>
    

    Ez a parancs például úgy lett kialakítva, hogy 64 folyamat 11 000 fájlját helyezze át a /test/source-repository mappából az /mnt/hpccache/repository mappába:

    mrsync -P --stats -p64 -f170 --rsync "-ahv --inplace" /test/source-repository/ /mnt/hpccache/repository