Ingestování dat služby Azure HPC Cache – metoda msrsync

Tento článek obsahuje podrobné pokyny ke kopírování dat do kontejneru msrsync úložiště objektů blob v Azure pro použití se službou Azure HPC Cache.

Další informace o přesunu dat do úložiště objektů blob pro službu Azure HPC Cache najdete v tématu Přesun dat do služby Azure Blob Storage.

Tento msrsync nástroj lze použít k přesunu dat do back-endového cíle úložiště služby Azure HPC Cache. Tento nástroj je navržený tak, aby optimalizoval využití šířky pásma spuštěním několika paralelních rsync procesů. Je k dispozici na GitHubu na adrese https://github.com/jbd/msrsync.

msrsync rozdělí zdrojový adresář do samostatných kontejnerů a pak spustí jednotlivé rsync procesy v každém kontejneru.

Předběžné testování pomocí čtyřjádrových virtuálních počítačů ukázalo nejlepší efektivitu při použití 64 procesů. msrsync Pomocí možnosti -p nastavte počet procesů na 64.

Všimněte si, že msrsync lze zapisovat pouze do místních svazků a z místních svazků. Zdroj a cíl musí být přístupné jako místní připojení k pracovní stanici použité k vydání příkazu.

Postupujte podle těchto pokynů k msrsync naplnění služby Azure Blob Storage službou Azure HPC Cache:

  1. Instalace msrsync a požadavky (rsync a Python 2.6 nebo novější)

  2. Určete celkový počet souborů a adresářů, které se mají zkopírovat.

    Například použijte nástroj s argumenty prime.pyprime.py --directory /path/to/some/directory (dostupné stažením https://github.com/Azure/Avere/blob/main/src/clientapps/dataingestor/prime.py).

    Pokud nepoužíváte prime.py, můžete vypočítat počet položek pomocí nástroje GNU find následujícím způsobem:

    find <path> -type f |wc -l         # (counts files)
    find <path> -type d |wc -l         # (counts directories)
    find <path> |wc -l                 # (counts both)
    
  3. Vydělte počet položek číslem 64 a určete počet položek na proces. Toto číslo použijte s -f možností nastavit velikost kbelíků při spuštění příkazu.

  4. msrsync Zadejte příkaz pro kopírování souborů:

    msrsync -P --stats -p64 -f<ITEMS_DIV_64> --rsync "-ahv --inplace" <SOURCE_PATH> <DESTINATION_PATH>
    

    Tento příkaz je například navržený tak, aby přesunul 11 000 souborů v 64 procesech z /test/source-repository do /mnt/hpccache/repository:

    mrsync -P --stats -p64 -f170 --rsync "-ahv --inplace" /test/source-repository/ /mnt/hpccache/repository