Bagikan melalui


Azure HPC Cache data menelan - metode msrsync

Artikel ini memberikan instruksi terperinci menggunakan utilitas msrsync untuk menyalin data ke kontainer penyimpanan Azure Blob untuk digunakan dengan Azure HPC Cache.

Untuk mempelajari selengkapnya tentang memindahkan data ke penyimpanan Blob untuk Azure HPC Cache Anda, baca Memindahkan data ke penyimpanan Azure Blob.

Alat msrsync ini dapat digunakan untuk memindahkan data ke target penyimpanan back-end untuk Azure HPC Cache. Alat ini dirancang untuk mengoptimalkan penggunaan bandwidth dengan menjalankan beberapa proses rsync paralel. Ini tersedia dari GitHub di https://github.com/jbd/msrsync.

msrsync memecah direktori sumber menjadi “bucket” terpisah, lalu menjalankan proses rsync individual pada setiap bucket.

Pengujian awal dengan menggunakan VM empat inti menunjukkan efisiensi terbaik saat menggunakan 64 proses. Gunakan msrsync pilihan -p untuk mengatur jumlah proses ke 64.

Perhatikan bahwa msrsync hanya dapat menulis ke dan dari volume lokal. Sumber dan tujuan harus dapat diakses sebagai dudukan lokal pada stasiun kerja yang digunakan untuk mengeluarkan perintah.

Ikuti instruksi ini untuk msrsync digunakan guna mengisi penyimpanan Azure Blob dengan Azure HPC Cache:

  1. Instal msrsync dan prasyaratnya (rsync dan Python 2.6 atau yang lebih baru)

  2. Tentukan jumlah total file dan direktori yang akan disalin.

    Misalnya, gunakan utilitas prime.py dengan argumen prime.py --directory /path/to/some/directory (tersedia dengan mengunduh https://github.com/Azure/Avere/blob/main/src/clientapps/dataingestor/prime.py).

    Jika tidak menggunakan prime.py, Anda dapat menghitung jumlah item dengan alat GNU find sebagai berikut:

    find <path> -type f |wc -l         # (counts files)
    find <path> -type d |wc -l         # (counts directories)
    find <path> |wc -l                 # (counts both)
    
  3. Bagilah jumlah item dengan 64 untuk menentukan jumlah item per proses. Gunakan nomor ini dengan opsi -f untuk mengatur ukuran bucket saat Anda menjalankan perintah.

  4. Keluarkan perintah msrsync untuk menyalin file:

    msrsync -P --stats -p64 -f<ITEMS_DIV_64> --rsync "-ahv --inplace" <SOURCE_PATH> <DESTINATION_PATH>
    

    Misalnya, perintah ini dirancang untuk memindahkan 11.000 file dalam 64 proses dari /test/source-repository ke /mnt/vfxt/repository:

    mrsync -P --stats -p64 -f170 --rsync "-ahv --inplace" /test/source-repository/ /mnt/hpccache/repository