Verileri Azure Blob depolamaya taşıma

İş akışınız verileri Azure Blob depolamaya taşımayı içeriyorsa verimli bir strateji kullandığınızdan emin olun. Önbelleği oluşturmanız, blob kapsayıcısını depolama hedefi olarak eklemeniz ve ardından Azure HPC Önbelleği kullanarak verilerinizi kopyalamanız gerekir.

Bu makalede, Azure HPC Önbelleği ile kullanmak üzere verileri blob depolamaya taşımanın en iyi yolları açıklanmaktadır.

Bahşiş

Bu makale NFS'ye bağlı blob depolama (ADLS-NFS depolama hedefleri) için geçerli değildir. Bir ADLS-NFS blob kapsayıcısını HPC Önbelleği eklemeden önce veya ekledikten sonra doldurmak için herhangi bir NFS tabanlı yöntemi kullanabilirsiniz. Daha fazla bilgi edinmek için NFS protokolüyle verileri önceden yükleme bölümünü okuyun.

Şu olguları aklınızda bulundurun:

  • Azure HPC Önbelleği, blob depolamadaki verileri düzenlemek için özel bir depolama biçimi kullanır. Bu nedenle blob depolama hedefi yeni, boş bir kapsayıcı veya daha önce Azure HPC Önbelleği verileri için kullanılan bir blob kapsayıcısı olmalıdır.

  • Azure HPC Önbelleği aracılığıyla arka uç depolama hedefine veri kopyalamak, birden çok istemci ve paralel işlem kullandığınızda daha verimlidir. Bir istemciden basit bir kopyalama komutu verileri yavaş taşır.

Bu makalede özetlenen stratejiler, boş bir blob kapsayıcısını doldurmaya veya daha önce kullanılan bir depolama hedefine dosya eklemeye yöneliktir.

Azure HPC Önbelleği aracılığıyla veri kopyalama

Azure HPC Önbelleği birden çok istemciye aynı anda hizmet vermek üzere tasarlanmıştır, bu nedenle verileri önbellek üzerinden kopyalamak için birden çok istemciden paralel yazma kullanmanız gerekir.

Diagram showing multi-client, multi-threaded data movement: At the top left, an icon for on-premises hardware storage has multiple arrows coming from it. The arrows point to four client machines. From each client machine three arrows point toward the Azure HPC Cache. From the Azure HPC Cache, multiple arrows point to blob storage.

Genellikle cp bir depolama sisteminden diğerine veri aktarmak için kullandığınız veya copy komutları, tek seferde yalnızca bir dosyayı kopyalayan tek iş parçacıklı işlemlerdir. Bu, dosya sunucusunun bir kerede yalnızca bir dosya aldığı anlamına gelir ve bu da önbelleğin kaynaklarının boşa harcandığı anlamına gelir.

Bu bölümde, Azure HPC Önbelleği ile verileri blob depolamaya taşımak için çok istemcili, çok iş parçacıklı bir dosya kopyalama sistemi oluşturma stratejileri açıklanmaktadır. Birden çok istemci ve basit kopyalama komutları kullanılarak verimli veri kopyalama için kullanılabilecek dosya aktarımı kavramlarını ve karar noktalarını açıklar.

Ayrıca yardımcı olabilecek bazı yardımcı programlar da açıklanmaktadır. Yardımcı msrsync programı, bir veri kümesini demetlere bölme ve rsync komutlarını kullanma işlemini kısmen otomatikleştirmek için kullanılabilir. Betik parallelcp , kaynak dizini okuyan ve kopyalama komutlarını otomatik olarak veren başka bir yardımcı programdır.

Stratejik planlama

Verileri paralel olarak kopyalama stratejisi oluştururken dosya boyutu, dosya sayısı ve dizin derinliğindeki dengeleri anlamanız gerekir.

  • Dosyalar küçük olduğunda, ilgilendiğin ölçüm saniyedeki dosyalardır.
  • Dosyalar büyük olduğunda (10MiBi veya üzeri), ilgi alanı ölçümü saniye başına bayttır.

Her kopyalama işleminin bir aktarım hızı ve dosya aktarım hızı vardır. Bu hız kopyalama komutunun uzunluğunu zamanlayarak ve dosya boyutu ile dosya sayısını ekleyerek ölçülebilir. Oranların nasıl ölçüldiğinin açıklanması bu belgenin kapsamı dışındadır, ancak küçük veya büyük dosyalarla ilgilenip ilgilenmeyeceksiniz anlamak zorunludur.

Azure HPC Önbelleği ile paralel veri alma stratejileri şunlardır:

Sonraki adımlar

Depolama alanınızı ayarladıktan sonra istemcilerin önbelleği nasıl bağlayabileceğini öğrenin.