Gegevens verplaatsen naar Azure Blob Storage

Als uw werkstroom het verplaatsen van gegevens naar Azure Blob Storage omvat, moet u ervoor zorgen dat u een efficiënte strategie gebruikt. U moet de cache maken, de blobcontainer toevoegen als opslagdoel en vervolgens uw gegevens kopiëren met behulp van Azure HPC Cache.

In dit artikel wordt uitgelegd hoe u gegevens naar blobopslag kunt verplaatsen voor gebruik met Azure HPC Cache.

Fooi

Dit artikel is niet van toepassing op NFS-gekoppelde blobopslag (ADLS-NFS-opslagdoelen). U kunt elke methode op basis van NFS gebruiken om een ADLS-NFS-blobcontainer te vullen voor of na het toevoegen aan de HPC-cache. Lees gegevens vooraf laden met het NFS-protocol voor meer informatie.

Houd rekening met deze feiten:

  • Azure HPC Cache maakt gebruik van een gespecialiseerde opslagindeling om gegevens in blobopslag te ordenen. Daarom moet een blobopslagdoel een nieuwe, lege container of een blobcontainer zijn die eerder is gebruikt voor Azure HPC Cache-gegevens.

  • Het kopiëren van gegevens via de Azure HPC Cache naar een back-endopslagdoel is efficiënter wanneer u meerdere clients en parallelle bewerkingen gebruikt. Met een eenvoudige kopieeropdracht van één client worden gegevens langzaam verplaatst.

De strategieën die in dit artikel worden beschreven, werken voor het vullen van een lege blobcontainer of voor het toevoegen van bestanden aan een eerder gebruikt opslagdoel.

Gegevens kopiëren via azure HPC Cache

Azure HPC Cache is ontworpen om meerdere clients tegelijk te bedienen, dus als u gegevens via de cache wilt kopiëren, moet u parallelle schrijfbewerkingen van meerdere clients gebruiken.

Diagram showing multi-client, multi-threaded data movement: At the top left, an icon for on-premises hardware storage has multiple arrows coming from it. The arrows point to four client machines. From each client machine three arrows point toward the Azure HPC Cache. From the Azure HPC Cache, multiple arrows point to blob storage.

De cp of copy opdrachten die u doorgaans gebruikt om gegevens van het ene opslagsysteem naar het andere over te dragen, zijn processen met één thread die slechts één bestand tegelijk kopiëren. Dit betekent dat de bestandsserver slechts één bestand tegelijk opneemt. Dit is een verspilling van de resources van de cache.

In deze sectie worden strategieën uitgelegd voor het maken van een bestand met meerdere threads met meerdere threads voor het kopiëren van gegevens naar blobopslag met Azure HPC Cache. Hierin worden concepten en beslissingspunten voor bestandsoverdracht uitgelegd die kunnen worden gebruikt voor het efficiënt kopiëren van gegevens met behulp van meerdere clients en eenvoudige kopieeropdrachten.

Er worden ook enkele hulpprogramma's uitgelegd die u kunnen helpen. Het msrsync hulpprogramma kan worden gebruikt om het proces van het verdelen van een gegevensset gedeeltelijk te automatiseren in buckets en rsync-opdrachten te gebruiken. Het parallelcp script is een ander hulpprogramma waarmee de bronmap wordt gelezen en kopieeropdrachten automatisch worden gelezen.

Strategische planning

Wanneer u een strategie bouwt om gegevens parallel te kopiëren, moet u inzicht hebben in de bestandsgrootte, het aantal bestanden en de mapdiepte.

  • Wanneer bestanden klein zijn, is de metrische waarde van belang bestanden per seconde.
  • Wanneer bestanden groot zijn (10MiBi of hoger), is de metrische waarde bytes per seconde.

Elk kopieerproces heeft een doorvoersnelheid en een door bestanden overgedragen snelheid, die kan worden gemeten door de lengte van de kopieeropdracht te bepalen en rekening te houden met de bestandsgrootte en het aantal bestanden. Uitleg over het meten van de tarieven valt buiten het bereik van dit document, maar het is noodzakelijk om te begrijpen of u met kleine of grote bestanden te maken krijgt.

Strategieën voor parallelle gegevensopname met Azure HPC Cache zijn onder andere:

Volgende stappen

Nadat u uw opslag hebt ingesteld, leert u hoe clients de cache kunnen koppelen.