Gegevens verplaatsen naar Azure Blob Storage

Als uw werkstroom het verplaatsen van gegevens naar Azure Blob Storage omvat, moet u ervoor zorgen dat u een efficiënte strategie gebruikt. U moet de cache maken, de blobcontainer toevoegen als opslagdoel en vervolgens uw gegevens kopiëren met behulp van Azure HPC Cache.

In dit artikel wordt uitgelegd hoe u gegevens naar blobopslag kunt verplaatsen voor gebruik met Azure HPC Cache.

Tip

Dit artikel is niet van toepassing op NFS-gemonteerde blobopslag (ADLS-NFS opslagdoelen). U kunt elke methode op basis van NFS gebruiken om een ADLS-NFS blobcontainer te vullen voor of na het toevoegen aan de HPC-cache. Lees gegevens vooraf laden met het NFS-protocol voor meer informatie.

Houd rekening met deze feiten:

  • Azure HPC Cache maakt gebruik van een gespecialiseerde opslagindeling om gegevens in blobopslag te ordenen. Daarom moet een blobopslagdoel een nieuwe, lege container of een blobcontainer zijn die eerder is gebruikt voor Azure HPC Cache-gegevens.

  • Het kopiëren van gegevens via de Azure HPC Cache naar een back-endopslagdoel is efficiënter wanneer u meerdere clients en parallelle bewerkingen gebruikt. Met een eenvoudige kopieeropdracht van één client worden gegevens langzaam verplaatst.

De strategieën die in dit artikel worden beschreven, werken voor het vullen van een lege blobcontainer of voor het toevoegen van bestanden aan een eerder gebruikt opslagdoel.

Gegevens kopiëren via azure HPC Cache

Azure HPC Cache is ontworpen om meerdere clients tegelijk te bedienen, dus als u gegevens via de cache wilt kopiëren, moet u parallelle schrijfbewerkingen van meerdere clients gebruiken.

Diagram met multi-client, multi-threaded gegevensverplaatsing: linksboven heeft een pictogram voor on-premises hardwareopslag meerdere pijlen die ervan afkomen. De pijlen wijzen naar vier clientcomputers. Vanaf elke clientcomputer wijzen drie pijlen naar de Azure HPC Cache. Vanuit de Azure HPC Cache wijzen meerdere pijlen naar blobopslag.

De cp of copy opdrachten die u doorgaans gebruikt om gegevens van het ene opslagsysteem naar het andere over te dragen, zijn processen met één thread die slechts één bestand tegelijk kopiëren. Dit betekent dat de bestandsserver slechts één bestand tegelijk opneemt. Dit is een verspilling van de resources van de cache.

In deze sectie worden strategieën uitgelegd voor het maken van een multi-client, multi-threaded bestandskopiesysteem om gegevens naar blobopslag te verplaatsen met Azure HPC Cache. Hierin worden concepten en beslissingspunten voor bestandsoverdracht uitgelegd die kunnen worden gebruikt voor het efficiënt kopiëren van gegevens met behulp van meerdere clients en eenvoudige kopieeropdrachten.

Er worden ook enkele hulpprogramma's uitgelegd die u kunnen helpen. Het msrsync hulpprogramma kan worden gebruikt om het proces van het verdelen van een gegevensset gedeeltelijk te automatiseren in buckets en rsync-opdrachten te gebruiken. Het parallelcp script is een ander hulpprogramma dat de bronmap leest en automatisch kopieeropdrachten uitvoert.

Strategische planning

Wanneer u een strategie bouwt om gegevens parallel te kopiëren, moet u inzicht hebben in de bestandsgrootte, het aantal bestanden en de mapdiepte.

  • Wanneer bestanden klein zijn, is de metrische waarde van belang bestanden per seconde.
  • Wanneer bestanden groot zijn (10MiBi of hoger), is de metrische waarde bytes per seconde.

Elk kopieerproces heeft een doorvoersnelheid en een door bestanden overgedragen snelheid, die kan worden gemeten door de lengte van de kopieeropdracht te bepalen en rekening te houden met de bestandsgrootte en het aantal bestanden. Uitleg over het meten van de tarieven valt buiten het bereik van dit document, maar het is noodzakelijk om te begrijpen of u met kleine of grote bestanden te maken krijgt.

Strategieën voor parallelle gegevensopname met Azure HPC Cache zijn onder andere:

Volgende stappen 

Nadat u uw opslag hebt ingesteld, leert u hoe clients de cache kunnen koppelen.