Gegevens verplaatsen naar Azure Blob Storage

Als uw werkstroom gegevens naar Azure Blob Storage bevat, moet u ervoor zorgen dat u een efficiënte strategie gebruikt. U moet de cache maken, de blobcontainer toevoegen als opslagdoel en vervolgens uw gegevens kopiëren met behulp van Azure HPC Cache.

In dit artikel wordt uitgelegd hoe u gegevens kunt verplaatsen naar blobopslag voor gebruik met Azure HPC Cache.

Tip

Dit artikel is niet van toepassing op NFS-gekoppelde blobopslag (ADLS-NFS-opslagdoelen). U kunt elke methode op basis van NFS gebruiken om een ADLS-NFS-blobcontainer te vullen voor of na het toevoegen aan de HPC Cache. Lees gegevens vooraf laden met het NFS-protocol voor meer informatie.

Houd rekening met deze feiten:

  • Azure HPC Cache maakt gebruik van een gespecialiseerde opslagindeling om gegevens in blobopslag te ordenen. Daarom moet een blobopslagdoel een nieuwe, lege container of een blobcontainer zijn die eerder is gebruikt voor Azure HPC Cache-gegevens.

  • Het kopiëren van gegevens via de Azure HPC Cache naar een back-endopslagdoel is efficiënter wanneer u meerdere clients en parallelle bewerkingen gebruikt. Met een eenvoudige kopieeropdracht van één client worden gegevens langzaam verplaatst.

De strategieën die in dit artikel worden beschreven, werken voor het vullen van een lege blobcontainer of voor het toevoegen van bestanden aan een eerder gebruikt opslagdoel.

Gegevens kopiëren via de Azure-HPC Cache

Azure HPC Cache is ontworpen om meerdere clients tegelijk te bedienen, dus als u gegevens via de cache wilt kopiëren, moet u parallelle schrijfbewerkingen van meerdere clients gebruiken.

Diagram showing multi-client, multi-threaded data movement: At the top left, an icon for on-premises hardware storage has multiple arrows coming from it. The arrows point to four client machines. From each client machine three arrows point toward the Azure HPC Cache. From the Azure HPC Cache, multiple arrows point to blob storage.

De cp opdrachten copy die u doorgaans gebruikt om gegevens van het ene opslagsysteem naar het andere over te dragen, zijn processen met één thread die slechts één bestand tegelijk kopiëren. Dit betekent dat de bestandsserver slechts één bestand tegelijk opneemt, wat een verspilling is van de resources van de cache.

In deze sectie worden strategieën beschreven voor het maken van een systeem voor het kopiëren van meerdere threads van bestanden met meerdere threads om gegevens te verplaatsen naar blobopslag met Azure HPC Cache. Hierin worden concepten en beslissingspunten voor bestandsoverdracht uitgelegd die kunnen worden gebruikt voor efficiënt kopiëren van gegevens met behulp van meerdere clients en eenvoudige kopieeropdrachten.

Er worden ook enkele hulpprogramma's uitgelegd die u kunnen helpen. Het msrsync hulpprogramma kan worden gebruikt om het proces van het delen van een gegevensset gedeeltelijk te automatiseren in buckets en het gebruik van rsync-opdrachten. Het parallelcp script is een ander hulpprogramma waarmee de bronmap wordt gelezen en kopieeropdrachten automatisch worden gelezen.

Strategische planning

Wanneer u een strategie bouwt om gegevens parallel te kopiëren, moet u inzicht hebben in de afwegingen in bestandsgrootte, aantal bestanden en mapdiepte.

  • Wanneer bestanden klein zijn, is de metrische waarde van belang bestanden per seconde.
  • Wanneer bestanden groot zijn (10MiBi of hoger), is de metrische waarde bytes per seconde.

Elk kopieerproces heeft een doorvoersnelheid en een door bestanden overgedragen snelheid, die kan worden gemeten door de lengte van de kopieeropdracht te bepalen en de bestandsgrootte en het aantal bestanden te factoreren. Uitleg over het meten van de tarieven valt buiten het bereik van dit document, maar het is belangrijk om te begrijpen of u te maken hebt met kleine of grote bestanden.

Strategieën voor parallelle gegevensopname met Azure HPC Cache zijn onder andere:

Volgende stappen

Nadat u uw opslag hebt ingesteld, leert u hoe clients de cache kunnen koppelen.