Gegevens verplaatsen naar Azure Blob Storage
Als uw werkstroom gegevens naar Azure Blob Storage bevat, moet u ervoor zorgen dat u een efficiënte strategie gebruikt. U moet de cache maken, de blobcontainer toevoegen als opslagdoel en vervolgens uw gegevens kopiëren met behulp van Azure HPC Cache.
In dit artikel wordt uitgelegd hoe u gegevens kunt verplaatsen naar blobopslag voor gebruik met Azure HPC Cache.
Tip
Dit artikel is niet van toepassing op NFS-gekoppelde blobopslag (ADLS-NFS-opslagdoelen). U kunt elke methode op basis van NFS gebruiken om een ADLS-NFS-blobcontainer te vullen voor of na het toevoegen aan de HPC Cache. Lees gegevens vooraf laden met het NFS-protocol voor meer informatie.
Houd rekening met deze feiten:
Azure HPC Cache maakt gebruik van een gespecialiseerde opslagindeling om gegevens in blobopslag te ordenen. Daarom moet een blobopslagdoel een nieuwe, lege container of een blobcontainer zijn die eerder is gebruikt voor Azure HPC Cache-gegevens.
Het kopiëren van gegevens via de Azure HPC Cache naar een back-endopslagdoel is efficiënter wanneer u meerdere clients en parallelle bewerkingen gebruikt. Met een eenvoudige kopieeropdracht van één client worden gegevens langzaam verplaatst.
De strategieën die in dit artikel worden beschreven, werken voor het vullen van een lege blobcontainer of voor het toevoegen van bestanden aan een eerder gebruikt opslagdoel.
Gegevens kopiëren via de Azure-HPC Cache
Azure HPC Cache is ontworpen om meerdere clients tegelijk te bedienen, dus als u gegevens via de cache wilt kopiëren, moet u parallelle schrijfbewerkingen van meerdere clients gebruiken.
De cp
opdrachten copy
die u doorgaans gebruikt om gegevens van het ene opslagsysteem naar het andere over te dragen, zijn processen met één thread die slechts één bestand tegelijk kopiëren. Dit betekent dat de bestandsserver slechts één bestand tegelijk opneemt, wat een verspilling is van de resources van de cache.
In deze sectie worden strategieën beschreven voor het maken van een systeem voor het kopiëren van meerdere threads van bestanden met meerdere threads om gegevens te verplaatsen naar blobopslag met Azure HPC Cache. Hierin worden concepten en beslissingspunten voor bestandsoverdracht uitgelegd die kunnen worden gebruikt voor efficiënt kopiëren van gegevens met behulp van meerdere clients en eenvoudige kopieeropdrachten.
Er worden ook enkele hulpprogramma's uitgelegd die u kunnen helpen. Het msrsync
hulpprogramma kan worden gebruikt om het proces van het delen van een gegevensset gedeeltelijk te automatiseren in buckets en het gebruik van rsync-opdrachten. Het parallelcp
script is een ander hulpprogramma waarmee de bronmap wordt gelezen en kopieeropdrachten automatisch worden gelezen.
Strategische planning
Wanneer u een strategie bouwt om gegevens parallel te kopiëren, moet u inzicht hebben in de afwegingen in bestandsgrootte, aantal bestanden en mapdiepte.
- Wanneer bestanden klein zijn, is de metrische waarde van belang bestanden per seconde.
- Wanneer bestanden groot zijn (10MiBi of hoger), is de metrische waarde bytes per seconde.
Elk kopieerproces heeft een doorvoersnelheid en een door bestanden overgedragen snelheid, die kan worden gemeten door de lengte van de kopieeropdracht te bepalen en de bestandsgrootte en het aantal bestanden te factoreren. Uitleg over het meten van de tarieven valt buiten het bereik van dit document, maar het is belangrijk om te begrijpen of u te maken hebt met kleine of grote bestanden.
Strategieën voor parallelle gegevensopname met Azure HPC Cache zijn onder andere:
Handmatig kopiëren: u kunt handmatig een kopie met meerdere threads maken op een client door meerdere kopieeropdrachten tegelijk uit te voeren op de achtergrond op basis van vooraf gedefinieerde sets bestanden of paden. Lees Azure HPC Cache gegevensopname: handmatige kopieermethode voor meer informatie.
Gedeeltelijk geautomatiseerd kopiëren met
msrsync
-msrsync
is een wrapper-hulpprogramma waarmee meerdere parallellersync
processen worden uitgevoerd. Lees azure HPC Cache gegevensopname - msrsync-methode voor meer informatie.Met scripts kopiëren met
parallelcp
- Informatie over het maken en uitvoeren van een parallel kopieerscript in Azure HPC Cache gegevensopname - methode voor het parallel kopiëren van scripts.
Volgende stappen
Nadat u uw opslag hebt ingesteld, leert u hoe clients de cache kunnen koppelen.