Gegevens verplaatsen naar Azure Blob Storage
Als uw werkstroom het verplaatsen van gegevens naar Azure Blob Storage omvat, moet u ervoor zorgen dat u een efficiënte strategie gebruikt. U moet de cache maken, de blobcontainer toevoegen als opslagdoel en vervolgens uw gegevens kopiëren met behulp van Azure HPC Cache.
In dit artikel wordt uitgelegd hoe u gegevens naar blobopslag kunt verplaatsen voor gebruik met Azure HPC Cache.
Fooi
Dit artikel is niet van toepassing op NFS-gekoppelde blobopslag (ADLS-NFS-opslagdoelen). U kunt elke methode op basis van NFS gebruiken om een ADLS-NFS-blobcontainer te vullen voor of na het toevoegen aan de HPC-cache. Lees gegevens vooraf laden met het NFS-protocol voor meer informatie.
Houd rekening met deze feiten:
Azure HPC Cache maakt gebruik van een gespecialiseerde opslagindeling om gegevens in blobopslag te ordenen. Daarom moet een blobopslagdoel een nieuwe, lege container of een blobcontainer zijn die eerder is gebruikt voor Azure HPC Cache-gegevens.
Het kopiëren van gegevens via de Azure HPC Cache naar een back-endopslagdoel is efficiënter wanneer u meerdere clients en parallelle bewerkingen gebruikt. Met een eenvoudige kopieeropdracht van één client worden gegevens langzaam verplaatst.
De strategieën die in dit artikel worden beschreven, werken voor het vullen van een lege blobcontainer of voor het toevoegen van bestanden aan een eerder gebruikt opslagdoel.
Gegevens kopiëren via azure HPC Cache
Azure HPC Cache is ontworpen om meerdere clients tegelijk te bedienen, dus als u gegevens via de cache wilt kopiëren, moet u parallelle schrijfbewerkingen van meerdere clients gebruiken.
De cp
of copy
opdrachten die u doorgaans gebruikt om gegevens van het ene opslagsysteem naar het andere over te dragen, zijn processen met één thread die slechts één bestand tegelijk kopiëren. Dit betekent dat de bestandsserver slechts één bestand tegelijk opneemt. Dit is een verspilling van de resources van de cache.
In deze sectie worden strategieën uitgelegd voor het maken van een bestand met meerdere threads met meerdere threads voor het kopiëren van gegevens naar blobopslag met Azure HPC Cache. Hierin worden concepten en beslissingspunten voor bestandsoverdracht uitgelegd die kunnen worden gebruikt voor het efficiënt kopiëren van gegevens met behulp van meerdere clients en eenvoudige kopieeropdrachten.
Er worden ook enkele hulpprogramma's uitgelegd die u kunnen helpen. Het msrsync
hulpprogramma kan worden gebruikt om het proces van het verdelen van een gegevensset gedeeltelijk te automatiseren in buckets en rsync-opdrachten te gebruiken. Het parallelcp
script is een ander hulpprogramma waarmee de bronmap wordt gelezen en kopieeropdrachten automatisch worden gelezen.
Strategische planning
Wanneer u een strategie bouwt om gegevens parallel te kopiëren, moet u inzicht hebben in de bestandsgrootte, het aantal bestanden en de mapdiepte.
- Wanneer bestanden klein zijn, is de metrische waarde van belang bestanden per seconde.
- Wanneer bestanden groot zijn (10MiBi of hoger), is de metrische waarde bytes per seconde.
Elk kopieerproces heeft een doorvoersnelheid en een door bestanden overgedragen snelheid, die kan worden gemeten door de lengte van de kopieeropdracht te bepalen en rekening te houden met de bestandsgrootte en het aantal bestanden. Uitleg over het meten van de tarieven valt buiten het bereik van dit document, maar het is noodzakelijk om te begrijpen of u met kleine of grote bestanden te maken krijgt.
Strategieën voor parallelle gegevensopname met Azure HPC Cache zijn onder andere:
Handmatig kopiëren: u kunt handmatig een kopie met meerdere threads op een client maken door meer dan één kopieeropdracht tegelijk uit te voeren op de achtergrond voor vooraf gedefinieerde sets bestanden of paden. Lees Azure HPC Cache-gegevensopname : handmatige kopieermethode voor meer informatie.
Gedeeltelijk geautomatiseerd kopiëren met
msrsync
-msrsync
is een wrapper-hulpprogramma waarmee meerdere parallellersync
processen worden uitgevoerd. Lees de azure HPC Cache-gegevensopname - msrsync-methode voor meer informatie.Gescript kopiëren met
parallelcp
- Informatie over het maken en uitvoeren van een parallel kopieerscript in Azure HPC Cache-gegevensopname - methode voor parallelle kopieerscripts.
Volgende stappen
Nadat u uw opslag hebt ingesteld, leert u hoe clients de cache kunnen koppelen.