Bestand terugschrijven aanpassen in Azure HPC Cache

HPC Cache-gebruikers kunnen aanvragen dat de cache specifieke afzonderlijke bestanden naar back-endopslag op aanvraag schrijft met behulp van het hulpprogramma flush_file.py. Dit hulpprogramma is een afzonderlijk gedownload softwarepakket dat u installeert en gebruikt op Linux-clientcomputers.

Deze functie is ontworpen voor situaties waarin u wilt dat de wijzigingen in bestanden in de cache zo snel mogelijk beschikbaar worden gemaakt voor systemen die de cache niet koppelen.

U kunt bijvoorbeeld Azure HPC Cache gebruiken om uw rekentaken in de cloud te schalen, maar uw gegevensset permanent opslaan in een on-premises datacenter. Als rekentaken plaatsvinden in het datacenter dat afhankelijk is van wijzigingen die zijn gemaakt met Azure HPC Cache, kunt u dit hulpprogramma gebruiken om de uitvoer of wijzigingen die door een cloudtaak worden gegenereerd, terug te pushen naar de on-premises NAS-opslag. Hierdoor kunnen de nieuwe bestanden vrijwel onmiddellijk worden gebruikt door on-premises rekenresources.

Kiezen tussen aangepaste write-back en flush

U kunt afdwingen dat gegevens worden teruggeschreven met de optie 'opslagdoel leegmaken' die is ingebouwd in Azure HPC Cache, maar deze benadering is mogelijk niet geschikt voor alle situaties.

  • Het terugschrijven van alle gewijzigde bestanden naar het opslagsysteem kan enkele minuten of zelfs uren duren, afhankelijk van de hoeveelheid gegevens en de snelheid van de netwerkkoppeling terug naar het on-premises systeem. U kunt ook niet alleen de bestanden kiezen waarmee u klaar bent om te worden geschreven; bestanden die nog actief worden gewijzigd, worden in deze berekening opgenomen.

  • De cache kan het leveren van bepaalde aanvragen van dat opslagdoel blokkeren tijdens het leegmaken. Dit kan de verwerking vertragen als er andere rekenclients zijn die gebruikmaken van bestanden die zich op hetzelfde opslagdoel bevinden.

  • Voor het activeren van deze actie is inzendertoegang tot Azure Resource Manager vereist, die eindgebruikers mogelijk niet hebben.

U kunt bijvoorbeeld meerdere parallelle (maar niet overlappende) rekentaken hebben die gegevens verbruiken die zich op hetzelfde HPC Cache-opslagdoel bevinden. Wanneer één taak is voltooid, wilt u onmiddellijk de uitvoer van die taak schrijven van de cache naar uw langetermijnopslag op de back-end.

U hebt drie opties:

Over het hulpprogramma write-back

Het hulpprogramma write-back heeft een script dat u kunt gebruiken om afzonderlijke bestanden op te geven die vanuit de cache naar het langetermijnopslagsysteem worden geschreven.

Het script neemt een invoerstroom van de bestanden om te schrijven, plus het pad naar de cachenaamruimte naar uw opslagdoelexport en een IP-adres voor koppelen van HPC Cache.

Het script maakt gebruik van een aanroep voor doorvoeren van NFSv3 waarvoor speciale argumenten zijn ingeschakeld. De Linux nfs-common-client kan deze argumenten niet op de juiste manier doorgeven, dus het hulpprogramma flush_file.py gebruikt een NFS-clientemulator in een Python-bibliotheek om te communiceren met de HPC Cache NFS-service. De bibliotheek bevat alles wat nodig is, waardoor eventuele beperkingen in de Linux-kernelgebaseerde NFS-client van uw rekenclient worden overgeslagen.

Als u deze functie wilt gebruiken, moet u het volgende doen:

Meer informatie over het installeren en gebruiken van het script flush_file.py in de GitHub-opslagplaats.