Design för återställning
Arbetsbelastningen måste kunna förutse och återställa från de flesta fel, av alla omfattningar, med minimala störningar i användarupplevelsen och affärsmålen. |
---|
Även mycket motståndskraftiga system behöver katastrofberedskapsmetoder i både arkitekturdesign och arbetsbelastningsåtgärder. På datalagret bör du ha strategier som kan reparera arbetsbelastningstillståndet om det uppstår skada.
Exempelscenario
Contoso är för närvarande värd för en stor mängd data i en lokal SQL Server-databas och har nyligen moderniserat sin analyslösning för data med Azure-tjänster.
Den nya analyslösningen använder Azure Analysis Services, Azure Data Factory, Azure Synapse Analytics, Power BI och Azure Virtual Machines. Alla användare av lösningen är interna. Efter att ha övervägt tillgänglighetskraven för lösningen bestämmer sig teamet för att implementera lösningen i en enda region.
Data matas in med Azure Data Factory och bearbetas innan de sparas i Analysis Services-lagringen. En del av processen kräver en äldre Windows-process som distribueras till en virtuell dator i molnet.
Var beredd på katastrofer
Har strukturerade, testade och dokumenterade återställningsplaner som är anpassade till de förhandlade återställningsmålen. Planer måste omfatta alla komponenter utöver systemet som helhet.
En väldefinierad process leder till en snabb återställning som kan förhindra negativ inverkan på din verksamhets ekonomi och rykte. Genom att utföra regelbundna återställningstester testas processen med att återställa systemkomponenter, data och redundans- och återställningssteg för att undvika förvirring när tid och dataintegritet är viktiga mått på framgång.
Contosos utmaning
- Lösningen används endast internt och anses inte vara verksamhetskritisk. Därför är arbetsbelastningsteamet och affärsintressenterna överens om att återskapa lösningen i en sekundär region är en tillräcklig återställningsmodell i den osannolika händelsen att Den Azure-region där den distribueras går förlorad eller om hela lösningen blir otillgänglig av någon annan anledning.
- Arbetsbelastningsteamet beskriver hur man skapar lösningen i en annan region i sin DR-plan, men har inte haft möjlighet att utföra ett fullständigt DR-test ännu.
Tillämpa metoden och resultaten
- Efter ett regionalt avbrott kan dr-svarsteamet följa DR-planens instruktioner för att distribuera om analyslösningen i en annan region.
- Teamet upptäcker luckor i DR-planerna för några av de åtgärder som krävs för att distribuera lösningen, och planen uppdateras för att göra återställningen mer effektiv i framtiden.
- Arbetsbelastningsteamet och intressenterna är överens om att påskynda den planerade dr-testningen för att säkerställa att den uppdaterade planen möjliggör en effektivare återställning.
Hantera tillståndskänsliga data
Se till att du kan reparera data för alla tillståndskänsliga komponenter i dina återställningsmål.
Säkerhetskopior är viktiga för att få systemet tillbaka till ett fungerande tillstånd med hjälp av en betrodd återställningspunkt, till exempel det senast kända goda tillståndet.
Oföränderliga och transaktionsmässigt konsekventa säkerhetskopior säkerställer att data inte kan ändras och att återställda data inte är skadade.
Contosos utmaning
- Arbetsbelastningsteamet bestämmer sig för att flytta SQL-databaserna till Azure för att minska analysbearbetningstiderna. En av databaserna används mycket under analysprocessen av de virtuella datorerna, så teamet måste se till att databastillståndet kan återställas med lägsta möjliga RPO.
Tillämpa metoden och resultaten
- Eftersom databaserna är stora på över 4 TB vardera går det inte att migrera till Azure SQL Database på kort sikt. Teamet migrerar därför till virtuella Azure-datorer som kör SQL Server 2022.
- Teamet bestämmer sig för att använda funktionen Automatisk säkerhetskopiering för alla databaser, inklusive de kritiska, som den som används av de virtuella datorerna.
- För de kritiska databaserna planerar teamet att använda funktionen Automatiserad säkerhetskopiering tillsammans med länkfunktionen Hanterad instans för att aktivt replikera databaserna till en Hanterad Azure SQL-instans.
Implementera automatiserade självåterställningsfunktioner i designen
Självåterställningsfunktioner är mekanismer som gör det möjligt för komponenter i arbetsbelastningen att automatiskt lösa problem genom att återställa berörda komponenter och vid behov redundansväxlande till redundant infrastruktur. Använd designmönster för att öka motståndskraften i din arbetsbelastning genom självåterställningsmekanismer.
Automatisering av självåterställning hjälper till att minska riskerna från externa faktorer som mänsklig inblandning och förkortar brytkorrigeringscykeln.
Contosos utmaning
- Windows-processen som anropades från Azure Data Factory när data matades in distribuerades ursprungligen till flera virtuella datorer för ökad tillgänglighet.
- Det har förekommit några fall där den äldre Windows-processen har kraschat, vilket kräver en omstart av den virtuella datorn. Bearbetningstiden överlag har påverkats minimalt (på grund av redundansnivån), men teamet vill implementera en lösning som automatiserar identifieringen av felet och återställningen.
Tillämpa metoden och resultaten
- Teamet bestämmer sig för att implementera en Azure Virtual Machine Scale Set-lösning som är konfigurerad för att distribuera programhälsotillägget för att kontinuerligt övervaka hälsotillståndet för den virtuella datorn.
- När Automatisk instansreparation är aktiverad kan skalningsuppsättningen nu reparera komponenten genom att starta om den virtuella datorn eller skapa en ny instans baserat på samma avbildning.