Tillförlitlighet

Slutförd

Föreställ dig att du kör ett kliniskt system för en sjukvårdsorganisation. Kliniker och vårdgivare har låg tolerans för driftavbrott. De måste ha tillgång till kliniska IT-system dygnet runt för att säkerställa att de alltid tillhandahåller vård av högsta kvalitet.

För att uppfylla klinikernas krav på åtkomst dygnet runt måste program kunna hantera fel med minimal påverkan på användarna. Hur ser de till att programmen fortsätter att fungera, både vid lokala incidenter och storskaliga katastrofer?

I den här lektionen lär du dig att inkludera element från tillförlitlighetspelare i arkitekturdesignen.

Vad är tillförlitlighet?

I ett komplext program kan en mängd olika saker går fel oavsett skala. Enskilda servrar och hårddiskar kan misslyckas. Ett distributionsproblem kan oavsiktligt ta bort alla tabeller i en databas. Hela datacenter kan bli onåbara. En incident med en utpressningstrojan kan kryptera alla dina data. Det är viktigt att ditt program kan vara tillförlitligt och hantera incidenter som både orsakar lokaliserad och bred påverkan.

Att designa för tillförlitlighet omfattar att upprätthålla drifttid vid småskaliga incidenter och tillfälliga förhållanden som partiella nätverksavbrott. Du kan se till att ditt program hanterar lokaliserade fel genom att integrera hög tillgänglighet i varje komponent. Den här programdesignen eliminerar enskilda felpunkter. En sådan design minskar också påverkan vid infrastrukturunderhåll. Design med hög tillgänglighet syftar vanligtvis till att eliminera effekten av incidenter snabbt och automatiskt, och att säkerställa att systemet kan fortsätta att bearbeta begäranden med liten eller ingen effekt.

Att designa för tillförlitlighet fokuserar även på återställning från dataförlust och större katastrofer. Återställning från dessa typer av incidenter innebär ofta aktiva åtgärder, men automatisk återställning kan minska den tid som krävs för återställning. Dessa typer av incidenter kan leda till avbrott eller permanent förlorade data. Haveriberedskap handlar lika mycket om noggrann planering som utförande.

Att inkludera hög tillgänglighet och återställning i arkitekturdesignen skyddar din verksamhet mot ekonomiska förluster som uppstår till följd av driftstopp och förlorade data. De skyddar även ditt företag från förlust av rykte som orsakas av förlust av förtroende från dina kunder.

Utformning för tillförlitlighet garanterar att ditt program kan uppfylla de åtaganden som du gör mot dina kunder. Du vill se till att dina system är tillgängliga för slutanvändare och kan återställas från eventuella fel.

Skapa en arkitektur med hög tillgänglighet

För tillgänglighet ska du identifiera det serviceavtal (SLA) som du förbinder dig till. Granska de potentiella funktionerna för hög tillgänglighet i ditt program i förhållande till ditt serviceavtal och identifiera var du har rätt täckning och var du behöver göra förbättringar. Ditt mål är att lägga till redundans till komponenterna i arkitekturen för att minska sannolikheten att uppleva ett avbrott.

Exempel på designkomponenter med hög tillgänglighet inkluderar klustring och lastbalansering:

  • Klustring ersätter en enskild virtuell dator med en uppsättning samordnade virtuella datorer. När en virtuell dator misslyckas eller blir oåtkomlig, kan tjänsterna växla över till en annan som kan hantera begäranden.

  • Lastbalansering sprider ut begäranden över många instanser av en tjänst, identifierar misslyckade instanser och förhindrar att begäranden dirigeras till dem.

Skapa en arkitektur som kan återställas från fel

För återställningsfunktioner bör du utföra en analys som undersöker möjliga scenarion med dataförluster och större driftsavbrott. Din analys bör innehålla en förklaring av återställningsstrategier och förhållandet kostnad/fördelar för var och en. Den här övningen ger dig viktig insikt i organisationens prioriteringar och hjälper dig att klargöra programmets roll. Resultatet av analysen bör innehålla dessa varaktighetsvärden för ditt program:

  • Mål för återställningspunkt (RPO): Den maximala varaktigheten för acceptabel dataförlust. RPO mäts i tidsenheter, inte i volym. Exempel är ”30 minuters data” eller ”fyra timmars data”. RPO handlar om att begränsa och återställa från dataförlust, inte datastöld.

  • Mål för återställningstid (RTO): Den maximala varaktigheten för acceptabel stilleståndstid, där din specifikation definierar "stilleståndstid". Om den acceptabla stilleståndstiden till exempel är åtta timmar om det uppstår en katastrof är din RTO åtta timmar.

När du har definierat RPO och RTO kan du kan utforma säkerhetskopierings-, återställnings- och replikeringsfunktioner i arkitekturen för att uppfylla målen.

Varje molnprovider erbjuder en uppsättning tjänster och funktioner som du kan använda för att förbättra programmets tillgänglighet och återställningsfunktioner. I den mån det går så bör du använda befintliga tjänster och metodtips och undvika att skapa dina egna.

Hårddiskar kan misslyckas, datacenter kan bli onåbara och hackers kan angripa. Det är viktigt att du bibehåller ett gott rykte mot dina kunder med hjälp av tillgänglighet och återställning. Tillgänglighet fokuserar på att bibehålla drifttid tack vare villkor som nätverksavbrott och återställningsfunktioner som fokuserar på hämtning av data efter en katastrof.

Testa dina kunskaper

1.

Anta att du vill öka tillgängligheten för ditt system för att kunna ge ett bättre servicenivåavtal (SLA) åt dina kunder. Vilket av följande är en vägledande princip som du kan använda?

2.

Vilket av följande påverkas av ditt definierade mål för återställningspunkter (RPO)?