Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här artikeln innehåller metodtips för att upprätthålla tillförlitligheten och säkerheten för din Azure-molnegendom. Tillförlitlighet säkerställer att dina molntjänster förblir i drift med minimal stilleståndstid. Säkerhet skyddar dina resursers konfidentialitet, integritet och tillgänglighet. Både tillförlitlighet och säkerhet är avgörande för lyckade molnåtgärder.
Hantera tillförlitlighet
Tillförlitlighetshantering innebär att du använder redundans, replikering och definierade återställningsstrategier för att minimera stilleståndstiden och skydda din verksamhet. tabell 1 innehåller ett exempel på tre arbetsbelastningsprioriteringar, tillförlitlighetskrav (drifttids-SLO, maximal stilleståndstid, redundans, belastningsutjämning, replikering) och exempelscenarier som överensstämmer med servicenivåmål (SLO)
Tabell 1. Exempel på arbetsbelastningsprioritet och tillförlitlighetskrav.
Prioritet | Påverkan på verksamheten | Minsta tillgänglighet SLO | Maximal stilleståndstid per månad | Arkitekturmässig redundans | Belastningsutjämning | Datareplikering och säkerhetskopior | Exempelscenario |
---|---|---|---|---|---|---|---|
Hög (verksamhetskritisk) | Omedelbara och allvarliga effekter på företagets rykte eller intäkter. | 99,99 % | 4,32 minuter | Flera regioner & Flera tillgänglighetszoner i varje region | Aktiv-aktiv | Synkron datareplikering mellan regioner & säkerhetskopior för återställning | Verksamhetskritisk referenslinje |
Medel | Mätbara effekter på företagets rykte eller intäkter. | 99,9% | 43,20 minuter | Flera regioner & Flera tillgänglighetszoner i varje region | Aktiv-passiv | Asynkron datareplikering mellan regioner & säkerhetskopior för återställning | tillförlitligt webbappsmönster |
Låg | Ingen effekt på företagets rykte, processer eller vinst. | 99 % | 7,20 timmar | Enskild region & flera tillgänglighetszoner | Tillgänglighetszonredundans | Synkron datareplikering mellan tillgänglighetszoner & säkerhetskopior för återställning |
Baslinje för App Service Baslinje för virtuell dator |
Identifiera ansvarsområden för tillförlitlighet
Tillförlitlighetsansvaret varierar beroende på distributionsmodell. Använd följande tabell för att identifiera ditt hanteringsansvar för infrastruktur (IaaS), plattform (PaaS), programvara (SaaS) och lokala distributioner.
Ansvar | På plats | IaaS (Azure) | PaaS (Azure) | SaaS |
---|---|---|---|---|
data | ✔️ | ✔️ | ✔️ | ✔️ |
Kod och körtid | ✔️ | ✔️ | ✔️ | |
Molnresurser | ✔️ | ✔️ | ✔️ | |
Fysisk maskinvara | ✔️ |
Mer information finns i Delat ansvar för tillförlitlighet.
Definiera tillförlitlighetskrav
Tydligt definierade tillförlitlighetskrav är viktiga för drifttidsmål, återställning och dataförlusttolerans. Följ dessa steg för att definiera tillförlitlighetskrav:
Prioritera arbetsbelastningar. Tilldela hög, medelhög (standard) eller låg prioritet till arbetsbelastningar baserat på affärskritiskhet och finansiella investeringsnivåer. Granska regelbundet prioriteringarna för att upprätthålla anpassningen till affärsmålen.
Tilldela servicenivåmål för drifttid (SLO) till alla arbetsbelastningar. Ditt servicenivåmål påverkar din arkitektur, dina strategier för datahantering, återställningsprocesser och kostnader. Upprätta drifttidsmål enligt arbetsbelastningsprioritet. Arbetsbelastningar med högre prioritet kräver striktare drifttidsmål.
Identifiera servicenivåindikatorer (SLO). Använd SLO:er för att mäta drifttidsprestanda mot din SLO. Exempel är övervakning av tjänstehälsa för
och felfrekvenser för . Tilldela ett mål för återställningstid (RTO) till alla arbetsbelastningar. RTO definierar den maximala godtagbara stilleståndstiden för din arbetsbelastning. RTO bör vara kortare än din tillåtna årliga stilleståndstid. Till exempel kräver ett drifttids-SLO 99,99% mindre än 52 minuters årlig stilleståndstid (4,32 minuter per månad). Följ dessa steg för att tilldela en RTO:
Beräkna antalet fel per år. För belastningar med operativ historik, använd dina SLI:er. För nya arbetsbelastningar utför du en fellägesanalys för att få en korrekt uppskattning.
Beräkna RTO. Dela upp den årliga tillåtna stilleståndstiden med det uppskattade antalet fel. Om du uppskattar fyra fel per år måste din RTO vara 13 minuter eller mindre (52 minuter/4 fel = 13-minuters RTO).
Testa återställningstiden. Spåra den genomsnittliga tid det tar att återställa under redundanstester och livefel. Tiden det tar att återhämta sig från ett fel måste vara mindre än din RTO.
Definiera mål för återställningspunkter (RPO) för alla arbetsbelastningar. Ditt RPO påverkar hur ofta du replikerar och säkerhetskopierar dina data. Ta reda på hur mycket dataförlust ditt företag kan tolerera.
Definiera arbetsbelastningens tillförlitlighetsmål. För arbetsbelastningstillförlitlighetsmål, se Well-Architected Frameworks rekommendationer för att definiera tillförlitlighetsmål.
Hantera datatillförlitlighet
Datatillförlitlighet omfattar datareplikering (repliker) och säkerhetskopior (tidsbestämda kopior) för att upprätthålla tillgänglighet och konsistens. Se tabell 2 för exempel på arbetsbelastningsprioritet som är anpassad till datatillförlitlighetsmål.
Tabell 2. Arbetsbelastningsprioritet med exempel på datatillförlitlighetskonfigurationer.
Arbetsbelastningsprioritet | Drifttid SLO | Datareplikering | Säkerhetskopior av data | Exempelscenario |
---|---|---|---|---|
Högt | 99,99 % | Synkron datareplikering mellan regioner Synkron datareplikering mellan tillgänglighetszoner |
Hög frekvens, säkerhetskopieringar mellan regioner. Frekvens bör stödja RTO och RPO. | Verksamhetskritisk dataplattform |
Medel | 99,9% | Synkron datareplikering mellan regioner Synkron datareplikering mellan tillgänglighetszoner |
Säkerhetskopior mellan regioner. Frekvens bör stödja RTO och RPO. | databas- och lagringslösning i mönstret Reliable Web App |
Låg | 99 % | Synkron datareplikering mellan tillgänglighetszoner | Säkerhetskopior mellan regioner. Frekvens bör stödja RTO och RPO. | Dataresiliens i webbappens grundkonfiguration med zonredundans |
Du måste justera konfigurationerna för datatillförlitlighet med RTO- och RPO-kraven för dina arbetsbelastningar. Följ dessa steg för att göra justeringen:
Hantera datareplikering. Replikera dina data synkront eller asynkront enligt arbetsbelastningens RTO- och RPO-krav.
Datadistribution Datareplikering Belastningsutjämningskonfiguration Över tillgänglighetszoner Synkroniserad (nästan i realtid) De flesta PaaS-tjänster hanterar belastningsutjämning mellan zoner internt Över olika regioner (aktiv-aktiv) Synkroniserad Aktiv-aktiv belastningsutjämning Över regioner (aktiv-passiv) Asynkron (periodisk) Aktiv-passiv konfiguration För mer information, se Replikering: Redundans för data.
Hantera datasäkerhetskopior. säkerhetskopieringar gäller haveriberedskap (tjänstfel), dataåterställning (borttagning eller skada) och incidenthantering (säkerhet). Säkerhetskopior måste ha stöd för dina RTO- och RPO-krav för varje arbetsbelastning. Föredra säkerhetskopieringslösningar som är inbyggda i din Azure-tjänst, till exempel inbyggda säkerhetskopieringsfunktioner i Azure Cosmos DB och Azure SQL Database. Om inbyggda säkerhetskopior inte är tillgängliga, inklusive lokala data, använder du Azure Backup. Mer information finns i Säkerhetskopiering och Azure Business Continuity Center.
Utforma tillförlitlighet för arbetsbelastningsdata. Information om tillförlitlighetsdesign för arbetsbelastningar finns i Well-Architected Framework Data partitioneringsguide och Azure-tjänstguider (börja med avsnittet Tillförlitlighet).
Hantera kodens och körningstidens tillförlitlighet
Tillförlitlighet för kod och körning är ett arbetsbelastningsansvar. Följ Well-Architected Frameworks självåterställning och självbevarande guide .
Hantera tillförlitlighet för molnresurser
För att hantera tillförlitligheten för dina molnresurser krävs ofta arkitekturredundans (duplicerade tjänstinstanser) och en effektiv strategi för belastningsutjämning. Se tabell 3 för exempel på arkitekturredundans som är anpassad efter arbetsbelastningsprioritet.
Tabell 3. Exempel på arbetsbelastningsprioritet och arkitekturredundans.
Arbetsbelastningsprioritet | Arkitekturmässig redundans | Belastningsutjämningsmetod | Azure-lösning för belastningsutjämning | Exempelscenario |
---|---|---|---|---|
Högt | Tillgänglighetszoner i två regioner & | Aktiv-aktiv | Azure Front Door (HTTP) Azure Traffic Manager (icke-HTTP) |
Verksamhetskritisk baslinjeprogramplattform |
Medel | Tillgänglighetszoner i två regioner & | Aktiv-passiv | Azure Front Door (HTTP) Azure Traffic Manager (icke-HTTP) |
Vägledning för arkitekturmönster för tillförlitliga webbapplikationer |
Låg | Enskild regions tillgänglighetszoner & | Över tillgänglighetszoner | Azure Application Gateway Lägga till Azure Load Balancer för virtuella datorer |
Baslinje för App Service Baslinje för virtuell dator |
Din metod måste implementera arkitekturredundans för att uppfylla tillförlitlighetskraven för dina arbetsbelastningar. Följ dessa steg:
Beräkna drifttiden för dina arkitekturer. För varje arbetsbelastning beräknar du det sammansatta serviceavtalet. Inkludera endast tjänster som kan leda till att arbetsflödet misslyckas (kritiska vägen).
Lista varje tjänst i den kritiska vägen för arbetsbelastningen. Samla in varje tjänsts Microsoft SLA:er för drifttid från det officiella dokumentet.
Bestäm om arbetsbelastningen innehåller oberoende kritiska vägar. En oberoende sökväg kan misslyckas och arbetsbelastningen förblir tillgänglig.
Om du har en kritisk sökväg använder du formeln för en region: N = S1 × S2 × S3 × ... × Sn.
Om du har två eller flera kritiska sökvägar använder du formeln independent-path: N = S1 x 1 - [(1 - S2) × (1 - S3)].
Komplexa arbetsbelastningar kombinerar ofta båda formeltyperna. Exempel: N = S1 × S2 × S3 × (S4 x 1 - [(1 - S5) × (1 - S6)]).
För program med flera regioner använder du formeln för formeln för flera regioner: M = 1 - (1 - N)^R
Jämför din beräknade drifttid med SLA för drifttid. Ett underskott kräver serviceavtal på högre nivå eller ytterligare redundans. Beräkna om efter varje ändring. Stoppa efter att den beräknade drifttiden överskrider SLO:et.
Användningsfall Formel Variabler Exempel Förklaring Enskild region N = S1 × S2 × S3 × ... × Sn N = Sammansatt serviceavtal.
S = serviceavtal för Azure-tjänsten.
n = antal tjänster på kritisk väg.N = 99,99% (app) × 99,95% (databas) × 99,9% (cache) Enkel arbetsbelastning med app (99,99%), databas (99,95%) och cache (99,9%) i en enda kritisk sökväg. Oberoende sökvägar S1 x 1 - [(1 - S2) × (1 - S3)] S = serviceavtal för Azure-tjänsten. 99.99% (app) × (1 – [(1 – 99,95% databas) × (1–99,9% cache)]) I appen kan antingen databasen (99,95%) eller cacheminnet (99,9%) misslyckas utan att orsaka driftstopp. Flera regioner M = 1 - (1 - N)^R M = Serviceavtal för flera regioner.
N = SLA för en region.
R = Antal regioner.Om N = 99,95% och R = 2, då M = 1 - (1 - 99,95%)^2 Arbetsbelastning distribuerad i två regioner. Justera tjänstnivåer. Innan du ändrar arkitekturer bör du utvärdera om olika Azure-tjänstnivåer (SKU:er) kan uppfylla dina tillförlitlighetskrav. Vissa Azure-tjänstnivåer kan ha olika serviceavtal för drifttid, till exempel Azure Managed Disks.
Lägg till arkitekturredundans. Om din nuvarande drifttidsuppskattning inte når upp till ditt servicenivåmål ökar du redundansen:
Använd flera tillgänglighetszoner. Konfigurera dina arbetsbelastningar så att de använder flera tillgänglighetszoner. Hur tillgänglighetszoner förbättrar din drifttid kan vara svårt att uppskatta. Endast ett visst antal tjänster har serviceavtal för drifttid som står för tillgänglighetszoner. Där serviceavtalen står för tillgänglighetszoner använder du dem i dina drifttidsuppskattningar. Se följande tabell för några exempel.
Azure-tjänsttyp Azure-tjänster med serviceavtal för tillgänglighetszoner Beräkningsplattform App-tjänst
Azure Kubernetes Service
Virtuella datorerDatabutik Azure Service Bus (Azure-tjänstbuss)
Azure Storage-konton
Azure-cache för Redis
Azure Files Premium-nivåDatabas Azure Cosmos DB
Azure SQL Database
Azure-databas för MySQL
Azure-databas för PostgreSQL
Azure Managed Instance för Apache CassandraLastbalanserare Application Gateway Säkerhet Azure Firewall Använd flera regioner. Flera regioner är ofta nödvändiga för att uppfylla drifttidsmål (SLO). Använd globala lastbalanserare (Azure Front Door eller Traffic Manager) för trafikdistribution. Arkitekturer i flera regioner kräver noggrann datakonsekvenshantering.
Hantera arkitekturredundans. Bestäm hur redundans ska användas: Du kan använda arkitekturredundans som en del av dagliga åtgärder (aktiv). Eller så kan du använda arkitekturredundans i haveriberedskapsscenarier (passiva). Exempel finns i tabell 3.
Belastningsutjämning mellan tillgänglighetszoner. Utnyttja all tillgänglig kapacitet aktivt. Många Azure PaaS-tjänster hanterar automatiskt belastningsutjämning mellan tillgänglighetszoner. IaaS-arbetsbelastningar måste använda en intern lastbalanserare för att lastbalansera mellan tillgänglighetszoner.
Belastningsutjämning mellan regioner. Avgör om arbetsbelastningar i flera regioner ska köra i aktiv-aktiv-läge eller aktiv-passiv-läge baserat på tillförlitlighetsbehov.
Hantera tjänstkonfigurationer. Tillämpa konfigurationer konsekvent på redundanta instanser av Azure-resurser, så att resurserna fungerar på samma sätt. Använd infrastruktur som kod för att upprätthålla enhetlighet. Mer information finns i Duplicera resurskonfiguration.
Utforma arbetsbelastningens tillförlitlighet. Information om tillförlitlighetsdesign för arbetsbelastningar finns i Well-Architected Framework:
Arbetsbelastningstillförlitlighet Vägledning Grundpelare för tillförlitlighet Design för flera regioner med hög tillgänglighet
Designa för redundans
Använda tillgänglighetszoner och regionerTjänstguide Azure-tjänstguider (börja med avsnittet Tillförlitlighet)
Mer information finns i Redundans.
Hantera affärskontinuitet
Återställning efter ett fel kräver en tydlig strategi för att snabbt återställa tjänster och minimera störningar för att upprätthålla användarnöjdhet. Följ dessa steg:
Förbered för fel. Skapa separata återställningsprocedurer för arbetsbelastningar baserat på höga, medelstora och låga prioriteringar. Datatillförlitlighet, kod och körningstillförlitlighetoch tillförlitlighet för molnresurser är grunden för att förbereda för fel. Välj andra återställningsverktyg som hjälper dig att förbereda affärskontinuitet. Använd till exempel Azure Site Recovery- för lokala och virtuella datorbaserade serverarbetsbelastningar.
Test- och dokumentåterställningsplan. Testa regelbundet dina redundans- och återställningsprocesser för att bekräfta att dina arbetsbelastningar uppfyller mål för återställningstid (RTO) och mål för återställningspunkter (RPO). Dokumentera tydligt varje steg i återställningsplanen för enkel referens vid incidenter. Kontrollera att återställningsverktyg, till exempel Azure Site Recovery, konsekvent uppfyller din angivna RTO.
Identifiera fel. Anta en proaktiv metod för att snabbt identifiera avbrott, även om denna metod ökar antalet falska positiva. Prioritera kundupplevelsen genom att minimera stilleståndstiden och upprätthålla användarförtroendet.
Övervaka fel. Övervaka arbetsbelastningar för att identifiera avbrott inom en minut. Använd Azure Service Health och Azure Resources Health- och använd Azure Monitor-aviseringar för att meddela relevanta team. Integrera dessa aviseringar med Azure DevOps- eller ITSM-verktyg (IT Service Management).
Samla in servicenivåindikatorer (SLO). Spåra prestanda genom att definiera och samla in mått som fungerar som SLO:er. Se till att dina team använder dessa mått för att mäta arbetsbelastningens prestanda mot dina servicenivåmål (SLO).
Svara på fel. Justera återställningssvaret efter arbetsbelastningsprioriteten. Implementera redundansprocedurer för att omdirigera begäranden till redundant infrastruktur och datarepliker omedelbart. När systemen har stabiliserats, åtgärda grundorsaken, synkronisera data och utför återställningsprocedurer. Mer information finns i Redundans och återställning efter fel.
Analysera fel. Identifiera de bakomliggande orsakerna till problemen och åtgärda sedan problemet. Dokumentera eventuella lektioner och gör nödvändiga ändringar.
Hantera arbetsbelastningsfel. Information om haveriberedskap för arbetsbelastningar finns i Well-Architected Frameworks guide för haveriberedskap och Azure-tjänstguider (börja med avsnittet Tillförlitlighet).
Azures tillförlitlighetsverktyg
Användningsfall | Lösning |
---|---|
Datareplikering, säkerhetskopiering och affärskontinuitet |
Azure-tjänstguider (börja med avsnittet Tillförlitlighet) Snabbreferens: Azure Cosmos DB Azure SQL Database Azure Blob Storage Azure Files |
Säkerhetskopiering av data | Azure Backup |
Affärskontinuitet (IaaS) | Azure Site Recovery |
Lastbalanserare för flera regioner |
Azure Front Door (HTTP) Azure Traffic Manager (icke-HTTP) |
Lastbalanserare för flera tillgänglighetszoner |
Azure Application Gateway (HTTP) Azure Load Balancer (icke-HTTP) |
Hantera säkerhet
Använd en iterativ säkerhetsprocess för att identifiera och minimera hot i din molnmiljö. Följ dessa steg:
Hantera säkerhetsåtgärder
Hantera dina säkerhetskontroller för att identifiera hot mot din molnegendom. Följ dessa steg:
Standardisera säkerhetsverktyg. Använd standardiserade verktyg för att identifiera hot, åtgärda sårbarheter, undersöka problem, skydda data, härda resurser och framtvinga efterlevnad i stor skala. Se Azure-säkerhetsverktyg.
Baslinje för din miljö. Dokumentera det normala tillståndet för din molnegendom. Övervaka säkerhets- och dokumentera nätverkstrafikmönster och användarbeteenden. Använd Azure-säkerhetsbaslinjer och Azure-tjänstguider för att utveckla baslinjekonfigurationer för tjänster. Den här baslinjen gör det enklare att identifiera avvikelser och potentiella säkerhetsbrister.
Tillämpa säkerhetskontroller. Implementera säkerhetsåtgärder, till exempel åtkomstkontroller, kryptering och multifaktorautentisering, stärker miljön och minskar risken för intrång. Mer information finns i Hantera säkerhet.
Tilldela säkerhetsansvar. Utse ansvar för säkerhetsövervakning i din molnmiljö. Regelbunden övervakning och jämförelser med baslinjen möjliggör snabb identifiering av incidenter, till exempel obehörig åtkomst eller ovanliga dataöverföringar. Regelbundna uppdateringar och granskningar håller säkerhetsbaslinjen effektiv mot hot som utvecklas.
Mer information finns i CAF Secure.
Hantera säkerhetsincidenter
Använd en process och verktyg för att återhämta sig från säkerhetsincidenter, till exempel utpressningstrojaner, tjänsteförnekelse eller intrång från hotaktörer. Följ dessa steg:
Förbered för incidenter. Utveckla en incidenthanteringsplan som tydligt definierar roller för undersökning, åtgärd och kommunikation. Testa regelbundet planens effektivitet. Utvärdera och implementera verktyg för sårbarhetshantering, system för hotidentifiering och lösningar för infrastrukturövervakning. Minska attackytan genom infrastrukturhärdning och skapa arbetsbelastningsspecifika återställningsstrategier. Se Översikt över incidenthantering och riktlinjer för incidenthantering.
Identifiera incidenter. Använd siem-verktyget (säkerhetsinformation och händelsehantering), till exempel Microsoft Sentinel-, för att centralisera dina säkerhetsdata. Använd Microsoft Sentinels funktioner för säkerhetsorkestrering, automatisering och svar (SOAR) för att automatisera rutinmässiga säkerhetsuppgifter. Integrera hotinformationsflöden i SIEM för att få insikter om angreppstaktiker som är relevanta för din molnmiljö. Använd Microsoft Defender for Cloud för att regelbundet söka igenom Azure efter sårbarheter. Microsoft Defender integrerar med Microsoft Sentinel för att ge en enhetlig vy över säkerhetshändelser.
Svara på incidenter. Aktivera omedelbart din incidenthanteringsplan när du identifierar en incident. Starta snabbt undersöknings- och åtgärdsprocedurer. Aktivera din plan för haveriberedskap för att återställa berörda system och tydligt förmedla incidentinformation till ditt team.
Analysera säkerhetsincidenter. Efter varje incident granskar du hotinformation och uppdaterar din incidenthanteringsplan baserat på lärdomar och insikter från offentliga resurser, till exempel MITRE ATT&CK kunskapsbas. Utvärdera effektiviteten i dina verktyg för sårbarhetshantering och identifiering och förfina strategier baserat på analys efter incident.
Mer information finns i Hantera incidenthantering (CAF Secure).
Azure-säkerhetsverktyg
Säkerhetskapacitet | Microsoft-lösning |
---|---|
Identitets- och åtkomsthantering | Microsoft Entra-ID |
Rollbaserad åtkomstkontroll | Rollbaserad Azure-åtkomstkontroll |
Upptäckt av hot | Microsoft Defender för molnet |
Hantering av säkerhetsinformation | Microsoft Sentinel |
Datasäkerhet och styrning | Microsoft Purview |
Säkerhet för molnresurser | Azure-säkerhetsbaslinjer |
Molnstyrning och ledning | Azure Policy |
Slutpunktssäkerhet | Microsoft Defender för Endpoint |
Nätverkssäkerhet | Azure Network Watcher |
Industriell säkerhet | Microsoft Defender för IoT |
Säkerhet för säkerhetskopiering av data | Säkerhet i Azure Backup |