Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Denna rekommendation i checklistan för Operativ Excellens inom Azure Well-Architected Framework gäller för:
| OE:08 | Upprätta en tydlig, strukturerad incidenthanteringsprocess med definierade roller, dokumenterade procedurer och arkitektur som utformats för snabb identifiering, diagnos och återställning. |
|---|
När incidenter inträffar bör arbetsbelastningsteamet förberedas med tydliga, strukturerade procedurer.
Det finns två viktiga aspekter på incidenthantering. Den första är arkitekturell, med fokus på att utforma system som stöder effektiva svarsförfaranden och förhindra att fel sprider sig över komponenter. Den andra är procedurmässig, och omfattar identifiering, inneslutning och prioritering för att snabbt hantera problem, följt av grundorsaksanalys och efteranalys för att förhindra upprepning. Regelbundna övningar hjälper till att upprätthålla beredskapen och se till att planen kan köras effektivt.
Den här artikeln beskriver beprövade strategier för att utforma en arkitektur som hjälper till som svar och en plan som håller teamet lugnt, samordnat och under kontroll. Detaljerad implementeringsvägledning, inklusive stegvisa processer och spelböcker, finns i den kompletterande artikeln: Skapa en effektiv incidenthanteringsplan för att hantera störningar.
Definitioner
| Begrepp | Definition |
|---|---|
| Chaos Engineering (kaosingenjörskap) | Avsiktligt injicera fel eller negativa förhållanden i ett system för att testa dess återhämtnings- och återställningsprocedurer. |
| Inneslutning | Begränsa effekten av en incident för att förhindra att den påverkar andra komponenter eller system. |
| Upptäckt | Identifiera att en incident har inträffat eller inträffar. |
| Efteranalys | En strukturerad, skuldfri granskning av en incident som involverar alla relevanta team, samlar in lärdomar och definierar användbara förbättringar av processer, verktyg och system. |
| RCA (rotorsaksanlys) | Undersökning och identifiering av de underliggande orsakerna till en incident, inklusive bidragande faktorer, för att förhindra upprepning. |
| RPO (mål för återställningspunkt) | Den maximala godtagbara mängden dataförlust som mäts i tid. |
| RTO (mål för återställningstid) | Den maximala godkända tiden som ett system eller en tjänst kan vara nere efter en incident innan det orsakar oacceptabel påverkan. |
| Triage | Utvärdera och prioritera incidenter för att fastställa lämpliga åtgärder. |
Dokumentera planen för incidenthantering
En incident kan vara relaterad till distributions-, säkerhets- eller prestandaproblem. Oavsett skapar du en grundläggande incidenthanteringsplan som täcker hela processen. Definiera kompletterande procedurer för varje incidenttyp som beskriver distinkta identifieringsmetoder, inneslutnings- och återställningssteg, berörda intressenter som är specifika för den typen av incident. Din säkerhetsincidentplan kan till exempel ha processer relaterade till att involvera Security Operations Center (SOC), som inte gäller för en distributionsincident.
En plan för incidenthantering bör definiera de nyckelroller som ingår i hanteringen av en incident och ansvarsområden för var och en. Ett tydligt ägarskap minskar förvirringen och säkerställer att åtgärder samordnas från identifiering via lösning. Identifiera roller som incidentchef, teknisk chef och kommunikationsansvarig för att definiera ansvar och stödja konsekvent beslutsfattande.
Planen måste innehålla en kommunikations- och eskaleringsstruktur som beskriver hur incidenter rapporteras, vem som meddelas och genom vilka kanaler. Detta säkerställer att informationen rör sig snabbt till rätt personer och förhindrar luckor eller duplicering under kritiska ögonblick.
Planen måste också innehålla de grundläggande procedurer som teamet följer under detektering, triagering, inneslutning och återställning. De här stegen ger ett förutsägbart ramverk för svar och bidrar till att upprätthålla driftsstabilitet. Regelbundna granskningar av dessa procedurer håller planen i linje med systemändringar och lärdomar från tidigare incidenter.
Avvägning. En alltför aggressiv svarsstrategi kan utlösa falska larm eller onödiga eskaleringar.
På samma sätt kan automatiska åtgärder som skalning eller självåterställning som utlöses av tröskelvärdesöverträdelser medföra extra kostnader och driftkostnader. Eftersom de optimala tröskelvärdena kanske inte är uppenbara kan du validera dem genom testning i lägre miljöer och noggrant övervakade produktionsförsök för att anpassa åtgärderna till dina faktiska krav.
Allokera tillräckliga resurser för infrastruktur, processer och personal för incidenthantering
Planera för tillräckligt med resurser för att köra minst två arbetsbelastningskonfigurationer samtidigt när återställning krävs för att undvika avbrott i tjänsten. Arbetsbelastningsteam bör vara beredda att stödja båda konfigurationerna i produktion när det behövs. Detta kan innebära refaktorisering av arbetsbelastningar, till exempel avkoppling av komponenter eller uppdatering av datamodeller.
Från ett mänskligt resursperspektiv måste teamet balansera sitt regelbundna ansvar med incidenthanteringsarbete. Det kan finnas ett behov av att öka personalstyrkan eller engagera externa resurser. Det kan vara plattformssupport från Azure, tredjepartsleverantörer eller centrala IT-team som specialiserar sig på incidenthantering och har aktiva supportkontrakt på plats. Planen för incidenthantering bör tydligt dokumentera vad varje part omfattar, undantag, eskaleringsförfaranden och förväntade svarstider.
Anmärkning
Arbeta med din organisation för att förbereda dessa supportkontrakt i förväg så att de är lättillgängliga under en incident.
Även med dessa externa beroenden förväntar du dig att vissa teammedlemmar arbetar direkt med leverantörer medan andra fortsätter med intern sortering och reparation.
Håll kontaktinformationen för intern personal och leverantörspersonal uppdaterad. Upprätta säkra och enkla procedurer för att autentisera och auktorisera extern åtkomst eller gäståtkomst med lämpliga behörigheter för loggar och produktionsmiljöer.
AI-möjlighet: Innan support övergår till externa leverantörer kan AI rollspela som leverantörsteam med hjälp av endast dokumentation, spelböcker, hälsomodeller och eskaleringsvägar som leverantören har tillhandahållit. Den testar historiska incidenter för att avslöja luckor, till exempel saknade kunskaper om system eller felkonfigurerade tröskelvärden eller beroende av stamkunskap. Detta gör det möjligt för team att åtgärda luckor proaktivt, vilket säkerställer smidiga överlämningar.
Skapa inneslutning och isolering i arkitekturen
Incidenter är oundvikliga, så utforma din arkitektur för att begränsa fel och begränsa deras sprängradie. Se till att när en komponent misslyckas isoleras påverkan så att den inte sprider sig till andra delar av systemet.
Uppnå detta genom tekniker som segmentering av resurser, löskoppling av komponenter med mikrotjänster och tillämpning av designmönster som bulkheads eller publicerare/prenumerant i din design. Överväg även att använda externa resurser, i förekommande fall. I stället för att hårdkoda konfigurationsvärden i programmet använder du till exempel ett externt konfigurationslager för att hantera inställningar utanför programkoden eller distributionspaketet.
Skapa övervakningsfunktioner för snabb identifiering
En stark plan för incidenthantering är beroende av en väl utformad övervakningsstack. Funktioner som strukturerad loggning, riktade instrumentpaneler och åtgärdsbara aviseringar hjälper team att svara snabbt, minimera brus och undvika varningströtthet.
Risk: En alltför aggressiv svars- eller automatiseringsstrategi som att utlösa aviseringar, eskaleringar eller automatisk skalning för ofta kan resultera i falska larm, onödiga driftstörningar, ökade kostnader på grund av dåligt definierade tröskelvärden.
Minska den risken genom att utföra noggranna tester i lägre miljöer och kontrollerade produktionsscenarier för att förfina tröskelvärden för aviseringar och skalning.
Effektiv övervakning har två viktiga dimensioner. För det första bör svarsprocessen ta emot meddelanden i tid från Azure om kritiska indikatorer som tjänsthälsa, beroendestatus, säkerhetsöverträdelser och dataintegritet. För det andra måste själva lösningen generera omfattande, strukturerad telemetri, loggar, mått och spårningar, vilket möjliggör djupanalys, triage och rotorsaksidentifiering.
De viktigaste affärsarbetsflödena ska vara spårbara från slutpunkt till slutpunkt så att incidenter kan rekonstrueras korrekt. I ett system för orderbearbetning bör team till exempel kunna spåra när en order togs emot, när betalningsauktorisering gjordes och var felet inträffade. Utforma komponenter för att underlätta felsökning med konfigurerbar loggverositet, minnesdumpar och säker delning av diagnostikdata mellan miljöer. De här funktionerna ger den synlighet och kontext som krävs för snabba och effektiva incidenthanteringar.
AI-möjlighet: Det är vanligt att undersökningar har försenat starten på grund av manuell datainsamling. AI kan göra incidenthantering snabbare och enklare genom att automatiskt samla in kontext, korrelera data och utföra inledande sortering så snart en avisering utlöses. I stället för att börja från början får ingenjörerna en tydlig bild omedelbart, incidenter dirigeras till rätt experter och säkra, vanliga korrigeringar kan föreslås eller automatiseras med skyddsräcken. Med tillräckligt med testning kan du överväga att skapa en lösning som ger automatiserat initialt svar med all den korrelerade kontexten.
Underlätta med diagnostikdata och metoder
Utforma lösningen för att göra det snabbare och mer tillförlitligt att diagnostisera och lösa problem. Målet är att integrera egenskaper för felsökning och observerbarhet i systemets design.
Detta börjar med rätt samling av alla relevanta diagnostikdata, till exempel krasch- och minnesdumpar. Se till att nödvändiga verktyg finns på plats för att på ett säkert sätt samla in, lagra och dela dessa data för effektiv korrelation och analys. Verktyg som nätverksspårare och symbolservrar bör integreras för att stödja djupare felsökningsfunktioner. Se slutligen till att alla diagnostikdata skyddas mot manipulering genom säker lagring, begränsad åtkomst och korrekta kontroller för datastyrning.
Systemet bör också innehålla inbyggda krokar och reglage som stöder incidenthantering. Dessa mekanismer är användbara när du inaktiverar eller isolerar felaktiga komponenter i realtid, utan omdistributioner. Dessutom bör misslyckade resurser bevaras i ett karantäntillstånd för kriminalteknisk analys i stället för att omedelbart ignoreras.
Visualisera incidentdata i en enda fönsterruta
Skapa en centraliserad instrumentpanel för incidenthantering eller portal för statusuppdateringar i realtid, synlighet och kunskapsdelning. Instrumentpanelen bör fungera som en gemensam källa till sanning och hålla alla samordnade med prioriteringar, aktuella åtgärder och beroenden. Incidenter är stressfyllda situationer för team, och det är viktigt att ha precis tillräckligt med information för att behålla fokus och att stödja beslutsfattande i rätt tid. Det stärker också en kultur av ansvarsskyldighet och kontinuerlig inlärning.
Viktiga komponenter bör innehålla observerbarhetsdata, tidslinjer, ägarskapsinformation och allvarlighetsgradsindikatorer. Synligheten bör vara rollspecifik, med lämpliga säkerhetskontroller, till exempel RBAC, så att användarna kan komma åt den information de behöver utan att exponera känsliga data eller kunddata. Inkludera länkar till relevanta resurser och tydliga instruktioner för att vägleda användarna om nästa steg och deras ansvarsområden. Alternativt kan du stödja prenumerationer eller aviseringar på begäran för att meddela intressenter när incidentstatusen ändras.
Samla in och lagra spårningsloggar
Utforma din lösning med granskning som ett grundläggande krav för att stödja incidenthantering. Granskningsloggar ses ofta främst som en säkerhetsåtgärd, men de är lika viktiga för driftanalys. Systemet bör samla in detaljerade register över konfigurationsändringar, administrativa åtgärder och operativa procedurer, till exempel distributioner, säkerhetskopieringar och justeringsaktiviteter.
Testa planen
Testa regelbundet dina processer för incidenthantering med hjälp av torrkörningar eller kaostekniska övningar. Simulera realistiska incidenter för att verifiera återställningsbarhet, verifiera RTO- och RPO-mål och säkerställa att kommunikation och eskaleringsplaner fungerar under press.
Utan dessa tester kan små fel snabbt eskalera till långvariga avbrott eller stora dataförluster, vilket gör att teamen är i fara och affärsverksamheten är i fara. Testning ger dig möjlighet att identifiera luckor innan en verklig incident inträffar, förbättra samordningen.
Omvandla RCA-resultat till systemförbättringar
Efter varje incident utför du en grundlig RCA för att identifiera underliggande orsaker och bidragande faktorer. Följ detta med en skuldlös postmortem ledd av en opartisk facilitator, där varje team involverade delar observationer, framgångar och möjligheter till förbättringar.
Att kontinuerligt mata in lektioner i systemet minskar risken för upprepade incidenter. Se till att samla in och klassificera åtgärdsbara objekt inom tre områden: förfining av planen för incidenthantering, förbättring av observerbarheten för att identifiera liknande problem tidigare och förbättring av arbetsbelastningsdesignen.
AI-möjlighet: Det är inte ovanligt att incidenthanterare manuellt granskar loggar, biljetter och diskussioner för att förstå avbrott, identifiera grundorsaker och utkast till retrospektiva frågor. Det här repetitiva arbetet kan vara tidskrävande och ta fokus från återställningsarbetet.
AI kan förbättra effektiviteten genom att automatiskt generera analysfrågor, sammanfatta incidentkontext och upptäcka mönster mellan datakällor. Den kan också analysera retrospektiva anteckningar och tidigare incidentdata för att föreslå prioriterade kvarvarande uppgifter, vilket minskar den manuella ansträngningen. Implementering av den här funktionen kräver integrering av AI med ICM- och SDLC-verktyg. Utvärdera verktyg som PowerAutomate och LogicApps för att hantera arbetsflödena.
Skapa flexibilitet och konsekvens genom automatisering
Införliva automatisering i arbetsflödet för incidenthantering för att minska den manuella ansträngningen och påskynda hanteringen. Använd verktyg som Azure Batch, Runbooks, Functions och Logic Apps för att automatisera identifiering, inneslutning, aviseringar och kommunikation, så mycket som praktiskt. Underhålla ett bibliotek med skript och IaC-mallar (infrastruktur som kod) för återställning, validering, felsökning och rotorsaksanalys. Se till att dessa automatiseringar är dokumenterade och tillgängliga så att teamen kan köra dem på ett tillförlitligt sätt under incidenter. Ju mer du automatiserar, desto mer konsekvent blir ditt svar.
Azure-stöd
Azure Monitor är en omfattande lösning för att samla in, analysera och svara på övervakningsdata från molnmiljöer och lokala miljöer. Den innehåller en robust aviseringsplattform som du kan konfigurera för automatiska meddelanden och andra åtgärder, till exempel automatisk skalning och andra självåterställningsmekanismer.
Använd Monitor för att integrera maskininlärning. Automatisera och optimera incidenttriage och proaktiva åtgärder. Mer information finns i AIOps och maskininlärning i Monitor.
Log Analytics är ett robust analysverktyg som är inbyggt i Monitor. Du kan använda Log Analytics för att köra frågor mot aggregerade loggar och få insikter om din arbetsbelastning.
Microsoft erbjuder Azure-relaterad incidentberedskapsutbildning. Mer information finns i Introduktion till Azure-incidentberedskap och incidentberedskap.
Använd anslutningsövervakaren i Azure Network Watcher för att kontinuerligt spåra nätverksanslutningar och prestanda mellan Azure-resurser. Vid nödsituationer ger anpassade arbetsböcker i anslutningsövervakaren realtidsinsyn i anslutningens hälsa, fördröjningstrender och varningsstatus. Om du vill göra en effektiv RCA och uppnå snabbare upplösning använder du anslutningsfelsökning i Network Watcher-paketet med diagnostikverktyg.
Använd trafikanalys för att analysera virtuella nätverksflödesloggar och ytinsikter, till exempel blockerad trafik, skadliga flöden och exponerade portar. Genom att skapa arbetsböcker i trafikanalys kan team övervaka trafikbeteende, ta emot aviseringar och använda tidslinje- och topologivyer för att snabbt identifiera berörda nätverkssegment och svara effektivt.
Med microsofts AI- och DevOps-verktyg kan team automatiskt omvandla retrospektiva insikter till användbara kvarvarande uppgifter. Överväg Azure AI Foundry för AI-modellåtgärder, Azure DevOps för hantering av kvarvarande uppgifter, Power Automate eller Logic Apps för automatisering.
Relaterade länkar
- Rekommendationer för att utforma och skapa ett observerbarhetsramverk
- Rekommendationer för att utforma en tillförlitlig strategi för övervakning och avisering
- Rekommendationer för självläkning och självbevarelse
Checklista för operativ förträfflighet
Se den fullständiga uppsättningen rekommendationer.