Rekommendationer för utformning av en strategi för nödsituationsrespons
Gäller för den här Power Platform rekommendationen för checklistan Well-Architected Operational Excellence:
OE:07 | Utveckla en effektiv metod för nödsituationsåtgärder. Se till att arbetsbelastningen avger meningsfulla hälsosignaler. Samla in resulterande data och använd dem för att generera användbara aviseringar som antar nödåtgärder via instrumentpaneler och frågor. Definiera tydligt det mänskliga ansvaret, t.ex. jourrotation, incidenthantering, åtkomst till nödresurser och att genomför utredningar. |
---|
I den här guiden beskrivs rekommendationer om hur du utformar en strategi för nödsituationsrespons. Vissa av dina arbetsbelastningar kan vara verksamhetskritiska och problem som uppstår under en arbetsbelastnings livscykel kan vara tillräckligt allvarliga för att motivera att de deklareras som nödsituationer. Du kan implementera välkontrollerade och fokuserade processer och procedurer som ditt team kan följa för att säkerställa att ett problem hanteras på ett korrekt och ordnat sätt. I nödsituationer kan allas förhöjda stressnivåer dessutom leda till en kaotisk miljö om teamet inte är väl förberedda. För att minimera stress och förvirring kan du utforma en responsstrategi, dela responsstrategin med organisationen och utföra regelbunden utbildning i nödsituationsrespons.
Viktiga designstrategier
En nödsituationsrespons ska vara en väldefinierad uppsättning processer och procedurer. Varje process och procedur bör ha skript för att säkerställa att varje steg går framåt för ditt team mot att snabbt och säkert lösa ett problem. Tänk på följande om du vill utveckla en strategi för nödsituationsrespons:
- Förutsättningar
- Utveckla ett övervakningssystem
- Skapa en plan för incidentsvar
- Incidentfaser
- Detektion och inneslutning
- Prioritering
- Efterföljande incidentfaser
- Grundorsaksanalys (RCA)
- Utredningar
- Pågående aktivitet
- Övningar i nödsituationsrespons
I följande avsnitt finns detaljerade rekommendationer för alla dessa faser.
Övervakningssystem
För att ha en robust strategi för svar vid nödsituationer måste du ha ett robust övervakningssystem, eller en plattform för observerbarhet, på plats. Din överskådlighetsplattform bör ha följande egenskaper:
Holistisk övervakning: Se till att du noggrant övervakar din arbetsbelastning ur ett konfigurations- och programperspektiv och inkluderar infrastrukturövervakning om komponenter i din arbetsbelastning finns i molnet eller lokalt. Se till att alla komponenter i din arbetsbelastning omfattas av din övervakningsstrategi. Om din arbetsbelastning till exempel interagerar med Azure-resurser eller ett lokalt system inkluderar du dessa komponenter i din övervakning.
Utförlig loggning: Aktivera utförlig loggning för dina komponenter för att hjälpa till med undersökningar när du sorterar ett problem. Strukturera loggar så att de är enkla att hantera. Skicka automatiskt loggar till datasänkor för att förberedas för analys.
Användbara instrumentpaneler: Skapa instrumentpaneler baserat på din hälsomodell som är skräddarsydda för varje team i organisationen. Olika team ansvarar för olika aspekter av arbetsbelastningens hälsa.
Åtgärdsbara aviseringar: Skapa aviseringar som är användbara för dina arbetsbelastningsteam. Undvik aviseringar som inte kräver någon åtgärd från dina team. För många aviseringar av den här typen kan leda till att personer ignorerar eller blockerar aviseringar.
Automatiska meddelanden: Se till att lämpliga team automatiskt får aviseringar som kräver åtgärder från dem. Till exempel bör ditt supportteam på nivå 1 få meddelanden för alla aviseringar, medan dina säkerhetstekniker endast bör få aviseringar för säkerhetshändelser.
Läs mer i Rekommendationer för att utforma och skapa ett ramverk för övervakning.
Incidentsvarsplan
Grunden för en strategi för nödsituationsrespons är en incidentsvarsplan. Precis som med en haveriberedskapsplan bör du tydligt och noggrant definiera roller, ansvarsområden och procedurer för att svara på en incident. Planen bör vara ett versionskontrollerat dokument som regelbundet granskas för att garanterar att det är uppdaterat.
Definiera klart följande komponenter i din plan.
Roller
Identifiera en incidentsvarsansvarig. Den här personen äger incidenten från initiering till åtgärd till rotorsaksanalys. En incident svar chefen säkerställer att processer följs och att lämpliga parter informeras när det svar teamet utför sitt arbete.
Identifiera en utredningsledare. Den här personen ser till att utredningar utförs kort efter det att incidenten har stängts. De tar fram en rapport som hjälper dig att tillämpa de uppgifter som kommit ur incidenten.
Processer och procedurer
Arbetsbelastningsteamet ska definiera och förstå nödsituationskriterier. När ditt team fastställer att ett ärende är allvarligt kan du deklarera en katastrof och påbörja katastrofåterställningsplanen. I mindre allvarliga fall kanske problemet inte uppfyller kriterierna för en katastrof, men du bör ändå betrakta problemet som en nödsituation, vilket kräver att svaret initieras. Nödsituationer kan antingen vara interna för din arbetsbelastning, till exempel buggar i programkoden, eller ett resultat av ett problem med ett beroende av din arbetsbelastning, till exempel att ett API eller en databas inte är tillgänglig. En nödsituation kan också bero på ett avbrott hos leverantören (t.ex. ett problem med Microsoft Entra ID eller Power Platform). Supportteamet måste kunna avgöra om ett problem uppfyller kriterierna för nödsituationer, även om teamet inte har någon insyn i det underliggande problemet.
Definiera precisa kommunikationsplaner och eskaleringsplaner. Baserat på vilken typ av aviseringsmeddelande de får, se till att dina supportteammedlemmar på nivå 1 enkelt kan kontakta lämpliga team för eskalerande problem.
Andra objekt att ta med
Dokumentera alla standardverktyg som används under incidenter för intern kommunikation, t.ex Microsoft Teams. och för att spåra aktiviteterna under incidentens gång, till exempel ärendeverktyg eller planeringsverktyg för kvarvarande uppgifter.
Dokumentera autentiseringsuppgifterna för nödsituationer, även kallade break-glass-konton. Ta med en steg-för-steg-guide som beskriver hur de ska användas.
Skapa instruktioner för nödfalls svar granska och för register över när övningar utförs.
Dokumentera alla juridiska eller regulatoriska åtgärder som krävs, till exempel att kommunicera dataintrång.
Incidentdetektering och inneslutning
När du har ett väldesignat övervakningssystem som övervakar avvikelser och automatiskt aviserar om dem, kan du snabbt upptäcka problem och fastställa hur allvarliga de är. Om problemet anses vara en nödsituation kan planen initieras. I vissa fall meddelas inte supportteamet via övervakningssystemet. Användare kanske rapporterar problem via supportteamets kommunikationsvägar. Eller så kan de kontakta personer som de regelbundet arbetar med eller som de vet arbetar med Power Platform, till exempel dina Power Platform tjänstadministratörer eller Center of Excellence-teamet. Oavsett hur supportteamet meddelas ska de alltid följa samma steg för att verifiera problemet och fastställa vad problemets allvarlighetsgrad. Avvikelser från svarsplanen kan skapa stress och förvirring.
Prioritering
Det första steget i att åtgärda problemet är att identifiera komponenten för den arbetsbelastning som orsakar problemet. Vilka steg du följer under prioriteringen beror på typen av problem. Teamet för ett visst område av arbetsbelastningsstöd bör skapa rutiner för incidenter som är relaterade till dess arbete. Säkerhetsteam bör till exempel lösa säkerhetsproblem och följa skript som de utvecklar. Det är viktigt att teamen följer väldefinierade skript allt eftersom de arbetar med prioriteringar. Dessa skript bör vara steg-för-steg-instruktioner som innehåller återställningsprocesser för att ångra ändringar som är ineffektiva eller kan orsaka andra problem. När problemet har lösts följer du väldefinierade processer för att säkert föra tillbaka den påverkade komponenten till arbetsbelastningens flödesvägar.
Rapport om grundorsaksanalys
Incidentägaren eller någon som har arbetat nära dem bör skapa rapporter om rotorsaksanalys (RCA). Den här strategin säkerställer en korrekt redovisning av incidenten. Organisationer har ofta en definierad RCA-mall med riktlinjer för hur information presenteras och vilken slags information som kan eller inte kan delas. Om du behöver skapa en egen mall och riktlinjer ska du se till att intressenterna granskar och godkänner dem.
Utredningar av incidenter
En opartisk person ska leda klanderfria utredningar. I utredningssessioner delar alla med sig av sin information om incidenten. Varje team som var inblandat i incidentens svar bör representeras av personer som arbetade med incidenten. Dessa personer bör komma till sessionen förberedda med exempel på de åtgärder som var framgångsrika och områden som kan förbättras. Sessionen är inte ett forum för att tilldela skuld för incidenten eller problem som kan uppstå under svaret. Utredningsledaren ska lämna sessionen med en tydlig lista med åtgärdspunkter som fokuserar på förbättringar, till exempel:
- Förbättringar av svarsplanen. Processer eller procedurer kan behöva utvärderas och skrivas om för att lämpliga åtgärder ska kunna vidtas på ett bättre sätt.
- Förbättringar av övervakningssystemet. Tröskelvärdena kan behöva fastställas igen för fånga upp den specifika typen av incident tidigare, eller också kan ny övervakning behöva implementeras för att fånga beteenden som inte hanterats.
- Förbättringar av arbetsbelastningen. Incidenten kan visa en säkerhetsrisk i arbetsbelastningen som måste åtgärdas som en permanent reparation.
Att tänka på
Din strategi för nödsituationsrespons ska anpassas noggrant efter din övergripande Power Platform-supportstrategi. Arbeta med dina Power Platform administratörer och Center of Excellence-teamet för att diskutera alternativ och processer för support och svar vid nödsituationer som kanske redan har definierats.
När du definierar supportprocessen och eskaleringsvägen är det viktigt att kategorisera lösningar som bygger på kritiskhet. Med den här metoden kan du upprätta processer som säkerställer att kritiska program har de skyddsräcken som krävs för att stödja dem, samtidigt som du inte kväver innovationen i produktivitetsscenarier eller överväldigar dina svar på incidenter. När du definierar supportmodeller bör du också tänka hur lösningen utvecklas. En lösning kan till en början bara kräva support på produktivitetsnivå men växa i funktionalitet eller användarbas för att kräva en högre supportnivå. Definiera hur skapare kan begära mer formellt stöd och en övergång till en lösning till miljöer som stöds.
Underlätta Power Platform
Power Platform integreras med Application Insights, som ingår i Azure Monitor-ekosystemet. Använd integreringen för att:
Ta emot telemetri om diagnostik och prestanda som samlats in av Dataverse-plattformen i Application Insights. Du kan prenumerera på mottagning av telemetri om åtgärder som applikationer utför på din Dataverse databas och inom modellbaserade program. Denna telemetri innehåller information som du kan använda för att diagnostisera och felsöka problem relaterade till fel och prestanda.
Anslut dina arbetsyteappar till Application Insights. Med hjälp av dessa analyser kan du diagnostisera problem och förstå vad användarna gör med dina appar. Du kan samla in information som hjälper dig att fatta bättre affärsbeslut och förbättra kvaliteten på dina appar.
Konfigurera Power Automate telemetri så att den flödar till Application Insights, till exempel för att övervaka körningar av molnflöden och skapa aviseringar för körningsfel i molnflödet.
Samla in telemetridata från din Microsoft Copilot Studio copilot för användning i Azure Application Insights. Du kan använda den här telemetrin för att övervaka loggade meddelanden och händelser som skickas till och från din copilot, ämnen som ska utlösas under användarkonversationer och anpassade telemetrihändelser som kan skickas från dina ämnen.
Application Insights är en omfattande lösning för att samla in, analysera och svara på övervakning av data från molnmiljöer och lokal miljöer. Den innehåller en robust varningsplattform som du kan konfigurera för automatiska meddelanden och andra åtgärder.
Power Platform Automation Kit är en uppsättning verktyg som ökar hastigheten på användning och support för Power Automate för dator för automatiseringsprojekt. Paketet innehåller verktyg som hjälper dig att hantera automatiseringsprojekt och övervaka dem för att uppskatta sparade pengar och avkastning på investering (ROI). En del av Automation Kit är kontrollcentret, som kompletterar den befintliga funktionen för att övervaka körningar av datorflöde. Fokus för Kontrollcenter är en initierarvy för supportanalytiker och organisationer för att övervaka, vidta åtgärder och vara alerta vid behov.
Relaterad information
- Rekommendationer för att utforma och skapa ett övervakningssystem
- Rekommendationer för att utforma en tillförlitlig strategi för övervakning och aviseringshantering
- Supportstrategi för användare och tillverkare