Dela via


Incidenthantering för SaaS-arbetsbelastningar i Azure

Oberoende programvaruleverantörer (ISV:er) för saaS-lösningar (programvara som en tjänst) måste använda lösningen för sina kunder. Detta kräver en organisationskonfiguration och kultur som hanterar oväntade produktionssituationer smidigt. Som arkitekt måste du utforma hanteringsprocesser och verktyg i enlighet med detta.

Den här artikeln hjälper dig att anpassa organisationens kultur, processer och verktyg för att stödja incidenthantering av en SaaS-produktionslösning.

Förstå ditt ansvar som tjänstleverantör

Att använda en SaaS-lösning innebär att du är dina kunders IT- och driftavdelning dygnet innan. Du måste vara förberedd med rätt bemanning, kultur, processer och verktyg.

Utformningsbeaktanden

  • Ta ansvar för 24x7x365-support. Om du använder en SaaS-lösning måste din organisation alltid vara förberedd för incidenthantering. Den här förberedelsen omfattar att alltid ha teammedlemmar tillgängliga eftersom incidenter kan inträffa utanför kontorstid.

    Live-platsstöd omfattar realtidsövervakning och hantering av incidenter som påverkar systemets tillgänglighet, säkerhet, prestanda eller distribution. Du eller dina kunder kan identifiera dessa incidenter. För att hantera sådana incidenter behöver du specifika kunskaper, inklusive möjligheten att analysera och lösa problem under press.

    Live-webbplatssupport kan vara stressigt och det är viktigt att stödja dina teammedlemmar. Om teamet är nytt för det här ansvaret planerar du övergången noggrant. Åtgärda problem med jouruppgifter, kompensation och hantering av otillgänglighet under incidenter.

    Risk: Kompetens- och förväntanshantering. Alla tekniker passar inte för en 24x7x365-supportroll. När du övergår till ett befintligt team för att stödja en SaaS-lösning ska du se till att rätt förväntningar ställs in och att utbildningsmöjligheter tillhandahålls.

  • Institute a live-site culture. Överväg hur du hanterar supportärenden och incidenter och hur eskaleringar sker. Målet är att se till att teammedlemmarna förstår sitt ansvar och har de färdigheter och verktyg som krävs för att hantera incidenter.

    Nystartade företag och mindre organisationer kan ha en enkel plan för problem med livewebbplatser. Ingenjörer kan till en början fungera som support i frontlinjen genom att svara på kundsupportärenden. Mogna organisationer, eller SaaS-leverantörer med företagskunder, behöver mer strukturerad support och dedikerade team.

    Kompromiss: Driftseffektivitet och kostnader. Att hantera live-platshändelser kan förringa utvecklingstiden för nya funktioner eller felkorrigeringar. Om utvecklingshastigheten är ett problem bör du överväga att anställa dedikerade live-site-resurser.

Designrekommendationer

Rekommendation Förmån
Introducera ett team i frontlinjen för hantering av supportärenden.

I komplexa fall samlar det här teamet in den information som teknikteamet behöver för sin undersökning. En leverantör kan fungera som ditt supportteam i frontlinjen och utföra inledande problemanalys och lösa enkla problem.
Du undviker att överbelasta teknikteamet med ansvar för incidenthantering och hantera avbrott i deras regelbundna uppgifter.
Investera i en jourfunktion för tekniker för att hantera komplexa fall, undersöka och vidta åtgärder.

Om möjligt kan du rotera jouransvaret mellan teammedlemmar, där varje tekniker är jour några dagar i taget.
Med väldefinierade ansvars- och eskaleringsvägar kan du snabbt identifiera och åtgärda problem utan att störa ditt tekniska arbetsflöde.
Skaffa verktyg som är specialiserade för incidenthantering.

Se till att alla svarande har åtkomst till och förstår hur de här verktygen ska användas effektivt.

Välj verktyg som kan övervaka systemtillstånd, spåra kundrapporterade problem, identifiera problem, eskalera till jourtekniker, hantera tekniker som inte svarar och aktivera ändringar i produktionen.
Att ha rätt verktyg hjälper ditt jourteam att snabbt identifiera och lösa incidenter samtidigt som säkerhet och driftskontroll upprätthålls.
Förbättra övervakning, distributioner, uppdateringar och andra regelbundna hanteringsåtgärder. Genom att investera i driftmognad minskar du sannolikheten för problem med livewebbplatser. Om det uppstår problem förkortas matchningstiden om väldefinierade åtgärder finns på plats.

Definiera din svarsplan

Bekräfta att incidenter är oundvikliga och förbered dem genom att definiera en incidenthanteringsplan. Den här proaktiva metoden hindrar dig från att behöva utforma en svarsstrategi under din första incident.

Planera framåt för större incidenter, vilket vanligtvis påverkar dina kunders möjlighet att använda din tjänst. Den här förberedelsen hjälper till att minimera stress och komplexitet när du hanterar incidenter när de inträffar.

Utformningsbeaktanden

  • Definiera eskaleringssökvägen. Se till att teamen förstår eskaleringsprocessen för supportuppgifter. I många SaaS-lösningar kontaktar kunderna ett supportteam i frontlinjen som sedan kommunicerar med teknikteamet. Se till att kunderna vet vem de ska interagera med och varför de inte ska kringgå dessa processer. Se också till att ditt ingenjörsteam vet när och hur de ska söka hjälp från leverantörer, inklusive supportteam på Microsoft.

  • Definiera allvarlighetsnivåer. Olika incidenter varierar i betydelse för dig och dina kunder. Hur du hanterar ett större produktionsstopp skiljer sig från hur du hanterar en mindre bugg. Definiera allvarlighetsnivåer baserat på kundernas påverkan och ange lämpliga förväntningar och tidslinjer för varje nivå.

  • Dokumentinformation som du behöver för sortering. Att hålla dokumentationen uppdaterad är viktigt för effektiv incidenthantering. Den här dokumentationen innehåller systemets arkitekturlayout, information på komponentnivå, ägare och nyckelkontakter. Felaktig eller inaktuell information kan leda till att incidenthanteringsteamet slösar bort värdefull tid på att räkna ut systemåtgärder, ansvarsområden och den potentiella effekten av incidenten.

  • Planera för effektiv kommunikation till kunder. Att tillhandahålla statusuppdateringar är nyckeln i incidenthantering. Statusuppdateringar hjälper dina kunder att förstå typen av incident och även minska mängden supportärenden från kunder som upplever liknande problem.

Designrekommendationer

Rekommendation Förmån
Ange en tydlig incidentrapporteringsprocess, till exempel att öppna ett supportärende med ditt supportteam i frontlinjen, till dina kunder. Du säkerställer konsekvens i hur du upptäcker och svarar på incidenter, vilket minskar tiden till lösning och förhindrar att information går förlorad eller förbises.
Dokumentera arkitekturlayouten, information på komponentnivå, sekretess- eller säkerhetsklassificeringar, ägare och nyckelkontakter. Triage-teamet har den information som är lättillgänglig och kan fokusera på undersökningar och bedöma påverkan.
Se till att ditt incidenthanteringsteam har åtkomst till nödvändiga tillgångar och system, till exempel loggar. De måste också kunna göra produktionsändringar genom en säker och kontrollerad process. Du återställer åtgärder snabbare genom att se till att ditt team inte slösar bort tid.
Använd en kommersiell statussida i stället för att skapa en egen. Spara tid med hjälp av en kommersiell statussida. En statussida som hanteras av en annan organisation är också tillgänglig för kunder under ett avbrott i systemet.

Hantera incidenter metodiskt

Att följa den definierade planen är avgörande för att undvika improvisation under svarstiden. Den här metoden hjälper till att minimera stressen och komplexiteten i att hantera dessa situationer.

Utformningsbeaktanden

  • Tilldela allvarlighetsgrad för incidenter. Använd din incidenthanteringsplan för att fastställa incidentens allvarlighetsgrad. Kunder är ofta frustrerade under incidenter. Det är viktigt att du förstår hur de påverkas så att du kan prioritera. Kommunicera incidentens allvarlighetsgrad tydligt så att kunderna har realistiska förväntningar.

  • Håll dig lugn och tänk klart. Incidenter kan vara stressiga och tvetydiga, med flera intressenter som kräver uppmärksamhet. Ha en tydlig process för vem som tar ledningen i en incident. Sortera incidenter så gott du kan samtidigt som du erkänner att du kan behöva arbeta med ofullständig information. Försök att behålla kontrollen över situationen.

    Organisationsledare kan hjälpa till genom att skydda de teammedlemmar som aktivt undersöker eller åtgärdar en incident.

  • Kommunicera status till dina kunder. Uppdatera statussidan för att publicera tillräckligt med information. Kommunicera snabbt och ange nödvändig information som uppskattade matchningstider. Ge kunderna frekventa uppdateringar för att behålla sitt förtroende.

Designrekommendationer

Rekommendation Förmån
Under en incident prioriterar du återställning framför identifiering.

När en incident inträffar prioriterar du att snabbt återställa åtgärder för att minimera störningar för dina kunder.
Du kanske kan återställa genom att dirigera runt en berörd komponent eller genom att återställa en uppdatering, även om du inte förstår vad som orsakade problemet ännu.
Tillhandahåll uppdateringar i tid, tydliga och frekventa uppdateringar under avbrott. Du kan ingjuta kundförtroende och minska belastningen på ditt supportteam i frontlinjen.
Utse en kommunikationschef under en aktiv incident. Den här chefen kan vara en enda person, eller så kan du rotera ansvaret mellan teammedlemmar mellan incidenter. Genom att ha en röst för ditt ingenjörsteam centraliserar du konversationer och minskar distraktioner för andra teammedlemmar. Du kan också förhindra att motstridig information når kunder eller intressenter under en kaotisk incident.
Se till att du har en verksamhetskritisk supportplan för leverantörer som Microsoft. Om ett avbrott inträffar behöver du responsiv kommunikation med dina plattformsleverantörer som Microsoft för att hjälpa dig att avgöra var ett problem är och för att förkorta avbrottstiden.

Genomföra granskningar efter incident

När du har återhämtat dig från en incident granskar och analyserar du vad som hände för att lära dig av den. Implementera reparationsåtgärder, som kan omfatta tekniska ändringar, processjusteringar eller mer utbildning.

Utformningsbeaktanden

  • Lär dig av incidenter. Avbrott erbjuder värdefulla inlärningsmöjligheter. Genomför noggranna granskningar efter incidenter för att identifiera lektioner och implementera förbättringar. Större incidenter har ofta flera orsaker. Utvärdera om andra lager i lösningen, till exempel driftsprocesser, kan förhindra eller identifiera problemet innan det eskalerar. Leta också efter liknande mönster någon annanstans i din lösning som också kan vara i riskzonen för samma problem.

  • Kommunicera med dina kunder. Många ISV:er tillhandahåller kommunikation efter incident, särskilt för företagskunder som förväntar sig högkvalitativa uppdateringar. Var transparent och ge tillräckligt med information för att kunderna ska förstå problem- och åtgärdsstegen. Men för att upprätthålla säkerhet och integritet bör du undvika att dela överdriven intern information om din lösningsarkitektur eller komponenter.

Designrekommendationer

Rekommendation Förmån
Skapa en process för att utföra interna granskningar efter incident.

Fokusera på att identifiera orsakerna till problemet. Tänk på tekniska orsaker, hur dina processer kan ha bidragit till avbrottet och hur du reagerade på incidenten.
Interna granskningar efter incident hjälper dig att lära dig av produktionsstopp och minimera risken för att liknande problem inträffar igen.
Skapa en strukturerad plan för att hantera alla objekt som behöver åtgärdas. Ta med tydliga ansvars- och tidslinjer. Tydlig ansvarsskyldighet hjälper dig att säkerställa att varje roll uppfyller sina funktionella förväntningar, förbättrar tydligheten och möjliggör transparent rapportering på önskad nivå.
Publicera kundinriktade granskningar efter incident.

Ge kunderna tillräckligt med information för att förstå problem- och åtgärdsstegen utan att avslöja onödig intern information eller systemarkitektur.

Kommunikation efter incident ska alltid skrivas och publiceras av människor. Tekniska och icke-tekniska intressenter bör granska kommunikationen för noggrannhet och tydlighet.
Den här metoden hjälper till att upprätthålla kundernas förtroende och försäkrar dem om att du har lärt dig av incidenten och hanterar de identifierade problemen.

Gå vidare

När du har granskat designområdena går du vidare till utvärderingsverktyget för att utvärdera din design.