Rekommendationer för att utforma en tillförlitlig strategi för övervakning och avisering

Gäller för den här rekommendationen om checklista för tillförlitlighet i Azure Well-Architected Framework:

RE:10 Mäta och publicera lösningens hälsoindikatorer. Samla kontinuerligt in drifttid och andra tillförlitlighetsdata från hela arbetsbelastningen och även från enskilda komponenter och nyckelflöden.

Den här guiden beskriver rekommendationerna för att utforma en tillförlitlig strategi för övervakning och avisering. Implementera den här strategin för att hålla driftsteamen informerade om miljöns hälsostatus och se till att du uppfyller de etablerade tillförlitlighetsmålen för din arbetsbelastning.

Definitioner

Period Definition
Mått Numeriska värden som samlas in med jämna mellanrum. Mått beskriver vissa aspekter av ett system vid en viss tidpunkt.
Resursloggar Data som ett system genererar. Den innehåller information om systemets tillstånd.
Spårningar Data som innehåller information om sökvägen som en begäran skickas via tjänster och komponenter.

Viktiga designstrategier

Innan du skapar en strategi för övervakning och avisering ska du utföra följande uppgifter för din arbetsbelastning som en del av tillförlitlighetsplaneringen:

Skapa en strategi för övervakning och avisering för att säkerställa att din arbetsbelastning fungerar tillförlitligt. En strategi för övervakning och avisering ger dina driftsteam en medvetenhet så att de meddelas om ändringar i arbetsbelastningens tillstånd och snabbt kan åtgärda problem. Skapa en robust och tillförlitlig övervakningsstrategi genom att skapa en hälsomodell för dina kritiska flöden och de komponenter som dessa kritiska flöden omfattar. Hälsomodellen definierar felfria, degraderade och felaktiga tillstånd. Utforma din driftstatus för att omedelbart fånga upp ändringar i dessa tillstånd. När hälsotillstånden ändras från felfri till degraderad eller inte felfri utlöser aviseringsmekanismerna automatiska korrigerande åtgärder och meddelar lämpliga team.

Implementera följande rekommendationer för att utforma en strategi för övervakning och avisering som uppfyller kraven för din verksamhet.

Allmän vägledning

  • Förstå skillnaden mellan mått, loggar och spårningar.

  • Aktivera loggning för alla molnresurser. Använd automatisering och styrning i dina distributioner för att aktivera diagnostisk loggning i hela miljön.

  • Vidarebefordra alla diagnostikloggar till en centraliserad datamottagare och analysplattform, till exempel en Log Analytics-arbetsyta. Om du har regionala krav på datasuveränitet måste du använda lokala datamottagare i de regioner som omfattas av dessa krav.

Kompromiss: Det finns kostnadskonsekvenser för lagring och frågekörning mot loggar. Observera hur logganalysen och kvarhållningen påverkar din budget och avgör det bästa utnyttjandet för att uppfylla dina krav. Mer information finns i Metodtips för kostnadsoptimering.

  • Om dina arbetsbelastningar omfattas av ett eller flera efterlevnadsramverk omfattas även vissa av de komponentloggar som hanterar känslig information av dessa ramverk. Skicka relevanta komponentloggar till ett SIEM-system (säkerhetsinformation och händelsehantering), till exempel Microsoft Sentinel.

  • Skapa en loggkvarhållningsprincip som innehåller långsiktiga kvarhållningskrav som efterlevnadsramverken tillämpar på din arbetsbelastning.

  • Använd strukturerad loggning för alla loggmeddelanden för att optimera frågekörning mot loggdata.

  • Konfigurera aviseringar som utlöses när värden passerar kritiska tröskelvärden som korrelerar med en ändring av hälsotillståndsmodellen, t.ex. grönt till gult eller rött.

    Tröskelkonfiguration är en metod för kontinuerlig förbättring. När din arbetsbelastning utvecklas kan de tröskelvärden som du definierar ändras. I vissa fall är dynamiska tröskelvärden ett bra alternativ för din övervakningsstrategi.

  • Överväg att använda aviseringar när tillstånden förbättras, till exempel rött till gult eller rött till grönt, så att driftteamen kan spåra dessa händelser för framtida referens.

  • Visualisera realtidshälsan för din miljö.

  • Använd data som samlas in under incidenter för att kontinuerligt förbättra dina hälsomodeller och din strategi för övervakning och avisering.

  • Införliva övervaknings- och aviseringstjänster för molnplattformar, inklusive:

  • Införliva specialbyggd avancerad övervakning och analys som din molnleverantör erbjuder, till exempel Azure Monitor Insight Tools.

  • Implementera övervakning av säkerhetskopiering och återställning för att samla in:

    • Datareplikeringsstatusen för att säkerställa att arbetsbelastningen uppnår återställning inom målmålet för återställningspunkt (RPO).

    • Lyckade och misslyckade säkerhetskopieringar och återställningar.

    • Återställningstiden för att informera din planering för haveriberedskap.

Övervakning av program

  • Skapa hälsoavsökningar eller kontrollera funktioner och kör dem regelbundet utanför programmet. Se till att du testar från flera platser som är geografiskt nära dina kunder.

  • Logga data medan programmet körs i produktionsmiljön. Du behöver tillräckligt med information för att diagnostisera orsaken till problem i produktionstillståndet.

  • Logga händelser vid tjänstens gränser. Ta med ett korrelations-ID som flödar över tjänstens gränser. Om en transaktion flödar genom flera tjänster och en av dem misslyckas hjälper korrelations-ID:t dig att spåra begäranden i ditt program och fastställa varför transaktionen misslyckades.

  • Använd asynkrona loggning. Synkrona loggningsåtgärder blockerar ibland programkoden, vilket gör att begäranden säkerhetskopieras när loggar skrivs. Använd asynkron loggning för att bevara tillgängligheten under programloggning.

  • Separera programloggning från granskning. Granskningsposter underhålls ofta för efterlevnads- eller regelkrav och måste vara fullständiga. Undvik borttagna transaktioner genom att hålla granskningsloggar åtskilda från diagnostikloggar.

  • Använd telemetrikorrelation för att säkerställa att du kan mappa transaktioner via programmet från slutpunkt till slutpunkt och kritiska systemflöden. Den här processen är viktig för att utföra rotorsaksanalys (RCA) för fel. Samla in mått och loggar på plattformsnivå, till exempel CPU-procent, nätverk, nätverk och diskåtgärder per sekund, från programmet för att informera en hälsomodell och för att identifiera och förutsäga problem. Den här metoden kan hjälpa dig att skilja mellan tillfälliga och icke-tillfälliga fel.

  • Använd white box-övervakning för att instrumentera programmet med semantiska loggar och mått. Samla in mått och loggar på programnivå, till exempel minnesförbrukning eller svarstid för begäranden, från programmet för att informera en hälsomodell och för att identifiera och förutsäga problem.

  • Använd black box-övervakning för att mäta plattformstjänster och den resulterande kundupplevelsen. Black Box-övervakning testar externt synligt programbeteende utan att känna till systemets interna funktioner. Den här metoden är vanlig för att mäta kundcentrerade indikatorer på servicenivå (SLI), servicenivåmål (SLO) och serviceavtal (SLA).

Anteckning

Mer information om programövervakning finns i Hälsoslutpunktsövervakningsmönster.

Övervaka data och lagring

  • Övervaka tillgänglighetsmåtten för dina lagringscontainrar. När det här måttet sjunker under 100 procent indikerar det misslyckade skrivningar. Tillfälliga avbrott i tillgängligheten kan inträffa när molnleverantören hanterar belastningen. Spåra tillgänglighetstrenderna för att avgöra om det finns ett problem med din arbetsbelastning.

    I vissa fall indikerar en minskning av tillgänglighetsmåtten för en lagringscontainer en flaskhals i beräkningslagret som är associerat med lagringscontainern.

  • Det finns många mått att övervaka för databaser. När det gäller tillförlitlighet är följande viktiga mått att övervaka:

    • Frågevaraktighet

    • Timeouter

    • Väntetider

    • Minnesbelastning

    • Lås

Azure-underlättande

  • Azure Monitor är en omfattande övervakningslösning som används för att samla in, analysera och svara på övervakningsdata från dina molnmiljöer och lokala miljöer.

  • Log Analytics är ett verktyg i Azure Portal som används för att redigera och köra loggfrågor mot data på Log Analytics-arbetsytan.

  • Application Insights är ett tillägg till Azure Monitor. Den tillhandahåller funktioner för övervakning av programprestanda (APM).

  • Azure Monitor-insikter är avancerade analysverktyg som hjälper dig att övervaka Azure-tjänster, till exempel virtuella datorer, programtjänster och containrar. Insikter bygger på Azure Monitor och Log Analytics.

  • Azure Monitor för SAP-lösningar är en Azure-intern övervakningsprodukt för SAP-landskap som körs i Azure.

  • Azure Policy hjälper till att genomdriva organisationsstandarder och utvärdera efterlevnad i stor skala.

  • Azure Business Continuity Center ger dig insikter om din affärskontinuitetsegendom. När du tillämpar metoderna för affärskontinuitet och haveriberedskap (BCDR) använder du Azure Business Continuity Center för att centralisera hanteringen av skydd mot affärskontinuitet i Azure och hybridarbetsbelastningar. Azure Business Continuity Center identifierar resurser som saknar rätt skydd (via säkerhetskopiering eller haveriberedskap) och vidtar åtgärder. Verktyget underlättar enhetlig övervakning och gör att du kan upprätta styrnings- och granskningsefterlevnad via Azure Policy, allt enkelt tillgängligt på en plats.

  • Metodtips för flera arbetsytor finns i Utforma en Log Analytics-arbetsytearkitektur.

Exempel

Exempel på verkliga övervakningslösningar finns i Övervakning av webbprogram i Azure och Baslinjearkitektur för ett Azure Kubernetes Service kluster.

  • Azure Monitor Baseline Alerts (AMBA) är en central lagringsplats för aviseringsdefinitioner som kunder och partner kan använda för att förbättra observerbarheten genom att använda Azure Monitor.

Checklista för tillförlitlighet

Se den fullständiga uppsättningen rekommendationer.