Rekommendationer för utformning av en tillförlitlig övervakningsstrategi och aviseringsstrategi

2025-01-15

Gäller för den här checklisterekommendationen för Power Platform välstrukturerad tillförlitlighet:

RE:08	Mäta och publicera lösningens hälsoindikatorer. Samla kontinuerligt in drifttid och andra tillförlitlighetsdata från hela arbetsbelastningen och även från enskilda komponenter och viktiga flöden.

I den här guiden beskrivs rekommendationer för hur du utformar en tillförlitlig övervaknings- och aviseringsstrategi. Implementera den här strategin för att hålla driftteamen informerade om miljöns hälsa och se till att du uppfyller de fastställda tillförlitlighetsmålen för arbetsbelastningen.

Definitioner

Begrepp	Definition
Mått	Numeriska värden som samlas in med regelbundna intervaller. Mått beskriver vissa aspekter av ett system vid en viss tidpunkt.
Resursloggar	Data som ett system genererar om tillståndet i systemet.
Spårningar	Data som ger information om en förfrågans väg genom tjänster och komponenter.

Viktiga designstrategier

Innan du skapar en övervaknings- och en aviseringsstrategi bör du utföra följande uppgifter för arbetsbelastningen som en del i planeringen av tillförlitligheten:

Identifiera kritiska och icke-kritiska flöden.
Utföra fellägesanalyser (FMA) för dina flöden.
Identifiera tillförlitlighetsmål.
Designa en teststrategi.

Skapa en övervaknings- och aviseringsstrategi för att öka medvetenheten för ditt driftteam, så att de informeras om förändringar i arbetsbelastningens villkor och snabbt kan lösa problem. Hälsomodellen för dina kritiska flöden och för arbetsbelastningen som innehåller viktiga flöden bör definiera tillstånden felfritt, försämrat och ej felfritt. Utforma övervakningsläget så att förändringar i dessa tillstånd omedelbart registreras. När hälsotillstånden ändras från felfritt till försämrat eller ej felfritt, bör varningsmekanismer utlösa automatiska återställningsåtgärder och aviseringar till ansvariga team.

Implementera följande rekommendationer för att utforma en övervaknings- och aviseringsstrategi som uppfyller företagets krav.

Allmän vägledning

Förstå skillnaden mellan mått, loggar och spår.

Aktivera loggning för alla molnresurser. Använd automatisering och styrning i distributionerna för att aktivera diagnostikloggning i hela miljön.

Vidarebefordra alla diagnostikloggar till en centraliserad datasänka och analysplattform, som en Log Analytics-arbetsyta. Om du har krav på regional datasuveränitet måste du använda lokala datasänkor i de regioner som omfattas av dessa krav.

Kompromisser: Det finns kostnadskonsekvenser för lagring och sökning av loggar. Lägg märke till hur logganalysen och lagringen påverkar budgeten och fastställ den bästa balansen för dina krav.

Om arbetsbelastningen omfattas av ett eller flera ramverk för regelefterlevnad, gäller även dessa ramverk för vissa komponentloggar som hanterar känslig information. Skicka relevanta komponentloggar till ett SIEM-system (säkerhetsinformation och händelsehantering), som Microsoft Sentinel.

Skapa en kvarhållningsprincip för loggen som omfattar de krav på långvarig lagring som ställs enligt ramverkets regelefterlevnadsvillkor.

Använd strukturerad loggning för alla loggmeddelanden om du vill optimera sökning i loggdata.

Konfigurera aviseringar som ska utlösas när värden passerar viktiga tröskelvärden som korrelerar till en ändring av tillståndet i en hälsomodell, som grön till gul eller röd. Tröskelkonfigurationen bör förbättras kontinuerligt. Allt eftersom arbetsbelastningen utvecklas kan de tröskelvärden du definierar ändras.

Överväg att använda aviseringar när tillstånden förbättras, till exempel röd till gul eller röd till grön, så att driftteamen kan spåra dessa händelser vid framtida referens.

Visualisera miljöns hälsa i realtid med hjälp av anpassade instrumentpaneler.

Förbättra dina hälsomodeller kontinuerligt med hjälp av data som samlas in incidenterna.

Införliva övervaknings- och aviseringstjänster för molnplattformen, inklusive hälsa på plattformsnivå.

Införliva specialbyggd avancerad övervakning och analys som din molnleverantör erbjuder, som insiktsverktygen i Azure Monitor.

Implementera säkerhetskopierings- och återställningsövervakning för att samla in:

Datapliceringsstatus för att säkerställa att arbetsbelastningen uppnår återställning inom målet för återställningspunkten (RPO).
Lyckade och misslyckade säkerhetskopieringar och återställningar.
Återställningens varaktighet som kan ligga till grund för haveriberedskapsplaneringen.

Övervaka program och agenter

Logga data medan programmet eller agenten körs i produktionsmiljön. Du behöver tillräcklig information för att kunna diagnostisera orsaken till problem i produktionstillståndet.

Logga händelser vid tjänstgränserna. Inkludera ett giltigt ID som flödar över tjänstgränserna. Om en transaktioner passerar flera tjänster och en av dem misslyckas, kan du med hjälp av ett giltigt ID spåra förfrågningar över appen och identifiera varför transaktionen misslyckades.

Separera program- och agentloggning från granskning. Granskningsposter upprätthålls vanligtvis för att uppfylla kraven i föreskrifter och måste vara fullständiga. Undvik ignorerade transaktioner genom att underhålla granskningsloggar åtskilda från diagnostikloggar.

Använd white box-övervakning för att instrumentera appen eller agenten med semantiska loggar och mätvärden. Samla in mått och loggar på program- och agentnivå, till exempel minnesförbrukning eller svarstid för begäranden, från programmet eller agenten för att informera en hälsomodell och för att identifiera och förutsäga problem.

Använd black box-övervakning för att mäta plattformstjänster och den resulterande kundupplevelsen. Black box-övervakning testar externt synligt app- eller agentbeteende utan kunskap om systemets interna delar. Den här metoden används för att mäta kundcentrerade servicenivåindikatorer ( SLI), servicenivåmål (SLO) och serviceavtal (SLA).

Övervaka data och lagring

Övervaka tillgänglighetsmåtten för dina lagringsbehållaren. Om måttet är lägre än 100 procent anger det att det inte går att skriva. Tillgängligheten kan minska tillfälligt om molnleverantören hanterar belastningen. Spåra tillgänglighetstrender och se om det är något problem med arbetsbelastningen. I vissa fall anger en minskning i tillgänglighetsmåtten för en lagringsbehållare att det finns en flaskhals i det beräkningslager som är associerat med lagringsbehållare.

Det finns många mått att övervaka för databaser. När det gäller tillförlitlighet är dessa viktiga mått som du bör övervaka:

Frågevaraktighet
Tidsgränser
Väntetider
Minnesbelastning
Lås

Underlätta Power Platform

Power Platform integreras med Application Insights, som ingår i Azure Monitor-ekosystemet. Du kan använda den här integreringen för att:

Prenumerera på telemetri som samlas in av Dataverse-plattformen i Application Insights om diagnoser, prestanda och åtgärder som program utför på din Dataverse-databas och i modellbaserade appar. Denna telemetri innehåller information som du kan använda för att diagnostisera och felsöka problem relaterade till fel och prestanda.
Anslut dina arbetsyteappar till Application Insights för att använda dessa analyser för att diagnostisera problem, förstå vad användarna egentligen gör med dina appar, fatta bättre affärsbeslut och förbättra kvaliteten på dina appar.
Konfigurera Power Automate-telemetri så att den flödar in i Application Insights. Du kan använda telemetrin för att övervaka körningar av molnflöden och skapa aviseringar för molnflödeskörningsfel.
Samla in telemetridata från din Microsoft Copilot Studio agent för användning i Azure Application Insights. Du kan använda den här telemetrin för att övervaka loggade meddelanden och händelser som skickas till och från din agent, ämnen som ska utlösas under användarkonversationer och anpassade telemetrihändelser som kan skickas från dina ämnen.

Power Platform-resurser loggar aktiviteter i Microsoft Purview-portalen för regelefterlevnad. De flesta händelser är tillgängliga inom 24 timmar efter aktiviteten. Använd inte den här informationen för övervakning i realtid. Mer information om loggningsaktiviteter i Power Platform finns i:

Din Power Platform-arbetsbelastning kan innefatta Azure-resurser. Mer information om att övervaka rekommendationer för Azure-resurser finns i Rekommendationer för att utforma och skapa ett övervakningssystem.

CoE-startpaketet för Power Platform är en referensimplementering som innehåller en samling komponenter och verktyg som har utformats för att hjälpa dig att komma igång med utveckling av en strategi för att implementera och stödja Power Platform. Med paketet får teamen automatisering och verktyg för att skapa övervakning och automatisering som kan användas för att stödja en CoE.

Hur kontrollerar jag status för min onlinetjänst?

Checklista för tillförlitlighet

Se den fullständiga uppsättningen med rekommendationer.

Checklista för tillförlitlighet

Dela via

Rekommendationer för utformning av en tillförlitlig övervakningsstrategi och aviseringsstrategi

Viktiga designstrategier

Allmän vägledning

Övervaka program och agenter

Övervaka data och lagring

Underlätta Power Platform

Relaterad information

Checklista för tillförlitlighet

Feedback

Ytterligare resurser