Molnövervakning och -svar

Artikel
09/23/2023

Den här artikeln är en del av en serie i molnövervakningsguiden.

Svaret är resultatet av att definiera en eller flera åtgärder baserat på datadrivna beslut från övervakning som låter tjänstkonsumenter:

Gör det användbart: Använd väljusterade övervakningskonfigurationer för att skapa användbara signaler.
Övervaka kontinuerligt: Använd övervakning under hela incidenten och felsökningsaktiviteter för att ytterligare hjälpa till att diagnostisera problem.
Automatisera: Konfigurera automatisk undersökning, diagnos, lösning, återställning och reparation baserat på identifierade signaler.

Betydelsens princip gäller här. Detta hjälper till med processflöde eller policy för åtgärder för att finjustera och optimera aviseringar, meddelanden och rapportsammandrag. Molnövervakning är mycket mer än att meddela människor om att något är fel. Det handlar också om att tillhandahålla signaler till system och tjänster för att reagera.

Övervakning spelar en viktig roll i en mängd olika scenarier:

Aktivera dynamiskt tjänstbeteende: Kontrollera system och tjänster dynamiskt för att reagera baserat på övervakningsdata och eliminera incidenter automatiskt.
Utvärdera signaler kontinuerligt: Informera och tillhandahålla telemetri kontinuerligt för dynamiska processer, efterlevnad, automatisk skalning och visualiseringar.
Organisatoriska åtgärder: Hjälp IT-organisationen att agera på och hantera ändringar.

Aviseringar

Automation ersätter dyrare tjänsthanteringsprocesser i det moderna molnlandskapet, vilket eliminerar fler incidenter. Aviseringar spelar en viktig roll i medvetenheten men måste vara användbara för att undvika varningströtthet eller brus.

Genom att definiera aviseringar kan du proaktivt se till att tjänsterna och systemen förblir felfria, dynamiska, tillförlitliga och säkra. För att garantera prestanda, upprätthålla servicenivåmål (SLO), tillgänglighet och sekretess krävs en lämplig aviseringsstrategi. Eskalerande aviseringar är inte avgörande för observerbarhet, och idag bör det inte betraktas som den första försvarslinjen. Automatisering bör i stället spela en viktig roll här.

Traditionellt innebar övervakning att höja en avisering som någon kunde agera på, vilket innebär en helt reaktiv process. Den här metoden måste ses över enligt moderna metoder för tjänsthantering eller molndrift. Den här metoden följer den traditionella itil-incidenthanteringsvägen, som inte matchar målen för molneffektivitet genom flexibilitet, minimikostnad och optimering.

En modern metod kan ha en frekvens av identifierade villkor som är mycket mer informativa och automatiserade, till exempel:

Det identifierade villkoret	Primitiv åtgärd	Modern åtgärd
Prestandamått – hög minnesanvändning. Säkerhetshot – misstänkt nätverksaktivitet har identifierats. Tillgänglighetsfel – Azure Blob Storage-begäranden misslyckas.	Avisering och avisering, webhook, push-meddelande, spelbok, automatisk skalning	Fråga efter loggar för att identifiera den felande komponenten och utlösa automatisering för att åtgärda problemet med den felaktiga komponenten.

Här är en lista över relevanta resurser för aviserings- och automatiseringsfunktioner i Azure:

Modern molnövervakning

Jämfört med övervakningsplattformar och relaterade verktyg som tidigare var tillgängliga erbjuder molnbaserad databehandling:

Mycket mer flexibilitet för att utforma svarsalternativ.
Enklare sätt att utveckla och aktivera automatiserade svar.
Molnprotokoll eller API-metoder kan lättare integreras med arbetshanteringssystem, inklusive DevOps.

Överväg följande lägen för intervallet för automatiserad åtgärd, oavsett om det gäller undersökning, berikning, routning, tilldelning, reparation, återställning eller lösning:

Orkestreringsmetod	beskrivning
Helt automatiserad	Åtgärder utförs automatiskt. Fullständig automatisering bör vara bevisad tillförlitlig, effektiv och hållbar där dess användbarhet inte är kortlivad och säker. Fullständig automatisering frigör dina resurser så att de kan fokusera mer på dina strategiska initiativ.
Halvautomatiserad	Godkännande krävs för alla reparationsåtgärder.
Manuell	En operatör väljer ett automationsexempel eller en spelbok från ett kuraterat bibliotek.

Aviseringar beror på instrumenterade data baserat på säkerhetshändelser, prestandamått, tillgänglighetsinformation och loggar. Datadrivna åtgärder är resultatet av analys av holistiska perspektiv från slutpunkt till slutpunkt för varje övervakad resurs genom att aggregera och bearbeta olika insamlade datatyper för att fastställa effekten och vilka dynamiska åtgärder som ska vidtas.

Expandera din läsning med dessa resurser för att lära dig mer om automatisering baserat på måttaviseringar och säkerhetshändelser:

Kom igång med autoskalning i Azure med Hjälp av Azure Monitor.

Kostnadseffektivitet

Precis som med de andra observerbarhetsdisciplinerna måste teamet förstå och realisera kostnadskonsekvenserna och hur de typer av svar som definierats till stöd för modern incidenthantering hjälper till att kontrollera kostnaderna. Det övergripande målet är att minska MTTR (Mean Time to Recovery) genom att snabbt svara och lösa ett problem, men du måste ständigt utvärdera den potentiella kostnaden och påverkan på IT- eller företagsintäktsströmmen.

Varje rapporterad incident har en kostnad. Anta att organisationen investerar i orkestrering för att automatisera ett svar. I så fall bör du utvärdera kostnadsfördelarna och effekten av kostnaden genom att öka förbrukningen från molntjänsten för att använda de tjänster eller funktioner som möjliggör automatisering.

Automatisering

Molnautomation erbjuder betydande fördelar för säkerhets- och hälsoövervakning. Hastighet, flexibilitet och precision är tre arketyper som molnautomatisering ger dynamiska åtgärder. Detta kallas ofta orkestrering och Microsoft-molnet erbjuder flera tjänster.

Till exempel:

Ett identitetsstyrt hot identifieras från en eller flera loggar, vilket skapar en avisering.
Automation utlöses omedelbart för att samla in mer information och korrelera fler loggar för att utöka aviseringen.
En operatör vidtar åtgärder genom att välja rätt automatisering från ett bibliotek, till exempel inaktivera ett användarkonto.

Exemplet eller användningsfallet kan automatiseras helt.

Automationens roll ger sedan ett slags spelbok som minskar kostnaderna och sparar tid:

Ingen säkerhetsincident behövdes för att genomföra en lång undersökning, diagnos, lösning och återställning.
Identifierings-till-korrigeringscykeln kan vara i sekunder eller minuter jämfört med timmar.

Därefter måste ditt team skapa en lista eller ett bibliotek med automatiseringsexempel som kan användas flexibelt – antingen från råmaterial på offentliga webbplatser eller internt kurerade och lagrade på en lagringsplats för källkontroll.

Här är en lista över föreslagna läsningar för mer automatisering baserat på identitets- eller säkerhetshändelser:

Skapa automatiskt incidenter från Microsofts säkerhetsaviseringar med Microsoft Sentinel.
Säkerhetsorkestrering, automatisering och svar (SOAR) i Microsoft Sentinel

Strategi för lyckade aviseringar

Du kan inte fixa det du inte vet är trasigt.

Aviseringar om vad som är viktigt är viktigt. Den stöds genom att samla in och mäta rätt mått och loggar. Du behöver också ett övervakningsverktyg som kan lagra, aggregera, visualisera, analysera och initiera ett automatiserat svar när villkoren uppfylls. Du kan bara förbättra observerbarheten för dina tjänster och program om du förstår deras sammansättning fullt ut. Du mappar kompositionen till en detaljerad övervakningskonfiguration som ska tillämpas av övervakningsplattformen. Den här konfigurationen innehåller förutsägbara feltillstånd (symptomen, inte orsaken till felet) som är lämpliga att avisera om.

Informationsaviseringar

Under vissa omständigheter kan vissa aviseringar vara informationsbaserade. Vi kan använda detta för att lära oss mer om hur våra system beter sig. Du kanske till exempel vill få dessa informationsaviseringar:

En virtuell dator stängdes av: En virtuell dator stängdes automatiskt av för att minimera kostnaderna för avfall och kontroll baserat på ett schema eller låg användning som identifierats.

I det här exemplet användes orkestreringen baserat på en intern schemaläggningsfunktion och av övervakningsplattformen som identifierade användningsvillkoret. I stället för att aviseringen meddelas eller eskaleras som den enda åtgärden informerar den dig om den utförda åtgärden och varför.
Inaktiva resurser: IaaS- eller PaaS-resurser är inaktiva under en längre period eller etableras inte baserat på Azure Advisor-rekommendationer.

I det här exemplet kan orkestrering användas för att hantera dessa infrastrukturrelaterade aktiviteter baserat på affärslogik eller ITSM-processarbetsflöde. Det behövs mycket snabbare svar och åtgärder i dag. Med molnet är aviseringar mindre för människor än för ett automatiserat svar eller en pågående orkestrering som en del av en automatiserad värdeström.

Överväganden för aviseringsstrategi

Tänk på att inlärning är nyckeln, och när de utformas på rätt sätt kan informationsaviseringar ge dig många insikter om ditt molnekosystem och din hälsa.

Överväg följande principer för att avgöra om ett symptom är en lämplig kandidat för aviseringar:

Åtgärdsbar: Spelar problemet någon roll? Återspeglar det ett verkligt problem i programmets hälsa? Du kanske till exempel vill skicka en avisering när processoranvändningen är för hög under en längre period för en resurs eller om en SQL-fråga konsekvent orsakar prestandaproblem, men du kanske inte vill skicka en avisering när PROCESSORn toppar under en kort period. Gör saker användbara för att minska falska positiva identifieringar och undvika varningströtthet.
Brådskande: Behöver frågan omedelbar uppmärksamhet? I så fall bör det ansvariga teamet meddelas omedelbart.
Kundpåverkan: Påverkas användare av tjänsten eller programmet av problemet?
Påverkan på beroende system: Finns det aviseringar från relaterade beroenden som kan korreleras för att undvika att meddela olika team som alla arbetar med samma problem?

Med de här inledande övervägandena kan du börja utveckla din övervakningskonfiguration. Du kan testa och validera antagandena i olika miljöer. Du kan till exempel kontinuerligt utvärdera dessa överväganden och frågor i icke-produktion samt produktionsmiljöer. Kontinuerlig förbättring är nyckeln till lyckade svar på övervakningssignaler.

När du kontinuerligt utvärderar vad som fungerar kan du ställa följande frågor till dig själv för att öka medvetenheten om övervakningssvarets effektivitet:

Aviseringsvolym: Får du en hög aviseringsvolym? Finns det många icke-åtgärdsbara aviseringar som kunde ha undvikits?
Obemärkta problem: Får du rapporter eller biljetter från användare som har problem som inte har fångats av övervakningskonfigurationen?
Falska positiva identifieringar: Får du aviseringar eller signaler som har flaggats felaktigt?
Avisering eller händelse: Behöver du verkligen skicka en avisering, eller kan vissa av de utlösta aviseringarna bara vara händelser som flaggas i systemet? Om signalerna visas när du frågar efter den, i stället för att skicka en avisering, räcker det för att undvika varningströtthet och icke-åtgärdsbara meddelanden?

Se översikten över övervakningsplattformar i den här artikelserien för en djupare förståelse av funktionerna i Microsofts övervakningslösningar.

Nästa steg

Kompetensberedskap för molnövervakning

Dela via