Project Flash – Avancerad tillgänglighetsövervakning för virtuella Azure-datorer

Artikel
02/14/2024

Flash, som projektet är internt känt, härleder sitt namn från vårt orubbliga åtagande att skapa en robust, tillförlitlig och snabb mekanism för kunder att övervaka den virtuella datorns hälsa. Vårt främsta mål är att säkerställa att kunderna på ett tillförlitligt sätt kan komma åt användbar och exakt telemetri, snabbt ta emot aviseringar om ändringar och regelbundet övervaka data i stor skala. Vi lägger också stor vikt vid att utveckla en centraliserad och sammanhängande upplevelse som kunderna enkelt kan använda för att uppfylla sina unika krav på observerbarhet. Det är vårt uppdrag att se till att du kan:

Använd korrekta och åtgärdsbara data om avbrott i vm-tillgänglighet (till exempel omstarter och omstarter av virtuella datorer, programfrysningar på grund av uppdateringar av nätverksdrivrutiner och uppdateringar av värdoperativsystem på 30 sekunder), tillsammans med exakt felinformation (till exempel plattform kontra användarinitierad, omstart kontra frysning, planerad kontra oplanerad).
Analysera och varna om trender i VM-tillgänglighet för snabb felsökning och rapportering månad för månad.
Övervaka regelbundet data i stor skala och skapa anpassade instrumentpaneler för att hålla dig uppdaterad om de senaste tillgänglighetstillstånden för alla resurser.
Ta emot automatiserade rotorsaksanalyser (RCA) som beskriver påverkade virtuella datorer, stilleståndstid, orsaker och varaktighet, efterföljande korrigeringar och liknande – allt för att möjliggöra riktade undersökningar och analyser efter döden.
Ta emot omedelbara meddelanden om viktiga ändringar i vm-tillgängligheten för att snabbt utlösa reparationsåtgärder och förhindra slutanvändarnas påverkan.
Skräddarsy och automatisera plattformsåterställningsprinciper dynamiskt baserat på ständigt föränderliga arbetsbelastningskänsligheter och redundansbehov.

Flash-lösningar

Flash-initiativet är avsett att utveckla lösningar under åren som tillgodoser våra kunders olika övervakningsbehov. Om du vill hjälpa dig att fastställa de lämpligaste flashövervakningslösningarna för dina specifika krav kan du läsa följande tabell:

Lösning	Beskrivning
Azure Resource Graph (allmän tillgänglighet)	För undersökningar i stor skala, centraliserad resurslagringsplats och historiksökning vill stora kunder regelbundet använda telemetri för resurstillgänglighet i alla sina arbetsbelastningar, samtidigt med hjälp av Azure Resource Graph (ARG).
Event Grid-systemämne (offentlig förhandsversion)	För att utlösa tidskänsliga och kritiska åtgärder (omdistribuera, starta om VM-åtgärder) för att förhindra slutanvändarnas påverkan vill kunderna (till exempel Pearl Abyss, Krafton) ta emot aviseringar inom några sekunder efter kritiska ändringar i resurstillgängligheten via Händelsehanterare i Event Grid.
Azure Monitor (offentlig förhandsversion)	För att spåra trender, aggregera plattformsmått (CPU, disk osv.) och konfigurera exakta tröskelvärdesbaserade aviseringar vill kunderna använda ett out-of-box VM-tillgänglighetsmått via Azure Monitor.
Resource Health (allmän tillgänglighet)	Om du vill utföra omedelbara och praktiska hälsokontroller av användargränssnittet för portalen kan kunderna snabbt visa RHC-bladet på portalen. De kan också komma åt en 30-dagars historisk vy över hälsokontroller för den resursen för snabb och enkel felsökning.

Holistisk övervakning av VM-tillgänglighet

För en holistisk metod för att övervaka tillgängligheten för virtuella datorer, inklusive scenarier med rutinmässigt underhåll, direktmigrering, tjänståterställning och försämring av virtuella datorer, rekommenderar vi att du använder både schemalagda händelser (SE) och Flash Health-händelser.

Schemalagda händelser är utformade för att ge en tidig varning, vilket ger upp till 15 minuters förvarning före underhållsaktiviteter. Med den här ledtiden kan du fatta välgrundade beslut om kommande stilleståndstid, så att du antingen kan undvika eller förbereda dig för den. Du har flexibiliteten att antingen bekräfta dessa händelser eller fördröja åtgärder under den här 15-minutersperioden, beroende på din beredskap för det kommande underhållet.

Å andra sidan fokuserar Flash Health-händelser på realtidsspårning av pågående och slutförda tillgänglighetsstörningar, inklusive vm-försämring. Med den här funktionen kan du effektivt övervaka och hantera stilleståndstid, stödja automatiserad åtgärd, undersökningar och analys efter döden.

För att komma igång med din observerbarhetsresa kan du utforska sviten med Azure-produkter som vi genererar tillgänglighetsdata för virtuella datorer av hög kvalitet till. Dessa produkter omfattar resurshälsa, aktivitetsloggar, Azure-resursdiagram, Azure Monitor-mått och Azure Event Grid-systemavsnitt.

Nästa steg

Om du vill veta mer om de lösningar som erbjuds går du vidare till motsvarande lösningsartikel:

En allmän översikt över hur du övervakar virtuella Azure-datorer finns i Övervaka virtuella Azure-datorer och referensen Övervaka virtuella Azure-datorer.

Dela via

Project Flash – Avancerad tillgänglighetsövervakning för virtuella Azure-datorer

Flash-lösningar

Holistisk övervakning av VM-tillgänglighet

Nästa steg

Ytterligare resurser