Project Flash - Geavanceerde bewaking van beschikbaarheid van virtuele Azure-machines

Artikel
08/24/2024

Flash, zoals het project intern bekend is, leidt zijn naam af van onze vaste toezegging om een robuust, betrouwbaar en snel mechanisme te bouwen voor klanten om de status van virtuele machines (VM) te bewaken. Ons primaire doel is ervoor te zorgen dat klanten betrouwbaar toegang hebben tot bruikbare en nauwkeurige telemetrie, onmiddellijk waarschuwingen ontvangen over wijzigingen en regelmatig gegevens op schaal kunnen bewaken. We leggen ook sterke nadruk op het ontwikkelen van een gecentraliseerde en coherente ervaring die klanten gemakkelijk kunnen gebruiken om te voldoen aan hun unieke waarneembaarheidsvereisten. Het is onze missie om ervoor te zorgen dat u het volgende kunt doen:

Gebruik nauwkeurige en bruikbare gegevens over onderbrekingen van de beschikbaarheid van VM's (bijvoorbeeld vm's die opnieuw worden opgestart en opnieuw opgestart, toepassing blokkeert vanwege updates van het netwerkstuurprogramma en updates van het hostbesturingssysteem van 30 seconden), samen met nauwkeurige foutdetails (bijvoorbeeld platform versus door de gebruiker geïnitieerd, opnieuw opstarten versus blokkeren, gepland versus ongepland).
Analyseer en waarschuw trends in vm-beschikbaarheid voor snelle foutopsporing en maand-over-maandrapportage.
Bewaak regelmatig gegevens op schaal en bouw aangepaste dashboards om op de hoogte te blijven van de nieuwste beschikbaarheidsstatussen van alle resources.
Ontvang geautomatiseerde hoofdoorzaakanalyses (RBA's) met details over betrokken VM's, oorzaak en duur van downtime, consequente oplossingen en soortgelijke, allemaal om gerichte onderzoeken en post-mortemanalyses mogelijk te maken.
Ontvang onmiddellijk meldingen over kritieke wijzigingen in vm-beschikbaarheid om snel herstelacties te activeren en gevolgen van eindgebruikers te voorkomen.
U kunt platformherstelbeleid dynamisch aanpassen en automatiseren op basis van steeds veranderende workloadgevoeligheids- en failoverbehoeften.

Flash-oplossingen

Het Flash-initiatief is gewijd aan het ontwikkelen van oplossingen in de loop der jaren die voldoen aan de diverse bewakingsbehoeften van onze klanten. Raadpleeg de volgende tabel om u te helpen bij het bepalen van de meest geschikte Flash-bewakingsoplossing(en) voor uw specifieke vereisten:

Oplossing	Beschrijving
Azure Resource Graph (algemene beschikbaarheid)	Voor onderzoeken op schaal, gecentraliseerde resourceopslagplaats en geschiedeniszoekactie willen grote klanten periodiek telemetrie over de beschikbaarheid van resources gebruiken voor al hun workloads, in één keer met behulp van Azure Resource Graph (ARG).
Event Grid-systeemonderwerp (openbare preview)	Als u tijdgevoelige en kritieke oplossingen wilt activeren (opnieuw implementeren, VM-acties opnieuw opstarten) voor preventie van gevolgen voor eindgebruikers, willen klanten (bijvoorbeeld Pearl Abyss, ResourceOn) waarschuwingen ontvangen binnen enkele seconden na kritieke wijzigingen in de beschikbaarheid van resources via Event Handlers in Event Grid.
Azure Monitor (openbare preview)	Om trends bij te houden, metrische platformgegevens (CPU, schijf, enzovoort) en nauwkeurige waarschuwingen op basis van drempelwaarden in te stellen, willen klanten een out-of-box VM-beschikbaarheidsmetrieken gebruiken via Azure Monitor.
Resource Health (algemene beschikbaarheid)	Als u onmiddellijk en handig de statuscontroles voor de gebruikersinterface van de portal per resource wilt uitvoeren, kunnen klanten de RHC-blade snel bekijken in de portal. Ze hebben ook toegang tot een 30-daagse historische weergave van statuscontroles voor die resource voor snelle en eenvoudige probleemoplossing.

Holistische VM-beschikbaarheidsbewaking

Voor een holistische benadering van het bewaken van de beschikbaarheid van VM's, waaronder scenario's voor routineonderhoud, livemigratie, serviceherstel en degradatie van VM's, raden we u aan zowel geplande gebeurtenissen (SE) als Flash-statusgebeurtenissen te gebruiken.

Geplande gebeurtenissen zijn ontworpen om een vroegtijdige waarschuwing te bieden, waardoor er maximaal 15 minuten voordat onderhoudsactiviteiten worden uitgevoerd. Met deze doorlooptijd kunt u weloverwogen beslissingen nemen met betrekking tot toekomstige downtime, zodat u deze kunt vermijden of voorbereiden. U hebt de flexibiliteit om deze gebeurtenissen te erkennen of acties uit te stellen gedurende deze periode van 15 minuten, afhankelijk van uw gereedheid voor het aanstaande onderhoud.

Aan de andere kant zijn Flash Health-gebeurtenissen gericht op realtime bijhouden van doorlopende en voltooide beschikbaarheidsonderbrekingen, met inbegrip van VM-degradatie. Met deze functie kunt u downtime effectief bewaken en beheren, ondersteuning bieden voor geautomatiseerde risicobeperking, onderzoeken en post-mortemanalyse.

Om aan de slag te gaan met uw waarneembaarheidstraject, kunt u de suite met Azure-producten verkennen waarvoor we beschikbaarheidsgegevens van vm's van hoge kwaliteit verzenden. Deze producten omvatten resourcestatus, activiteitenlogboeken, Azure-resourcegrafiek, metrische gegevens van Azure Monitor en azure Event Grid-systeemonderwerp.

Volgende stappen

Ga verder met het bijbehorende oplossingsartikel voor meer informatie over de aangeboden oplossingen:

Voor een algemeen overzicht van het bewaken van virtuele Azure-machines raadpleegt u Virtuele Azure-machines bewaken en de naslaginformatie over virtuele Azure-machines bewaken.

Delen via

Project Flash - Geavanceerde bewaking van beschikbaarheid van virtuele Azure-machines

Flash-oplossingen

Holistische VM-beschikbaarheidsbewaking

Volgende stappen

Feedback

Aanvullende resources