Partager via


Project Flash – Avancement de la surveillance de la disponibilité des machines virtuelles Azure

Flash, comme le projet est connu en interne, tire son nom de notre engagement inébranlable à créer un mécanisme robuste, fiable et rapide permettant aux clients de surveiller l'état des machines virtuelles (VM). Notre objectif principal est de garantir que les clients peuvent accéder de manière fiable à une télémétrie précise et exploitable, recevoir rapidement des alertes sur les changements et surveiller périodiquement les données à grande échelle. Nous accordons également une grande importance au développement d'une expérience centralisée et cohérente que les clients peuvent facilement utiliser pour répondre à leurs exigences uniques en matière d'observabilité. Notre mission est de garantir que vous puissiez :

  • Consommez des données précises et exploitables sur les interruptions de disponibilité des machines virtuelles (par exemple, les redémarrages et redémarrages des machines virtuelles, le gel des applications en raison des mises à jour du pilote réseau et les mises à jour du système d'exploitation hôte de 30 secondes), ainsi que des détails précis sur les pannes (par exemple, la plate-forme par rapport à l'initiative initiée par l'utilisateur, redémarrage ou gel, planifié ou non).
  • Analyser et alerter sur les tendances de la disponibilité des machines virtuelles pour le débogage rapide et les rapports mensuels.
  • Surveillez périodiquement les données à grande échelle et créez des tableaux de bord personnalisés pour rester informé des derniers états de disponibilité de toutes les ressources.
  • Recevez une analyse automatisée des causes profondes (RCA) détaillant les machines virtuelles impactées, la cause et la durée des temps d'arrêt, les correctifs consécutifs, etc., le tout pour permettre des enquêtes ciblées et des analyses post-mortem.
  • Recevez des notifications instantanées sur les changements critiques dans la disponibilité des VM pour déclencher rapidement des actions correctives et éviter tout impact sur l'utilisateur final.
  • Adaptez et automatisez de manière dynamique les politiques de récupération de la plateforme , en fonction des sensibilités des charges de travail et des besoins de basculement en constante évolution.

Solutions flash

L'initiative Flash est dédié au développement de solutions au fil des années qui répondent aux divers besoins de surveillance de nos clients. Pour vous aider à déterminer la ou les solutions de surveillance Flash les plus adaptées à vos besoins spécifiques, reportez-vous au tableau suivant :

Solution Description
Azure Resource Graph (Disponibilité Générale) Pour les enquêtes à grande échelle, le référentiel de ressources centralisé et la recherche d’historique, les grands clients souhaitent utiliser périodiquement la télémétrie de disponibilité des ressources sur toutes leurs charges de travail, en même temps, à l’aide d’Azure Resource Graph (ARG).
Sujet du système Event Grid (Aperçu Public) Pour déclencher des atténuations critiques et urgentes (redéployer, redémarrer les actions de la VM) afin de prévenir l'impact sur l'utilisateur final, les clients (par exemple, Pearl Abyss, Krafton) souhaitent recevoir des alertes dans les secondes qui suivent les changements critiques dans la disponibilité des ressources via les gestionnaires d'événements dans Azure Event Grid.
Azure Monitor (Préversion Publique) Pour suivre les tendances, regrouper les métriques de la plateforme (CPU, disque, etc.) et configurer des alertes précises basées sur des seuils, les clients souhaitent utiliser une métrique de disponibilité des machines virtuelles prête à l'emploi via Azure Monitor.
Azure Resource Health (disponibilité générale) Pour effectuer des contrôles de santé instantanés et pratiques de l’interface utilisateur du portail par ressource, les clients peuvent afficher rapidement la lame RHC sur le portail. Ils peuvent également accéder à un historique de 30 jours des vérifications de l’état de cette ressource pour un dépannage rapide et facile.

Surveillance globale de la disponibilité des VM

Pour une approche globale de la surveillance de la disponibilité des VM, y compris des scénarios de maintenance de routine, de migration en direct, de réparation des services et de dégradation des VM, nous vous recommandons d'utiliser à la fois les événements planifiés (SE) et les événements d'intégrité Flash.

Les événements programmés sont conçus pour offrir une alerte précoce, donnant un préavis jusqu'à 15 minutes avant les activités de maintenance. Ce délai vous permet de prendre des décisions éclairées concernant les temps d'arrêt à venir, vous permettant ainsi de les éviter ou de vous y préparer. Vous avez la possibilité de reconnaître ces événements ou de retarder les actions pendant cette période de 15 minutes, en fonction de votre état de préparation pour la maintenance à venir.

D’un autre côté, les événements Flash Health se concentrent sur le suivi en temps réel des perturbations de disponibilité en cours et terminées, y compris la dégradation des machines virtuelles. Cette fonctionnalité vous permet de surveiller et de gérer efficacement les temps d'arrêt, en prenant en charge l'atténuation automatisée, les enquêtes et l'analyse post-mortem.

Pour commencer votre parcours d’observabilité, vous pouvez explorer la suite de produits Azure vers laquelle nous émettons des données de disponibilité de machines virtuelles de haute qualité. Ces produits incluent l’état des ressources, les journaux d’activité, le graphique des ressources Azure, les métriques du moniteur Azure et la rubrique système Azure Event Grid.

Étapes suivantes

Pour en savoir plus sur les solutions proposées, passez à l'article de solution correspondant :

Pour une présentation générale de la façon de surveiller les machines virtuelles Azure, consultez Surveiller les machines virtuelles Azure et la référence sur la surveillance des machines virtuelles Azure.