Partager via


Surveillance des machines virtuelles : amélioration du monitoring de l’intégrité des machines virtuelles (préversion)

La surveillance des machines virtuelles est une offre de service standard, légère et adaptable pour les machines virtuelles et les groupes de machines virtuelles identiques. Elle exécute des vérifications d’intégrité au sein d’une machine virtuelle à intervalles configurables et envoie les résultats via un modèle de données uniforme à Azure. Les moteurs d’opérations IA (AIOps) pour la surveillance de production dans Azure consomment ces résultats d’intégrité pour la détection et la prévention de régression.

La surveillance des machines virtuelles est fournie via l’extension de machine virtuelle d’intégrité de l’application pour faciliter le déploiement et la facilité de gestion pour les clients. En outre, la surveillance des machines virtuelles est proposée sans frais supplémentaires.

Spécificités de la surveillance des machines virtuelles

  • Facilité d’adoption : la surveillance des machines virtuelles est disponible via l’extension de machine virtuelle d’intégrité de l’application.
  • Déploiement flexible : vous pouvez activer la surveillance des machines virtuelles à l’aide d’un modèle Azure Resource Manager (modèle ARM), de PowerShell ou d’Azure CLI.
  • Compatibilité : la surveillance des machines virtuelles fonctionne en toute transparence sur les environnements Linux et Windows. Elle convient aux machines virtuelles individuelles et aux groupes de machines virtuelles identiques.
  • Gouvernance des ressources : la surveillance des machines virtuelles offre une surveillance efficace sans impact sur les performances du système. Des limites de ressources sur l’utilisation du processeur et de la mémoire du processus de surveillance des machines virtuelles permet de protéger les machines virtuelles.
  • Aptitude prête à l’emploi : la surveillance des machines virtuelles est fournie avec une suite de tests par défaut que vous pouvez configurer pour vos scénarios.

Contraintes de mémoire de la surveillance des machines virtuelles

Pour maintenir des performances cohérentes entre différentes configurations de machine virtuelle, la surveillance de machine virtuelle applique les limites d’utilisation de la mémoire en fonction de la mémoire totale disponible de la référence SKU de la machine virtuelle. Les limites de mémoire sont ajustées dynamiquement en fonction du niveau mémoire de la machine virtuelle.

Plage de mémoire de machine virtuelle Capacité de mémoire de la surveillance des machines virtuelles
Inférieur à 8 Go 80 Mo
8 Go à 16 Go 200 Mo
Supérieur à 16 Go 400 Mo

Network (Réseau)

Nom du signal Type Description
Connectivité sortante Vérification Vérifiez la connectivité sortante du réseau à partir de la machine virtuelle Azure.
Résolution DNS Vérification Vérifiez si un ou plusieurs noms DNS peuvent être résolus.
TCPSynRetransmits (Linux uniquement) Métrique Nombre de fois où le système retransmet un paquet TCP SYN et SYN/ACK avant d’abandonner l’établissement d’une connexion.
SegmentsRetransmitted Métrique Le nombre de segments TCP transmis contenant un ou plusieurs octets précédemment transmis.
NormalizedSegmentsRetransmitted Métrique SegmentsRetransmitted / (SegmentsSent + SegmentsRetransmitted)
Réinitialisations de connexion Métrique Nombre de fois où les connexions TCP ont effectué une transition directe vers l’état CLOSED à partir de l’état ESTABLISHED ou de l’état CLOSE_WAIT.
NormalizedConnectionResets Métrique Pourcentage de connexions qui ont été réinitialisées au cours de la dernière période de mesure.
TentativesDeConnexionÉchouées Métrique Nombre de fois où les connexions TCP ont effectué une transition directe vers l’état CLOSED à partir de l’état SYN_SENT ou de l’état SYN_RCVD.
NormalizedFailedConnectionAttempts Métrique tentatives de connexion échouées / (ouvertures de connexion actives + ouvertures de connexion passives)
ActiveConnectionOpenings Métrique Le nombre de fois où les connexions TCP ont effectué une transition directe vers l’état SYN_SENT à partir de l’état CLOSED.
PassiveConnectionOpenings Métrique Le nombre de fois où les connexions TCP ont effectué une transition directe vers l’état SYN_RCVD à partir de l’état LISTEN.
CurrentConnections Métrique Le nombre de connexions établies.
SegmentsReceived Métrique Le nombre de segments reçus, y compris ceux reçus en erreur.
SegmentsSent Métrique Le nombre de segments envoyés, y compris les segments sur les connexions actuelles, à l’exclusion des segments contenant uniquement des octets retransmis.

Disque

Nom du signal Type Description
E/S disque Azure Vérification Vérifiez les opérations de création, d’écriture et de lecture sur le fichier. Opérations de suppression sur chaque lecteur monté sur la machine virtuelle.
FreeSpaceInBytes Métrique L’espace disque libre du point de montage cible.
UsedSpaceInBytes Métrique L’espace disque utilisé du point de montage cible.
CapacityInBytes Métrique La capacité d’espace disque du point de montage cible.
PourcentageUtilisé Métrique Le pourcentage d’espace disque utilisé du point de montage cible.
WriteOps Métrique Les opérations d’écriture par seconde du disque/de la partition cible.
ReadOps Métrique Les opérations de lecture par seconde du disque/de la partition cible.

UC

Nom du signal Type Description
ProcessCPUCoreUsage Métrique Une mesure instantanée du pourcentage d’un cœur de processeur unique que le processus cible utilise (100 = 100 %, un cœur entier).
ProcessCPUMachineUsage Métrique Le pourcentage du processeur total de la machine utilisé par ce processus.
UtilisationTotaleDuCpuDeLaMachine Métrique L’utilisation instantanée totale du processeur de la machine virtuelle.

Mémoire

Nom du signal Type Description
ProcessRSSPercent Métrique Processus RSS / (Mémoire totale de la machine * 100%)
ProcessPageFaults Métrique Nombre d’erreurs de page depuis le démarrage du processus.
MachineMemoryTotalInBytes Métrique Mémoire totale de la machine virtuelle en octets.
MachineMemoryUsedPercent Métrique Mémoire utilisée par l’ordinateur / (Mémoire * totale dela machine 100%)
TotalPageFaults Métrique Nombre total d’erreurs de page pour tous les processus en cours d’exécution depuis leur démarrage.

Processus

Nom du signal Type Description
Création de processus Vérification Démarrez un processus léger pour vérifier que la création de processus est possible.
Processus en cours d’exécution Vérification Vérifiez si le ou les processus cibles sont en cours d’exécution.
Durée de bon fonctionnement Métrique La durée pendant laquelle le processus cible a été opérationnel depuis le dernier démarrage de processus.

IMDS

Nom du signal Type Description
IMDS Vérification Vérifiez que l’utilisateur peut atteindre un point de terminaison Azure IMDS (Instance Metadata Service) à partir de la machine virtuelle. Les informations de la machine virtuelle sont retournées à partir de la requête de point de terminaison IMDS.

Horloge

Nom du signal Type Description
Décalage de l’horloge Vérification Vérifiez le décalage de l’horloge entre le serveur NTP (Network Time Protocol) distant et la machine virtuelle Azure. Pour une machine virtuelle Windows, vérifiez si le service Windows Time est synchronisé avec w32tm dans le cas où le serveur NTP distant est inaccessible.

Système d'exploitation

Nom du signal Type Description
Erreurs système Métrique Collectez le nombre d’erreurs du journal des événements au niveau du système (Windows uniquement) lorsque SystemData <=2 (y compris LOG_ALWAYS, Critique, Erreur). Le paramètre measurementTarget est défini comme Source_EventId de EventLog à l’aide des paramètres régionaux Windows par défaut. Chaque collection est limitée à plus de 10 cibles de mesure différentes.

azblob

Nom du signal Type Description
Connectivité Azure Storage Blob Vérification Vérifiez la connectivité à Azure Storage Blob et téléchargez l’objet blob avec un jeton MSI ou SAP (signature d’accès partagé).

Matériel

Nom du signal Type Description
Health Monitor matériel EventLog Collectez les informations d’intégrité matérielle à partir du journal des événements Windows. Actuellement, seuls les événements critiques liés au disque sont collectés, y compris les événements avec l’ID 7, 500, 504, 505, 512 et 549.
Hardware Health Nvidia Smi EventLog Collecter les statistiques GPU, notamment l’utilisation de la mémoire et du GPU, temp et d’autres en exécutant la commande nvidia-smi (Linux Ubuntu uniquement)