Partager via


Superviser plusieurs clusters Azure Stack HCI avec Insights

S’applique à : Azure Stack HCI, version 22H2

Cet article explique comment utiliser Insights pour surveiller plusieurs clusters Azure Stack HCI. Pour un seul cluster Azure Stack HCI, consultez Surveiller Azure Stack HCI avec Insights.

Important

Si vous avez inscrit votre cluster Azure Stack HCI et configuré Insights avant novembre 2023, certaines fonctionnalités qui utilisent l’agent Azure Monitor (AMA), telles qu’Arc pour les serveurs, VM Insights, Defender pour le cloud ou Sentinel, peuvent ne pas collecter correctement les journaux et les données d’événements. Pour obtenir des conseils de résolution des problèmes, consultez la section Résoudre les problèmes liés aux clusters inscrits avant novembre 2023 .

Pour plus d’informations sur les avantages, les prérequis et la façon d’activer Insights sur chaque cluster, consultez Avantages, Prérequis et Activer Insights.

Regardez la vidéo de présentation rapide :

Passer en revue les informations relatives à l’intégrité, aux performances et à l’utilisation

Insights stocke ses données dans un espace de travail Log Analytics, ce qui lui permet de fournir une agrégation et un filtrage puissants et d’analyser les tendances des données au fil du temps. Il n’y a aucun coût direct pour Insights. Les utilisateurs sont facturés en fonction de la quantité de données ingérées et des paramètres de rétention des données de leur espace de travail Log Analytics.

Vous pouvez accéder à Insights à partir du hub > Azure Monitor > Insights Azure Stack HCI. Vous verrez les onglets suivants pour basculer entre les affichages : Ajouter à la surveillance, Intégrité du cluster, Serveurs, Machines virtuelles, Stockage.

Filtrage des résultats

La visualisation peut être filtrée d’un abonnement à l’autre. Vous pouvez filtrer les résultats en fonction des menus déroulants suivantes :

  • Intervalle de temps : Ce filtre vous permet de sélectionner une plage pour l’affichage des tendances. La valeur par défaut est 24 heures.
  • Abonnements : Montre les abonnements qui ont des clusters Azure Stack HCI inscrits. Vous pouvez sélectionner plusieurs abonnements dans ce filtre.
  • Clusters HCI : répertorie les clusters Azure Stack HCI inscrits dont les journaux et les fonctionnalités de supervision activées dans l’intervalle de temps sélectionné. Vous pouvez sélectionner plusieurs clusters à partir de ce filtre.
  • Groupes de ressources : Ce filtre vous permet de sélectionner tous les clusters au sein d’un groupe de ressources.

Ajouter à la surveillance

Cette fonctionnalité fournit des détails sur les clusters qui ne sont pas surveillés par l’utilisateur. Pour commencer à surveiller un cluster, sélectionnez-le pour ouvrir ce cluster, puis sélectionnez Fonctionnalités > Insights. Si vous ne voyez pas votre cluster, assurez-vous qu’il a été récemment connecté à Azure.

Capture d’écran de la sélection d’un cluster à des fins de supervision.

Colonne Description Exemple
Cluster Nom du cluster. 27cls1
État de la connexion Azure État de la ressource HCI. Connecté
Version du SE Le système d’exploitation s’appuie sur le serveur. 10.0.20348.10131

Par défaut, l’affichage de grille affiche les 250 premières lignes. Vous pouvez définir la valeur en modifiant les lignes de grille, comme illustré dans l’image suivante :

Capture d’écran montrant l’écran de définition des valeurs de grille.

Vous pouvez exporter les détails dans Excel en sélectionnant Exporter vers Excel, comme illustré dans l’image suivante :

Capture d’écran montrant le lien pour l’exportation vers Excel.

Excel fournira l’état de connexion Azure comme suit :

  • 0 : Non inscrit
  • 1 : Déconnecté
  • 2 : Pas récemment
  • 3 Connecté

Intégrité du cluster

Cet affichage fournit une présentation de l’état des clusters.

Capture d’écran montrant les informations de vue d’ensemble de l’intégrité du cluster.

Colonne Description Exemple
Cluster Nom du cluster. 27cls1
Dernière mise à jour Timestamp de la dernière mise à jour du serveur. 09/04/2022 12:15:42
Statut Fournit l’intégrité des ressources du serveur dans le cluster. Il peut être sain, en avertissement, critique ou autre. Healthy
Ressource défaillante Description de la ressource à l’origine de l’erreur. Serveur, StoragePool, Sous-système
Nombre total de serveurs Nombre de serveurs au sein d’un cluster. 4

Si votre cluster est manquant ou affiche l’état Autre, accédez à l’espace de travail Log Analytics utilisé pour le cluster et assurez-vous que la configuration de l’agent capture des données à partir du journal microsoft-windows-health/opérationnel. Vérifiez également que les clusters sont connectés récemment à Azure et vérifiez que les clusters ne sont pas filtrés dans ce classeur.

Serveur

Cet affichage fournit une vue d’ensemble de l’intégrité et des performances du serveur, ainsi que de l’utilisation des clusters sélectionnés. Cette vue est créée à l’aide de l'ID d’événement de serveur 3000 du canal Microsoft-Windows-SDDC-Management/Operational Windows Event Log. Chaque ligne peut être développée pour afficher l’état d’intégrité du nœud. Vous pouvez interagir avec la ressource de cluster et de serveur pour accéder à la page de ressources correspondante.

Capture d’écran montrant l’intégrité des serveurs.

Machines virtuelles

Cet affichage indique l’état de toutes les machines virtuelles dans le cluster sélectionné. Cette vue est créée à l’aide de l’ID d’événement de la machine virtuelle 3003 du canal Microsoft-Windows-SDDC-Management/Operational Windows Event Log. Chaque ligne peut être développée pour afficher la distribution des machines virtuelles sur les serveurs du cluster. Vous pouvez interagir avec la ressource de cluster et de nœud pour accéder à la page de ressources correspondante.

Capture d’écran montrant l’intégrité des machines virtuelles.

Métrique Description Exemple
Cluster > Serveur Nom du cluster. Lors de l’extension, il affiche les serveurs au sein du cluster. Sample-VM-1
Dernière mise à jour Le datetimestamp de la date de la dernière mise à jour du serveur. 09/04/2022 12:24:02
Nombre total de machines virtuelles Nombre de machines virtuelles dans un nœud de serveur au sein d’un cluster. 1 sur 2 en cours d’exécution
Exécution en cours Nombre de machines virtuelles en cours d’exécution dans un nœud de serveur au sein d’un cluster. 2
Arrêté Nombre de machines virtuelles arrêtées dans un nœud de serveur au sein d’un cluster. 3
Échec Nombre de machines virtuelles ayant échoué dans un nœud de serveur au sein d’un cluster. 2
Autre Si la machine virtuelle se trouve dans l’un des états suivants (Inconnu, Démarrage, Instantané, Enregistrement, Arrêt, Suspension, Reprise, Pause, Suspendu), l’état est considéré comme « Autre ». 2

Stockage

Cet affichage montre l’intégrité des volumes, de l’utilisation et des performances entre les clusters analysés. Développez un cluster pour voir l’état des volumes individuels. Cette vue est créée à l’aide de l'ID d’événement de volume 3002 du canal Microsoft-Windows-SDDC-Management/Operational Windows Event Log. Les vignettes situées en haut fournissent une vue d’ensemble de l’intégrité du stockage.

Capture d’écran montrant l’intégrité des volumes de stockage.

Métrique Description Exemple
Cluster > Volume Nom du cluster. En cas d’extension, il affiche les volumes au sein d’un cluster. AltaylCluster1 > ClusterPerformanceHistory
Dernière mise à jour Le datetimestamp de la date de la dernière mise à jour du stockage. 14/04/2022 14:58:55
Intégrité du volume L’état du volume. Il peut être sain, en avertissement, critique ou autre. Healthy
Size Capacité totale de l’appareil en octets pendant la période de reporting. 25 bits
Usage Pourcentage de capacité disponible pendant la période de reporting. 23,54 %
IOPS Opérations d’entrée/sortie par seconde. 45/s
Tendance Tendance des IOPS.
Débit Nombre d’octets par seconde servis par Application Gateway. 5 bits/s
Tendance (bits/s) Tendance de débit.
Latence moyenne La latence est le temps moyen nécessaire à la fin de la demande d’E/S. 334 μs

Personnaliser les insights

Étant donné que l’expérience utilisateur est basée sur des modèles de classeur Azure Monitor, les utilisateurs peuvent modifier les visualisations et les requêtes et les enregistrer sous la forme d’un classeur personnalisé.

Si vous utilisez la visualisation depuis Azure Monitor > Hub Insights > Azure Stack HCI, sélectionnez Personnaliser > Modifier > Enregistrer sous pour enregistrer une copie de votre version modifiée sous la forme d’un classeur personnalisé.

Les classeurs sont enregistrés dans un groupe de ressources. Toute personne ayant accès au groupe de ressources est en mesure d’accéder au classeur personnalisé.

La plupart des requêtes sont écrites à l’aide du langage de requête Kusto (KQL). Certaines requêtes sont écrites à l’aide de la Requête Resource Graph. Pour plus d’informations, consultez les articles suivants :

Support

Pour ouvrir un ticket de support pour Insights, utilisez le type de service Insights pour Azure Stack HCI sous Supervision & Gestion.

Canal du journal des événements

Les insights et les vues de surveillance sont basées sur microsoft-Windows-SDDC-Management/Operational Windows Event Log Channel. Quand la supervision est activée, les données issues de ce canal sont enregistrées dans un espace de travail Log Analytics.

Affichage et modification de l’intervalle du cache de vidage

L’intervalle par défaut pour le vidage du cache est défini à 3 600 secondes (1 heure).

Utilisez les applets de commande PowerShell suivantes pour afficher la valeur de l’intervalle de vidage du cache :

Get-ClusterResource "sddc management" | Get-ClusterParameter

Utilisez les applets de commande suivantes pour modifier la fréquence de vidage du cache. Si cette valeur est définie sur 0, la publication des événements est arrêtée :

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

Événements Windows sur le canal du journal

Ce canal comprend cinq événements. Chaque événement est associé au nom du cluster et à l’ID Azure Resource Manager comme EventData.

ID d'événement Type d’événement
3000 Serveur
3001 Lecteur
3002 Volume
3003 Machine virtuelle
3004 Cluster

Valeur de colonne RenderedDescription pour l’événement de serveur 3000

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

La plupart des variables sont explicites à partir des informations JSON. Toutefois, le tableau ci-dessous répertorie quelques variables qui sont un peu plus difficiles à comprendre.

Variable Description
m_servers Tableau de nœuds de serveur.
m_statusCategory État d’intégrité du serveur.
m_status État du serveur. Il s’agit d’un tableau qui peut contenir une ou deux valeurs. La première valeur est obligatoire (0-4). La deuxième valeur est facultative (5-9).

Les valeurs de la variable m_statusCategory sont les suivantes :

Valeur Signification
0 Healthy
1 Warning
2 Unhealthy
255 Autres

Les valeurs de la variable m_status sont les suivantes :

Valeur Signification
0 Haut
1 Descendre
2 En maintenance
3 Jonction
4 Normal
5 Isolé
6 En quarantaine
7 Drainage
8 Drainage terminé
9 Échec du drainage
0xffff Inconnu

Valeur de colonne RenderedDescription pour l’événement de lecteur 3001

Événement Drive 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Valeur de colonne RenderedDescription pour l’événement de volume 3002

Événement Volume 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

La plupart des variables sont explicites à partir des informations JSON ci-dessus. Toutefois, le tableau ci-dessous répertorie quelques variables qui sont un peu plus difficiles à comprendre.

Variable Description
VolumeList Tableau de volumes.
m_StatusCategory État d’intégrité du volume.
m_Status État du volume. Il s’agit d’un tableau qui peut contenir une ou deux valeurs. La première valeur est obligatoire (0-4). La deuxième valeur est facultative (5-9).

Les valeurs de la variable m_statusCategory sont les suivantes :

Valeur Signification
0 Healthy
1 Warning
2 Unhealthy
255 Autres

Les valeurs de la variable m_status sont les suivantes :

Valeur Signification
0 Unknown
1 Autres
2 OK
3 Nécessite une réparation
4 Trop sollicité
5 Défaillance prédictive
6 Erreur
7 Erreur non récupérable
8 Démarrage en cours
9 En cours d’arrêt
10 Arrêté
11 En service
12 Aucun contact
13 Perte de communication
14 Abandonné
15 Dormant
16 Entité de prise en charge liée à l’erreur
17 Effectué
18 Mode d'alimentation
19 Déplacement
0xD002 Descendre
0xD003 Nécessite une resynchronisation

Valeur de colonne RenderedDescription pour l’événement de machine virtuelle 3003

Événement Machine virtuelle 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Valeur de colonne RenderedDescription pour l’événement de cluster 3004

Événement Cluster 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

Pour plus d’informations sur les données collectées, consultez Défauts des services de contrôle d’intégrité.

Étapes suivantes

Pour plus d’informations, consultez :