Superviser plusieurs clusters Azure Stack HCI avec Insights
S’applique à : Azure Stack HCI, version 22H2
Cet article explique comment utiliser Insights pour surveiller plusieurs clusters Azure Stack HCI. Pour un seul cluster Azure Stack HCI, consultez Surveiller Azure Stack HCI avec Insights.
Important
Si vous avez inscrit votre cluster Azure Stack HCI et configuré Insights avant novembre 2023, certaines fonctionnalités qui utilisent l’agent Azure Monitor (AMA), telles qu’Arc pour les serveurs, VM Insights, Defender pour le cloud ou Sentinel, peuvent ne pas collecter correctement les journaux et les données d’événements. Pour obtenir des conseils de résolution des problèmes, consultez la section Résoudre les problèmes liés aux clusters inscrits avant novembre 2023 .
Pour plus d’informations sur les avantages, les prérequis et la façon d’activer Insights sur chaque cluster, consultez Avantages, Prérequis et Activer Insights.
Regardez la vidéo de présentation rapide :
Passer en revue les informations relatives à l’intégrité, aux performances et à l’utilisation
Insights stocke ses données dans un espace de travail Log Analytics, ce qui lui permet de fournir une agrégation et un filtrage puissants et d’analyser les tendances des données au fil du temps. Il n’y a aucun coût direct pour Insights. Les utilisateurs sont facturés en fonction de la quantité de données ingérées et des paramètres de rétention des données de leur espace de travail Log Analytics.
Vous pouvez accéder à Insights à partir du hub > Azure Monitor > Insights Azure Stack HCI. Vous verrez les onglets suivants pour basculer entre les affichages : Ajouter à la surveillance, Intégrité du cluster, Serveurs, Machines virtuelles, Stockage.
Filtrage des résultats
La visualisation peut être filtrée d’un abonnement à l’autre. Vous pouvez filtrer les résultats en fonction des menus déroulants suivantes :
- Intervalle de temps : Ce filtre vous permet de sélectionner une plage pour l’affichage des tendances. La valeur par défaut est 24 heures.
- Abonnements : Montre les abonnements qui ont des clusters Azure Stack HCI inscrits. Vous pouvez sélectionner plusieurs abonnements dans ce filtre.
- Clusters HCI : répertorie les clusters Azure Stack HCI inscrits dont les journaux et les fonctionnalités de supervision activées dans l’intervalle de temps sélectionné. Vous pouvez sélectionner plusieurs clusters à partir de ce filtre.
- Groupes de ressources : Ce filtre vous permet de sélectionner tous les clusters au sein d’un groupe de ressources.
Ajouter à la surveillance
Cette fonctionnalité fournit des détails sur les clusters qui ne sont pas surveillés par l’utilisateur. Pour commencer à surveiller un cluster, sélectionnez-le pour ouvrir ce cluster, puis sélectionnez Fonctionnalités > Insights. Si vous ne voyez pas votre cluster, assurez-vous qu’il a été récemment connecté à Azure.
Colonne | Description | Exemple |
---|---|---|
Cluster | Nom du cluster. | 27cls1 |
État de la connexion Azure | État de la ressource HCI. | Connecté |
Version du SE | Le système d’exploitation s’appuie sur le serveur. | 10.0.20348.10131 |
Par défaut, l’affichage de grille affiche les 250 premières lignes. Vous pouvez définir la valeur en modifiant les lignes de grille, comme illustré dans l’image suivante :
Vous pouvez exporter les détails dans Excel en sélectionnant Exporter vers Excel, comme illustré dans l’image suivante :
Excel fournira l’état de connexion Azure comme suit :
- 0 : Non inscrit
- 1 : Déconnecté
- 2 : Pas récemment
- 3 Connecté
Intégrité du cluster
Cet affichage fournit une présentation de l’état des clusters.
Colonne | Description | Exemple |
---|---|---|
Cluster | Nom du cluster. | 27cls1 |
Dernière mise à jour | Timestamp de la dernière mise à jour du serveur. | 09/04/2022 12:15:42 |
Statut | Fournit l’intégrité des ressources du serveur dans le cluster. Il peut être sain, en avertissement, critique ou autre. | Healthy |
Ressource défaillante | Description de la ressource à l’origine de l’erreur. | Serveur, StoragePool, Sous-système |
Nombre total de serveurs | Nombre de serveurs au sein d’un cluster. | 4 |
Si votre cluster est manquant ou affiche l’état Autre, accédez à l’espace de travail Log Analytics utilisé pour le cluster et assurez-vous que la configuration de l’agent capture des données à partir du journal microsoft-windows-health/opérationnel. Vérifiez également que les clusters sont connectés récemment à Azure et vérifiez que les clusters ne sont pas filtrés dans ce classeur.
Serveur
Cet affichage fournit une vue d’ensemble de l’intégrité et des performances du serveur, ainsi que de l’utilisation des clusters sélectionnés. Cette vue est créée à l’aide de l'ID d’événement de serveur 3000 du canal Microsoft-Windows-SDDC-Management/Operational Windows Event Log. Chaque ligne peut être développée pour afficher l’état d’intégrité du nœud. Vous pouvez interagir avec la ressource de cluster et de serveur pour accéder à la page de ressources correspondante.
Machines virtuelles
Cet affichage indique l’état de toutes les machines virtuelles dans le cluster sélectionné. Cette vue est créée à l’aide de l’ID d’événement de la machine virtuelle 3003 du canal Microsoft-Windows-SDDC-Management/Operational Windows Event Log. Chaque ligne peut être développée pour afficher la distribution des machines virtuelles sur les serveurs du cluster. Vous pouvez interagir avec la ressource de cluster et de nœud pour accéder à la page de ressources correspondante.
Métrique | Description | Exemple |
---|---|---|
Cluster > Serveur | Nom du cluster. Lors de l’extension, il affiche les serveurs au sein du cluster. | Sample-VM-1 |
Dernière mise à jour | Le datetimestamp de la date de la dernière mise à jour du serveur. | 09/04/2022 12:24:02 |
Nombre total de machines virtuelles | Nombre de machines virtuelles dans un nœud de serveur au sein d’un cluster. | 1 sur 2 en cours d’exécution |
Exécution en cours | Nombre de machines virtuelles en cours d’exécution dans un nœud de serveur au sein d’un cluster. | 2 |
Arrêté | Nombre de machines virtuelles arrêtées dans un nœud de serveur au sein d’un cluster. | 3 |
Échec | Nombre de machines virtuelles ayant échoué dans un nœud de serveur au sein d’un cluster. | 2 |
Autre | Si la machine virtuelle se trouve dans l’un des états suivants (Inconnu, Démarrage, Instantané, Enregistrement, Arrêt, Suspension, Reprise, Pause, Suspendu), l’état est considéré comme « Autre ». | 2 |
Stockage
Cet affichage montre l’intégrité des volumes, de l’utilisation et des performances entre les clusters analysés. Développez un cluster pour voir l’état des volumes individuels. Cette vue est créée à l’aide de l'ID d’événement de volume 3002 du canal Microsoft-Windows-SDDC-Management/Operational Windows Event Log. Les vignettes situées en haut fournissent une vue d’ensemble de l’intégrité du stockage.
Métrique | Description | Exemple |
---|---|---|
Cluster > Volume | Nom du cluster. En cas d’extension, il affiche les volumes au sein d’un cluster. | AltaylCluster1 > ClusterPerformanceHistory |
Dernière mise à jour | Le datetimestamp de la date de la dernière mise à jour du stockage. | 14/04/2022 14:58:55 |
Intégrité du volume | L’état du volume. Il peut être sain, en avertissement, critique ou autre. | Healthy |
Size | Capacité totale de l’appareil en octets pendant la période de reporting. | 25 bits |
Usage | Pourcentage de capacité disponible pendant la période de reporting. | 23,54 % |
IOPS | Opérations d’entrée/sortie par seconde. | 45/s |
Tendance | Tendance des IOPS. | |
Débit | Nombre d’octets par seconde servis par Application Gateway. | 5 bits/s |
Tendance (bits/s) | Tendance de débit. | |
Latence moyenne | La latence est le temps moyen nécessaire à la fin de la demande d’E/S. | 334 μs |
Personnaliser les insights
Étant donné que l’expérience utilisateur est basée sur des modèles de classeur Azure Monitor, les utilisateurs peuvent modifier les visualisations et les requêtes et les enregistrer sous la forme d’un classeur personnalisé.
Si vous utilisez la visualisation depuis Azure Monitor > Hub Insights > Azure Stack HCI, sélectionnez Personnaliser > Modifier > Enregistrer sous pour enregistrer une copie de votre version modifiée sous la forme d’un classeur personnalisé.
Les classeurs sont enregistrés dans un groupe de ressources. Toute personne ayant accès au groupe de ressources est en mesure d’accéder au classeur personnalisé.
La plupart des requêtes sont écrites à l’aide du langage de requête Kusto (KQL). Certaines requêtes sont écrites à l’aide de la Requête Resource Graph. Pour plus d’informations, consultez les articles suivants :
Support
Pour ouvrir un ticket de support pour Insights, utilisez le type de service Insights pour Azure Stack HCI sous Supervision & Gestion.
Canal du journal des événements
Les insights et les vues de surveillance sont basées sur microsoft-Windows-SDDC-Management/Operational Windows Event Log Channel. Quand la supervision est activée, les données issues de ce canal sont enregistrées dans un espace de travail Log Analytics.
Affichage et modification de l’intervalle du cache de vidage
L’intervalle par défaut pour le vidage du cache est défini à 3 600 secondes (1 heure).
Utilisez les applets de commande PowerShell suivantes pour afficher la valeur de l’intervalle de vidage du cache :
Get-ClusterResource "sddc management" | Get-ClusterParameter
Utilisez les applets de commande suivantes pour modifier la fréquence de vidage du cache. Si cette valeur est définie sur 0, la publication des événements est arrêtée :
Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>
Événements Windows sur le canal du journal
Ce canal comprend cinq événements. Chaque événement est associé au nom du cluster et à l’ID Azure Resource Manager comme EventData.
ID d'événement | Type d’événement |
---|---|
3000 | Serveur |
3001 | Lecteur |
3002 | Volume |
3003 | Machine virtuelle |
3004 | Cluster |
Valeur de colonne RenderedDescription pour l’événement de serveur 3000
{
"m_servers":[
{
"m_statusCategory":"Integer",
"m_status":[
"Integer",
"…"
],
"m_id":"String",
"m_name":"String",
"m_totalPhysicalMemoryInBytes":"Integer",
"m_usedPhysicalMemoryInBytes":"Integer",
"m_totalProcessorsUsedPercentage":"Integer",
"m_totalClockSpeedInMHz":"Integer",
"m_uptimeInSeconds":"Integer",
"m_InboundNetworkUsage":"Double (Bits/sec)",
"m_OutboundNetworkUsage":"Double (Bits/sec)",
"m_InboundRdmaUsage":"Double (Bits/sec)",
"m_OutboundRdmaUsage":"Double (Bits/sec)",
"m_site":"String",
"m_location":"String",
"m_vm":{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer"
},
"m_osVersion":"String",
"m_buildNumber":"String",
"m_totalPhysicalProcessors":"Integer",
"m_totalLogicalProcessors":"Integer"
},
"…"
],
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
La plupart des variables sont explicites à partir des informations JSON. Toutefois, le tableau ci-dessous répertorie quelques variables qui sont un peu plus difficiles à comprendre.
Variable | Description |
---|---|
m_servers | Tableau de nœuds de serveur. |
m_statusCategory | État d’intégrité du serveur. |
m_status | État du serveur. Il s’agit d’un tableau qui peut contenir une ou deux valeurs. La première valeur est obligatoire (0-4). La deuxième valeur est facultative (5-9). |
Les valeurs de la variable m_statusCategory sont les suivantes :
Valeur | Signification |
---|---|
0 | Healthy |
1 | Warning |
2 | Unhealthy |
255 | Autres |
Les valeurs de la variable m_status sont les suivantes :
Valeur | Signification |
---|---|
0 | Haut |
1 | Descendre |
2 | En maintenance |
3 | Jonction |
4 | Normal |
5 | Isolé |
6 | En quarantaine |
7 | Drainage |
8 | Drainage terminé |
9 | Échec du drainage |
0xffff | Inconnu |
Valeur de colonne RenderedDescription pour l’événement de lecteur 3001
Événement Drive 3001
{
"m_drives":[
{
"m_uniqueId":"String",
"m_model":"String",
"m_type":"Integer",
"m_canPool":"Boolean",
"m_sizeInBytes":"Integer",
"m_sizeUsedInBytes":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
},
"…"
],
"m_correlationId":"String",
"m_isLastElement":"Boolean"
}
Valeur de colonne RenderedDescription pour l’événement de volume 3002
Événement Volume 3002
{
"VolumeList":[
{
"m_Id":"String",
"m_Label":"String",
"m_Path":"String",
"m_StatusCategory":"Integer",
"m_Status":[
"Integer",
"…"
],
"m_Size":"Integer (Bytes)",
"m_SizeUsed":"Integer (Bytes)",
"m_TotalIops":"Double (Count/second)",
"m_TotalThroughput":"Double (Bytes/Second)",
"m_AverageLatency":"Double (Seconds)",
"m_Resiliency":"Integer",
"m_IsDedupEnabled":"Boolean",
"m_FileSystem":"String"
},
"…"
],
"m_Alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
La plupart des variables sont explicites à partir des informations JSON ci-dessus. Toutefois, le tableau ci-dessous répertorie quelques variables qui sont un peu plus difficiles à comprendre.
Variable | Description |
---|---|
VolumeList | Tableau de volumes. |
m_StatusCategory | État d’intégrité du volume. |
m_Status | État du volume. Il s’agit d’un tableau qui peut contenir une ou deux valeurs. La première valeur est obligatoire (0-4). La deuxième valeur est facultative (5-9). |
Les valeurs de la variable m_statusCategory sont les suivantes :
Valeur | Signification |
---|---|
0 | Healthy |
1 | Warning |
2 | Unhealthy |
255 | Autres |
Les valeurs de la variable m_status sont les suivantes :
Valeur | Signification |
---|---|
0 | Unknown |
1 | Autres |
2 | OK |
3 | Nécessite une réparation |
4 | Trop sollicité |
5 | Défaillance prédictive |
6 | Erreur |
7 | Erreur non récupérable |
8 | Démarrage en cours |
9 | En cours d’arrêt |
10 | Arrêté |
11 | En service |
12 | Aucun contact |
13 | Perte de communication |
14 | Abandonné |
15 | Dormant |
16 | Entité de prise en charge liée à l’erreur |
17 | Effectué |
18 | Mode d'alimentation |
19 | Déplacement |
0xD002 | Descendre |
0xD003 | Nécessite une resynchronisation |
Valeur de colonne RenderedDescription pour l’événement de machine virtuelle 3003
Événement Machine virtuelle 3003
{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
Valeur de colonne RenderedDescription pour l’événement de cluster 3004
Événement Cluster 3004
{
"m_cpuUsage":"Double (%)",
"m_totalVolumeIops":"Double",
"m_averageVolumeLatency":"Double (Seconds)",
"m_totalVolumeThroughput":"Double (Bytes/Second)",
"m_totalVolumeSizeInBytes":"Integer",
"m_usedVolumeSizeInBytes":"Integer",
"m_totalMemoryInBytes":"Integer",
"m_usedMemoryInBytes":"Integer",
"m_isStretch":"Boolean",
"m_QuorumType":"String",
"m_QuorumMode":"String",
"m_QuorumState":"String",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
Pour plus d’informations sur les données collectées, consultez Défauts des services de contrôle d’intégrité.
Étapes suivantes
Pour plus d’informations, consultez :