Monitorare più cluster Azure Stack HCI con Insights

Si applica a: Azure Stack HCI, versione 22H2

Questo articolo illustra come usare Insights per monitorare più cluster Azure Stack HCI. Per un singolo cluster Azure Stack HCI, vedere Monitorare Azure Stack HCI con Insights.

Importante

Se il cluster Azure Stack HCI è stato registrato e configurato Insights prima di novembre 2023, alcune funzionalità che usano l'agente di Monitoraggio di Azure, ad esempio Arc per server, VM Insights, Defender for Cloud o Sentinel potrebbero non raccogliere correttamente i log e i dati degli eventi. Per indicazioni sulla risoluzione dei problemi, vedere la sezione Risolvere i problemi dei cluster registrati prima di novembre 2023 .

Per informazioni sui vantaggi, i prerequisiti e su come abilitare Insights in ogni cluster, vedere Vantaggi, prerequisiti e abilitazione di Insights.

Guardare il video per una rapida introduzione:

Visualizzare informazioni dettagliate sull'integrità, sulle prestazioni e sull'utilizzo

Insights archivia i dati in un'area di lavoro Log Analytics, che consente di offrire potenti aggregazioni e filtri e analizzare le tendenze dei dati nel tempo. Non sono previsti costi diretti per Insights. Gli utenti vengono fatturati in base alla quantità di dati inseriti e alle impostazioni di conservazione dei dati dell'area di lavoro Log Analytics.

È possibile accedere ad Insights dall'hub > di Insights di Monitoraggio > di Azure Azure Stack HCI. Verranno visualizzate le schede seguenti per passare da una visualizzazione all'altra: Aggiungi al monitoraggio, Integrità cluster, Server, Macchine virtuali, Archiviazione.

Applicazione di filtri ai risultati

La visualizzazione può essere filtrata tra sottoscrizioni. È possibile filtrare i risultati in base ai menu a discesa seguenti:

  • Intervallo di tempo: Questo filtro consente di selezionare un intervallo per la visualizzazione delle tendenze. Il valore predefinito è Last 24 hours.The default value is Last 24 hours.
  • Sottoscrizioni: Mostra le sottoscrizioni che hanno registrato cluster Azure Stack HCI. È possibile selezionare più sottoscrizioni in questo filtro.
  • Cluster HCI: Elenchi i cluster Azure Stack HCI registrati con funzionalità log e monitoraggio abilitate nell'intervallo di tempo selezionato. È possibile selezionare più cluster da questo filtro.
  • Gruppi di risorse: Questo filtro consente di selezionare tutti i cluster all'interno di un gruppo di risorse.

Aggiungere al monitoraggio

Questa funzionalità fornisce informazioni dettagliate sui cluster non monitorati dall'utente. Per avviare il monitoraggio di un cluster, selezionarlo per aprirlo e quindi selezionare Informazioni dettagliate sulle funzionalità>. Se il cluster non viene visualizzato, assicurarsi che sia stato connesso di recente ad Azure.

Screenshot per la selezione del cluster per il monitoraggio.

Colonna Descrizione Esempio
Cluster Nome del cluster. 27cls1
Stato della connessione di Azure Stato della risorsa HCI. Connesso
Versione sistema operativo Compilazione del sistema operativo nel server. 10.0.20348.10131

Per impostazione predefinita, la visualizzazione griglia mostra le prime 250 righe. È possibile impostare il valore modificando le righe della griglia, come illustrato nell'immagine seguente:

Screenshot che mostra la schermata per l'impostazione dei valori della griglia.

È possibile esportare i dettagli in Excel selezionando Esporta in Excel , come illustrato nell'immagine seguente:

Screenshot che mostra il collegamento per l'esportazione in Excel.

Excel fornirà lo stato di connessione di Azure come indicato di seguito:

  • 0: Non registrato
  • 1: Disconnesso
  • 2: Non di recente
  • 3: Connesso

Integrità dei cluster

Questa vista offre una panoramica dell'integrità dei cluster.

Screenshot che mostra le informazioni generali sull'integrità del cluster.

Colonna Descrizione Esempio
Cluster Nome del cluster. 27cls1
Ultimo aggiornamento Timestamp dell'ultimo aggiornamento del server. 4/9/2022, 12:15:42 PM
Stato Fornisce l'integrità delle risorse del server nel cluster. Può essere integro, avviso, critico o altro. Healthy
Risorsa con errori Descrizione della risorsa che ha causato l'errore. Server, StoragePool, Sottosistema
Totale server Numero di server all'interno di un cluster. 4

Se il cluster manca o mostra lo stato Altro, passare all'area di lavoro Log Analytics usata per il cluster e assicurarsi che la configurazione dell'agente acquisisca i dati dal log microsoft-windows-health/operational . Assicurarsi anche che i cluster siano connessi di recente ad Azure e verificare che i cluster non siano filtrati in questa cartella di lavoro.

Server

Questa vista offre una panoramica dell'integrità e delle prestazioni del server e dell'utilizzo dei cluster selezionati. Questa visualizzazione viene compilata usando l'ID evento del server 3000 del canale del registro eventi di Microsoft-Windows-SDDC-Management/Operational Windows. Ogni riga può essere ulteriormente espansa per visualizzare lo stato di integrità del nodo. È possibile interagire con il cluster e la risorsa server per passare alla rispettiva pagina della risorsa.

Screenshot che mostra l'integrità dei server.

Macchine virtuali

Questa visualizzazione fornisce lo stato di tutte le macchine virtuali nel cluster selezionato. La visualizzazione viene compilata usando l'ID evento della macchina virtuale 3003 del canale del registro eventi di Microsoft-Windows-SDDC-Management/Operational Windows. Ogni riga può essere ulteriormente espansa per visualizzare la distribuzione delle macchine virtuali tra server nel cluster. È possibile interagire con il cluster e la risorsa nodo per passare alla rispettiva pagina della risorsa.

Screenshot che mostra l'integrità delle macchine virtuali.

Metrica Descrizione Esempio
Cluster > Server Nome del cluster. In caso di espansione, vengono visualizzati i server all'interno del cluster. Sample-VM-1
Ultimo aggiornamento Datetimestamp dell'ultimo aggiornamento del server. 4/9/2022, 12:24:02 PM
Totale macchine virtuali Numero di macchine virtuali in un nodo server all'interno di un cluster. 1 di 2 esecuzione
In esecuzione Numero di macchine virtuali in esecuzione in un nodo server all'interno di un cluster. 2
Arrestato Numero di macchine virtuali arrestate in un nodo server all'interno di un cluster. 3
Non riuscito Numero di macchine virtuali non riuscite in un nodo server all'interno di un cluster. 2
Altro Se la macchina virtuale si trova in uno degli stati seguenti (sconosciuto, avvio, snapshot, salvataggio, arresto, sospensione, ripresa, sospensione), viene considerato "Altro". 2

Archiviazione

Questa visualizzazione mostra l'integrità dei volumi, dell'utilizzo e delle prestazioni nei cluster monitorati. Espandere un cluster per visualizzare lo stato dei singoli volumi. Questa visualizzazione viene compilata usando l'ID evento del volume 3002 del canale del log eventi di Microsoft-Windows-SDDC-Management/Operational Windows. I riquadri nella parte superiore forniscono una panoramica dell'integrità dell'archiviazione.

Screenshot che mostra l'integrità dei volumi di archiviazione.

Metrica Descrizione Esempio
Volume del cluster > Nome del cluster. In espansione mostra i volumi all'interno di un cluster. AltaylCluster1 > ClusterPerformanceHistory
Ultimo aggiornamento Datetimestamp di quando l'archiviazione è stata aggiornata. 4/14/2022, 2:58:55 PM
Integrità del volume Stato del volume. Può essere integro, avviso, critico o altro. Healthy
Dimensione Capacità totale del dispositivo in byte durante il periodo di report. 25B
Utilizzo Percentuale di capacità disponibile durante il periodo di report. 23.54%
Iops Operazioni di input/output al secondo. 45/s
Tendenza Tendenza di I/O al secondo.
Velocità effettiva Numero di byte al secondo il gateway applicazione è stato servito. 5B/s
Tendenza (B/s) Tendenza della velocità effettiva.
Latenza media La latenza è il tempo medio necessario per il completamento della richiesta di I/O. 334 μs

Personalizzare Informazioni dettagliate

Poiché l'esperienza utente è basata sui modelli di cartella di lavoro di Monitoraggio di Azure, gli utenti possono modificare le visualizzazioni e le query e salvarle come cartella di lavoro personalizzata.

Se si usa la visualizzazione dall'hub > di Monitoraggio di Azure > Azure Stack HCI, selezionare Personalizza > salva > con nome per salvare una copia della versione modificata in una cartella di lavoro personalizzata.

Le cartelle di lavoro vengono salvate all'interno di un gruppo di risorse. Tutti gli utenti con accesso al gruppo di risorse possono accedere alla cartella di lavoro personalizzata.

La maggior parte delle query viene scritta usando Linguaggio di query Kusto (KQL). Alcune query vengono scritte usando la query Resource Graph. Per altre informazioni, vedere gli articoli seguenti:

Supporto

Per aprire un ticket di supporto per Insights, usare Il tipo di servizio Insights per Azure Stack HCI in Monitoraggio & Gestione.

Canale log eventi

Le visualizzazioni dettagliate e di monitoraggio sono basate sul canale del log eventi di Microsoft-Windows-SDDC-Management/Operational Windows. Quando il monitoraggio è abilitato, i dati di questo canale vengono salvati in un'area di lavoro Log Analytics.

Visualizzazione e modifica dell'intervallo di cache di dump

L'intervallo predefinito per il dump della cache è impostato su 3600 secondi (1 ora).

Usare i cmdlet di PowerShell seguenti per visualizzare il valore dell'intervallo di dump della cache:

Get-ClusterResource "sddc management" | Get-ClusterParameter

Usare i cmdlet seguenti per modificare la frequenza di dump della cache. Se impostato su 0 si interromperà la pubblicazione di eventi:

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

Eventi di Windows nel canale di log

Questo canale include cinque eventi. Ogni evento ha il nome del cluster e l'ID di Azure Resource Manager come EventData.

ID evento Tipo di evento
3000 Server
3001 Unità
3002 Volume
3003 Macchina virtuale
3004 Cluster

Valore della colonna RenderedDescription dell'evento server 3000

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

La maggior parte delle variabili è autoesplicativa da queste informazioni JSON. Tuttavia, la tabella seguente elenca alcune variabili che sono un po 'più difficili da comprendere.

Variabile Descrizione
m_servers Matrice di nodi del server.
m_statusCategory Stato di integrità del server.
m_status Stato del server. È una matrice che può contenere uno o due valori. Il primo valore è obbligatorio (0-4). Il secondo valore è facoltativo (5-9).

I valori per la variabile m_statusCategory sono i seguenti:

Valore Significato
0 Healthy
1 Avviso
2 Unhealthy
255 Altro

I valori per la variabile m_status sono i seguenti:

Valore Significato
0 Su
1 Giù
2 Manutenzione in corso
3 Aggiunta
4 Normale
5 Isolato
6 In quarantena
7 Drenante
8 Svuotamento completato
9 Scarico non riuscito
0xffff Sconosciuto

Evento unità 3001 Valore della colonna RenderedDescription

Evento drive 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Valore della colonna RenderedDescription dell'evento volume 3002

Evento volume 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
} 

La maggior parte delle variabili è autoesplicativa dalle informazioni JSON precedenti. Tuttavia, la tabella seguente elenca alcune variabili che sono un po 'più difficili da comprendere.

Variabile Descrizione
VolumeList Matrice di volumi.
m_StatusCategory Stato di integrità del volume.
m_Status Stato del volume. È una matrice che può contenere uno o due valori. Il primo valore è obbligatorio (0-4). Il secondo valore è facoltativo (5-9).

I valori per la variabile m_statusCategory sono i seguenti:

Valore Significato
0 Healthy
1 Avviso
2 Unhealthy
255 Altro

I valori per la variabile m_status sono i seguenti:

Valore Significato
0 Sconosciuto
1 Altro
2 OK
3 Necessita di riparazione
4 Stressato
5 Errore predittivo
6 Errore
7 Errore irreversibile
8 Avvio in corso
9 Stopping
10 Arrestato
11 In servizio
12 Nessun contatto
13 Comunicazione persa
14 Aborted
15 Dormiente
16 Entità di supporto nell'errore
17 Completato
18 Modalità risparmio energia
19 Trasferirsi
0xD002 Giù
0xD003 Esigenze di risincronizzazione

Evento macchina virtuale 3003 RenderedDescription valore della colonna

Evento macchina virtuale 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Valore della colonna RenderedDescription dell'evento cluster 3004

Evento cluster 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

Per altre informazioni sui dati raccolti, vedere Errori del servizio integrità.

Passaggi successivi

Per informazioni correlate, vedere: