Monitorizar vários clusters do Azure Stack HCI com o Insights

Artigo
01/31/2024

Aplica-se a: Azure Stack HCI, versão 22H2

Este artigo explica como utilizar o Insights para monitorizar vários clusters do Azure Stack HCI. Para um único cluster do Azure Stack HCI, veja Monitorizar o Azure Stack HCI com Informações.

Importante

Se registou o cluster do Azure Stack HCI e configurou as Informações antes de novembro de 2023, determinadas funcionalidades que utilizam o Agente do Azure Monitor (AMA), como o Arc para Servidores, o VM Insights, o Defender para Cloud ou o Sentinel, poderão não recolher registos e dados de eventos corretamente. Para obter orientações de resolução de problemas, veja a secção Resolver problemas de clusters registados antes de novembro de 2023 .

Para obter informações sobre os benefícios, pré-requisitos e como ativar as Informações em cada cluster, veja Benefícios, Pré-requisitos e Ativar Informações.

Veja o vídeo para obter uma introdução rápida:

Ver informações de estado de funcionamento, desempenho e utilização

As informações armazenam os respetivos dados numa área de trabalho do Log Analytics, o que lhe permite fornecer agregação e filtragem avançadas e analisar tendências de dados ao longo do tempo. Não existe nenhum custo direto para o Insights. Os utilizadores são faturados com base na quantidade de dados ingeridos e nas definições de retenção de dados da respetiva área de trabalho do Log Analytics.

Pode aceder às Informações a partir do Azure Monitor > Insights Hub > do Azure Stack HCI. Verá os seguintes separadores para alternar entre vistas: Adicionar à monitorização, Estado de funcionamento do cluster, Servidores, Máquinas virtuais, Armazenamento.

Filtrar os resultados

A visualização pode ser filtrada entre subscrições. Pode filtrar os resultados com base nos seguintes menus pendentes:

Intervalo de tempo: Este filtro permite-lhe selecionar um intervalo para a vista de tendência. O valor predefinido é Últimas 24 horas.
Subscrições: Mostra as subscrições que registaram clusters do Azure Stack HCI. Pode selecionar várias subscrições neste filtro.
Clusters HCI: Listas os clusters do Azure Stack HCI registados que têm capacidades de Registos e Monitorização ativadas no intervalo de tempo selecionado. Pode selecionar vários clusters a partir deste filtro.
Grupos de recursos: Este filtro permite-lhe selecionar todos os clusters num grupo de recursos.

Adicionar à monitorização

Esta funcionalidade fornece detalhes dos clusters que não são monitorizados pelo utilizador. Para começar a monitorizar um cluster, selecione-o para abrir esse cluster e, em seguida, selecione Informações de Capacidades>. Se não vir o cluster, certifique-se de que está ligado recentemente ao Azure.

Coluna	Descrição	Exemplo
Cluster	O nome do cluster.	27cls1
Estado da ligação do Azure	O estado do recurso HCI.	Ligada
Versão do SO	O sistema operativo baseia-se no servidor.	10.0.20348.10131

Por predefinição, a vista de grelha mostra as primeiras 250 linhas. Pode definir o valor ao editar as linhas de grelha, conforme mostrado na imagem seguinte:

Pode exportar os detalhes no Excel ao selecionar Exportar para o Excel , conforme mostrado na imagem seguinte:

O Excel fornecerá o estado da ligação do Azure da seguinte forma:

0: Não Registado
1: Desligado
2: Não Recentemente
3: Ligado

Estado de funcionamento do cluster

Esta vista fornece uma descrição geral do estado de funcionamento dos clusters.

Coluna	Descrição	Exemplo
Cluster	O nome do cluster.	27cls1
Última atualização	O carimbo de data/hora de quando o servidor foi atualizado pela última vez.	09/04/2022, 12:15:42
Estado	Fornece o estado de funcionamento dos recursos do servidor no cluster. Pode estar em bom estado de funcionamento, aviso, crítico ou outro.	Bom estado de funcionamento
Recurso com falhas	Descrição do recurso que causou a falha.	Servidor, StoragePool, Subsistema
Total de servidores	O número de servidores num cluster.	4

Se o cluster estiver em falta ou a mostrar o estado Outro, aceda à área de trabalho do Log Analytics utilizada para o cluster e certifique-se de que a configuração do Agente está a capturar dados do registo microsoft-windows-health/operacional . Certifique-se também de que os clusters se ligaram recentemente ao Azure e verifique se os clusters não estão filtrados neste livro.

Servidor

Esta vista fornece uma descrição geral do estado de funcionamento e do desempenho do servidor e da utilização de clusters selecionados. Esta vista é criada com o ID de evento do servidor 3000 do Microsoft-Windows-SDDC-Management/Operational Windows Event Log Channel. Cada linha pode ser expandida para ver o estado de funcionamento do nó. Pode interagir com o cluster e o recurso do servidor para navegar para a respetiva página de recursos.

Máquinas virtuais

Esta vista fornece o estado de todas as VMs no cluster selecionado. A vista é criada com o ID de evento da máquina virtual 3003 do Microsoft-Windows-SDDC-Management/Operational Windows Event Log Channel. Cada linha pode ser expandida para ver a distribuição de VMs entre servidores no cluster. Pode interagir com o cluster e o recurso de nó para navegar para a respetiva página de recursos.

Metric	Descrição	Exemplo
Servidor de Cluster >	O nome do cluster. Na expansão, mostra os servidores dentro do cluster.	Sample-VM-1
Última Actualização	O datetimestamp de quando o servidor foi atualizado pela última vez.	09/04/2022, 12:24:02
Total VMs	O número de VMs num nó de servidor num cluster.	1 de 2 em execução
Em Execução	O número de VMs em execução num nó de servidor num cluster.	2
Parada	O número de VMs paradas num nó de servidor num cluster.	3
Com falhas	O número de VMs falhou num nó de servidor num cluster.	2
Outro	Se a VM estiver num dos seguintes estados (Desconhecido, Início, Instantâneo, Guardar, Parar, Pausar, Retomar, Suspenso), é considerado como "Outro".	2

Armazenamento

Esta vista mostra o estado de funcionamento dos volumes, da utilização e do desempenho em clusters monitorizados. Expanda um cluster para ver o estado dos volumes individuais. Esta vista é criada com o ID do evento de volume 3002 do Microsoft-Windows-SDDC-Management/Operational Windows Event Log Channel. Os mosaicos na parte superior fornecem uma descrição geral do estado de funcionamento do armazenamento.

Metric	Descrição	Exemplo
Volume de Cluster >	O nome do cluster. Na expansão, mostra os volumes dentro de um cluster.	AltaylCluster1 > ClusterPerformanceHistory
Última atualização	O datetimestamp de quando o armazenamento foi atualizado pela última vez.	14/04/2022, 14:58:55
Estado de funcionamento do volume	O estado do volume. Pode estar em bom estado de funcionamento, aviso, crítico ou outro.	Bom estado de funcionamento
Tamanho	A capacidade total do dispositivo em bytes durante o período de relatórios.	25B
Utilização	A percentagem de capacidade disponível durante o período de relatórios.	23.54%
Iops	Operações de entrada/saída por segundo.	45/s
Tendência	A tendência de IOPS.
Débito	Número de bytes por segundo que o Gateway de Aplicação tem servido.	5B/s
Tendência (B/s)	A tendência de débito.
Latência Média	A latência é o tempo médio que o pedido de E/S demora a ser concluído.	334 μs

Personalizar Informações

Uma vez que a experiência de utilizador se baseia nos modelos de livros do Azure Monitor, os utilizadores podem editar as visualizações e as consultas e guardá-las como um livro personalizado.

Se estiver a utilizar a visualização do Azure Monitor > Insights Hub > do Azure Stack HCI, selecione Personalizar Editar >> Guardar Como para guardar uma cópia da sua versão modificada num livro personalizado.

Os livros são guardados num grupo de recursos. Todas as pessoas com acesso ao grupo de recursos podem aceder ao livro personalizado.

A maioria das consultas são escritas com Linguagem de Pesquisa Kusto (KQL). Algumas consultas são escritas com a consulta Resource Graph. Para obter mais informações, veja os seguintes artigos:

Suporte

Para abrir um pedido de suporte para Informações, utilize o tipo de serviço Insights para o Azure Stack HCI em Monitorização & Gestão.

Canal de Registo de Eventos

As vistas de informações e monitorização baseiam-se no Canal de Registo de Eventos do Windows Microsoft-Windows-SDDC-Management/Operacional. Quando a monitorização está ativada, os dados deste canal são guardados numa área de trabalho do Log Analytics.

Ver e alterar o intervalo da cache de informação de falha de sistema

O intervalo predefinido para eliminar a cache está definido como 3600 segundos (1 hora).

Utilize os seguintes cmdlets do PowerShell para ver o valor do intervalo de captura de cache:

Get-ClusterResource "sddc management" | Get-ClusterParameter

Utilize os seguintes cmdlets para alterar a frequência da captura de cache. Se estiver definido como 0, deixará de publicar eventos:

Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>

Eventos do Windows no canal de registo

Este canal inclui cinco eventos. Cada evento tem o nome do cluster e o ID de Resource Manager do Azure como EventData.

ID do Evento	Tipo de evento
3.000	Servidor
3001	Lista de unidades
3002	Volume
3003	Máquina virtual
3004	Cluster

Valor da coluna RenderedDescription do evento do servidor 3000

{
   "m_servers":[
      {
         "m_statusCategory":"Integer",
         "m_status":[
            "Integer",
            "…"
         ],
         "m_id":"String",
         "m_name":"String",
         "m_totalPhysicalMemoryInBytes":"Integer",
         "m_usedPhysicalMemoryInBytes":"Integer",
         "m_totalProcessorsUsedPercentage":"Integer",
         "m_totalClockSpeedInMHz":"Integer",
         "m_uptimeInSeconds":"Integer",
         "m_InboundNetworkUsage":"Double (Bits/sec)",
         "m_OutboundNetworkUsage":"Double (Bits/sec)",
         "m_InboundRdmaUsage":"Double (Bits/sec)",
         "m_OutboundRdmaUsage":"Double (Bits/sec)",
         "m_site":"String",
         "m_location":"String",
         "m_vm":{
            "m_totalVmsUnknown":"Integer",
            "m_totalVmsRunning":"Integer",
            "m_totalVmsStopped":"Integer",
            "m_totalVmsFailed":"Integer",
            "m_totalVmsPaused":"Integer",
            "m_totalVmsSuspended":"Integer",
            "m_totalVmsStarting":"Integer",
            "m_totalVmsSnapshotting":"Integer",
            "m_totalVmsSaving":"Integer",
            "m_totalVmsStopping":"Integer",
            "m_totalVmsPausing":"Integer",
            "m_totalVmsResuming":"Integer"
         },
         "m_osVersion":"String",
         "m_buildNumber":"String",
         "m_totalPhysicalProcessors":"Integer",
         "m_totalLogicalProcessors":"Integer"
      },
      "…"
   ],
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

A maioria das variáveis são explicativas a partir destas informações JSON. No entanto, a tabela abaixo lista algumas variáveis que são um pouco mais difíceis de compreender.

Variável	Descrição
m_servers	Matriz de nós de servidor.
m_statusCategory	Estado de funcionamento do servidor.
m_status	Estado do servidor. É uma matriz que pode conter um ou dois valores. O primeiro valor é obrigatório (0-4). O segundo valor é opcional (5-9).

Os valores da variável m_statusCategory são os seguintes:

Valor	Significado
0	Bom estado de funcionamento
1	Aviso
2	Mau estado de funcionamento
255	Outro

Os valores da variável m_status são os seguintes:

Valor	Significado
0	Cima
1	Baixo
2	Em manutenção
3	Associar
4	Normal
5	Isolado
6	Em quarentena
7	Drenagem
8	Drenagem concluída
9	Falha na drenagem
0xffff	Desconhecido

Drive event 3001 RenderedDescription column value (Valor da coluna RenderedDescription do evento de unidade 3001)

Evento de unidade 3001

{
    "m_drives":[
        {
            "m_uniqueId":"String",
            "m_model":"String",
            "m_type":"Integer",
            "m_canPool":"Boolean",
            "m_sizeInBytes":"Integer",
            "m_sizeUsedInBytes":"Integer",
            "m_alerts":{
                "m_totalUnknown":"Integer",
                "m_totalHealthy":"Integer",
                "m_totalWarning":"Integer",
                "m_totalCritical":"Integer"
            }
        },
        "…"
    ],
    "m_correlationId":"String",
    "m_isLastElement":"Boolean"
}

Volume event 3002 RenderedDescription column value

Evento de volume 3002

{
   "VolumeList":[
      {
         "m_Id":"String",
         "m_Label":"String",
         "m_Path":"String",
         "m_StatusCategory":"Integer",
         "m_Status":[
            "Integer",
            "…"
         ],
         "m_Size":"Integer (Bytes)",
         "m_SizeUsed":"Integer (Bytes)",
         "m_TotalIops":"Double (Count/second)",
         "m_TotalThroughput":"Double (Bytes/Second)",
         "m_AverageLatency":"Double (Seconds)",
         "m_Resiliency":"Integer",
         "m_IsDedupEnabled":"Boolean",
         "m_FileSystem":"String"
      },
      "…"
   ],
   "m_Alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

A maioria das variáveis são explicativas a partir das informações JSON acima. No entanto, a tabela abaixo lista algumas variáveis que são um pouco mais difíceis de compreender.

Variável	Descrição
VolumeList	Matriz de volumes.
m_StatusCategory	Estado de funcionamento do volume.
m_Status	Estado do volume. É uma matriz que pode conter um ou dois valores. O primeiro valor é obrigatório (0-4). O segundo valor é opcional (5-9).

Os valores da variável m_statusCategory são os seguintes:

Valor	Significado
0	Bom estado de funcionamento
1	Aviso
2	Mau estado de funcionamento
255	Outro

Os valores da variável m_status são os seguintes:

Valor	Significado
0	Desconhecido
1	Outro
2	OK
3	Precisa de reparação
4	Stressado
5	Falha preditiva
6	Erro
7	Erro não recuperável
8	A iniciar
9	A parar
10	Parada
11	Em serviço
12	Sem contacto
13	Comunicação perdida
14	Abortada
15	Dormente
16	Entidade de suporte com erro
17	Concluído
18	Modo de energia
19	Realojamento
0xD002	Baixo
0xD003	Precisa de ressincronização

Valor da coluna RenderedDescription do evento de máquina virtual 3003

Evento de máquina virtual 3003

{
   "m_totalVmsUnknown":"Integer",
   "m_totalVmsRunning":"Integer",
   "m_totalVmsStopped":"Integer",
   "m_totalVmsFailed":"Integer",
   "m_totalVmsPaused":"Integer",
   "m_totalVmsSuspended":"Integer",
   "m_totalVmsStarting":"Integer",
   "m_totalVmsSnapshotting":"Integer",
   "m_totalVmsSaving":"Integer",
   "m_totalVmsStopping":"Integer",
   "m_totalVmsPausing":"Integer",
   "m_totalVmsResuming":"Integer",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }
}

Valor da coluna RenderedDescription do evento de cluster 3004

Evento de cluster 3004

{
   "m_cpuUsage":"Double (%)",
   "m_totalVolumeIops":"Double",
   "m_averageVolumeLatency":"Double (Seconds)",
   "m_totalVolumeThroughput":"Double (Bytes/Second)",
   "m_totalVolumeSizeInBytes":"Integer",
   "m_usedVolumeSizeInBytes":"Integer",
   "m_totalMemoryInBytes":"Integer",
   "m_usedMemoryInBytes":"Integer",
   "m_isStretch":"Boolean",
   "m_QuorumType":"String",
   "m_QuorumMode":"String",
   "m_QuorumState":"String",
   "m_alerts":{
      "m_totalUnknown":"Integer",
      "m_totalHealthy":"Integer",
      "m_totalWarning":"Integer",
      "m_totalCritical":"Integer"
   }

Para obter mais informações sobre os dados recolhidos, veja Falhas do Serviço de Estado de Funcionamento.

Passos seguintes

Para obter informações relacionadas, consulte:

Partilhar via