Monitorizar vários clusters do Azure Stack HCI com o Insights
Aplica-se a: Azure Stack HCI, versão 22H2
Este artigo explica como utilizar o Insights para monitorizar vários clusters do Azure Stack HCI. Para um único cluster do Azure Stack HCI, veja Monitorizar o Azure Stack HCI com Informações.
Importante
Se registou o cluster do Azure Stack HCI e configurou as Informações antes de novembro de 2023, determinadas funcionalidades que utilizam o Agente do Azure Monitor (AMA), como o Arc para Servidores, o VM Insights, o Defender para Cloud ou o Sentinel, poderão não recolher registos e dados de eventos corretamente. Para obter orientações de resolução de problemas, veja a secção Resolver problemas de clusters registados antes de novembro de 2023 .
Para obter informações sobre os benefícios, pré-requisitos e como ativar as Informações em cada cluster, veja Benefícios, Pré-requisitos e Ativar Informações.
Veja o vídeo para obter uma introdução rápida:
Ver informações de estado de funcionamento, desempenho e utilização
As informações armazenam os respetivos dados numa área de trabalho do Log Analytics, o que lhe permite fornecer agregação e filtragem avançadas e analisar tendências de dados ao longo do tempo. Não existe nenhum custo direto para o Insights. Os utilizadores são faturados com base na quantidade de dados ingeridos e nas definições de retenção de dados da respetiva área de trabalho do Log Analytics.
Pode aceder às Informações a partir do Azure Monitor > Insights Hub > do Azure Stack HCI. Verá os seguintes separadores para alternar entre vistas: Adicionar à monitorização, Estado de funcionamento do cluster, Servidores, Máquinas virtuais, Armazenamento.
Filtrar os resultados
A visualização pode ser filtrada entre subscrições. Pode filtrar os resultados com base nos seguintes menus pendentes:
- Intervalo de tempo: Este filtro permite-lhe selecionar um intervalo para a vista de tendência. O valor predefinido é Últimas 24 horas.
- Subscrições: Mostra as subscrições que registaram clusters do Azure Stack HCI. Pode selecionar várias subscrições neste filtro.
- Clusters HCI: Listas os clusters do Azure Stack HCI registados que têm capacidades de Registos e Monitorização ativadas no intervalo de tempo selecionado. Pode selecionar vários clusters a partir deste filtro.
- Grupos de recursos: Este filtro permite-lhe selecionar todos os clusters num grupo de recursos.
Adicionar à monitorização
Esta funcionalidade fornece detalhes dos clusters que não são monitorizados pelo utilizador. Para começar a monitorizar um cluster, selecione-o para abrir esse cluster e, em seguida, selecione Informações de Capacidades>. Se não vir o cluster, certifique-se de que está ligado recentemente ao Azure.
Coluna | Descrição | Exemplo |
---|---|---|
Cluster | O nome do cluster. | 27cls1 |
Estado da ligação do Azure | O estado do recurso HCI. | Ligada |
Versão do SO | O sistema operativo baseia-se no servidor. | 10.0.20348.10131 |
Por predefinição, a vista de grelha mostra as primeiras 250 linhas. Pode definir o valor ao editar as linhas de grelha, conforme mostrado na imagem seguinte:
Pode exportar os detalhes no Excel ao selecionar Exportar para o Excel , conforme mostrado na imagem seguinte:
O Excel fornecerá o estado da ligação do Azure da seguinte forma:
- 0: Não Registado
- 1: Desligado
- 2: Não Recentemente
- 3: Ligado
Estado de funcionamento do cluster
Esta vista fornece uma descrição geral do estado de funcionamento dos clusters.
Coluna | Descrição | Exemplo |
---|---|---|
Cluster | O nome do cluster. | 27cls1 |
Última atualização | O carimbo de data/hora de quando o servidor foi atualizado pela última vez. | 09/04/2022, 12:15:42 |
Estado | Fornece o estado de funcionamento dos recursos do servidor no cluster. Pode estar em bom estado de funcionamento, aviso, crítico ou outro. | Bom estado de funcionamento |
Recurso com falhas | Descrição do recurso que causou a falha. | Servidor, StoragePool, Subsistema |
Total de servidores | O número de servidores num cluster. | 4 |
Se o cluster estiver em falta ou a mostrar o estado Outro, aceda à área de trabalho do Log Analytics utilizada para o cluster e certifique-se de que a configuração do Agente está a capturar dados do registo microsoft-windows-health/operacional . Certifique-se também de que os clusters se ligaram recentemente ao Azure e verifique se os clusters não estão filtrados neste livro.
Servidor
Esta vista fornece uma descrição geral do estado de funcionamento e do desempenho do servidor e da utilização de clusters selecionados. Esta vista é criada com o ID de evento do servidor 3000 do Microsoft-Windows-SDDC-Management/Operational Windows Event Log Channel. Cada linha pode ser expandida para ver o estado de funcionamento do nó. Pode interagir com o cluster e o recurso do servidor para navegar para a respetiva página de recursos.
Máquinas virtuais
Esta vista fornece o estado de todas as VMs no cluster selecionado. A vista é criada com o ID de evento da máquina virtual 3003 do Microsoft-Windows-SDDC-Management/Operational Windows Event Log Channel. Cada linha pode ser expandida para ver a distribuição de VMs entre servidores no cluster. Pode interagir com o cluster e o recurso de nó para navegar para a respetiva página de recursos.
Metric | Descrição | Exemplo |
---|---|---|
Servidor de Cluster > | O nome do cluster. Na expansão, mostra os servidores dentro do cluster. | Sample-VM-1 |
Última Actualização | O datetimestamp de quando o servidor foi atualizado pela última vez. | 09/04/2022, 12:24:02 |
Total VMs | O número de VMs num nó de servidor num cluster. | 1 de 2 em execução |
Em Execução | O número de VMs em execução num nó de servidor num cluster. | 2 |
Parada | O número de VMs paradas num nó de servidor num cluster. | 3 |
Com falhas | O número de VMs falhou num nó de servidor num cluster. | 2 |
Outro | Se a VM estiver num dos seguintes estados (Desconhecido, Início, Instantâneo, Guardar, Parar, Pausar, Retomar, Suspenso), é considerado como "Outro". | 2 |
Armazenamento
Esta vista mostra o estado de funcionamento dos volumes, da utilização e do desempenho em clusters monitorizados. Expanda um cluster para ver o estado dos volumes individuais. Esta vista é criada com o ID do evento de volume 3002 do Microsoft-Windows-SDDC-Management/Operational Windows Event Log Channel. Os mosaicos na parte superior fornecem uma descrição geral do estado de funcionamento do armazenamento.
Metric | Descrição | Exemplo |
---|---|---|
Volume de Cluster > | O nome do cluster. Na expansão, mostra os volumes dentro de um cluster. | AltaylCluster1 > ClusterPerformanceHistory |
Última atualização | O datetimestamp de quando o armazenamento foi atualizado pela última vez. | 14/04/2022, 14:58:55 |
Estado de funcionamento do volume | O estado do volume. Pode estar em bom estado de funcionamento, aviso, crítico ou outro. | Bom estado de funcionamento |
Tamanho | A capacidade total do dispositivo em bytes durante o período de relatórios. | 25B |
Utilização | A percentagem de capacidade disponível durante o período de relatórios. | 23.54% |
Iops | Operações de entrada/saída por segundo. | 45/s |
Tendência | A tendência de IOPS. | |
Débito | Número de bytes por segundo que o Gateway de Aplicação tem servido. | 5B/s |
Tendência (B/s) | A tendência de débito. | |
Latência Média | A latência é o tempo médio que o pedido de E/S demora a ser concluído. | 334 μs |
Personalizar Informações
Uma vez que a experiência de utilizador se baseia nos modelos de livros do Azure Monitor, os utilizadores podem editar as visualizações e as consultas e guardá-las como um livro personalizado.
Se estiver a utilizar a visualização do Azure Monitor > Insights Hub > do Azure Stack HCI, selecione Personalizar Editar >> Guardar Como para guardar uma cópia da sua versão modificada num livro personalizado.
Os livros são guardados num grupo de recursos. Todas as pessoas com acesso ao grupo de recursos podem aceder ao livro personalizado.
A maioria das consultas são escritas com Linguagem de Pesquisa Kusto (KQL). Algumas consultas são escritas com a consulta Resource Graph. Para obter mais informações, veja os seguintes artigos:
Suporte
Para abrir um pedido de suporte para Informações, utilize o tipo de serviço Insights para o Azure Stack HCI em Monitorização & Gestão.
Canal de Registo de Eventos
As vistas de informações e monitorização baseiam-se no Canal de Registo de Eventos do Windows Microsoft-Windows-SDDC-Management/Operacional. Quando a monitorização está ativada, os dados deste canal são guardados numa área de trabalho do Log Analytics.
Ver e alterar o intervalo da cache de informação de falha de sistema
O intervalo predefinido para eliminar a cache está definido como 3600 segundos (1 hora).
Utilize os seguintes cmdlets do PowerShell para ver o valor do intervalo de captura de cache:
Get-ClusterResource "sddc management" | Get-ClusterParameter
Utilize os seguintes cmdlets para alterar a frequência da captura de cache. Se estiver definido como 0, deixará de publicar eventos:
Get-ClusterResource "sddc management" | Set-ClusterParameter -Name CacheDumpIntervalInSeconds -Value <value in seconds>
Eventos do Windows no canal de registo
Este canal inclui cinco eventos. Cada evento tem o nome do cluster e o ID de Resource Manager do Azure como EventData.
ID do Evento | Tipo de evento |
---|---|
3.000 | Servidor |
3001 | Lista de unidades |
3002 | Volume |
3003 | Máquina virtual |
3004 | Cluster |
Valor da coluna RenderedDescription do evento do servidor 3000
{
"m_servers":[
{
"m_statusCategory":"Integer",
"m_status":[
"Integer",
"…"
],
"m_id":"String",
"m_name":"String",
"m_totalPhysicalMemoryInBytes":"Integer",
"m_usedPhysicalMemoryInBytes":"Integer",
"m_totalProcessorsUsedPercentage":"Integer",
"m_totalClockSpeedInMHz":"Integer",
"m_uptimeInSeconds":"Integer",
"m_InboundNetworkUsage":"Double (Bits/sec)",
"m_OutboundNetworkUsage":"Double (Bits/sec)",
"m_InboundRdmaUsage":"Double (Bits/sec)",
"m_OutboundRdmaUsage":"Double (Bits/sec)",
"m_site":"String",
"m_location":"String",
"m_vm":{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer"
},
"m_osVersion":"String",
"m_buildNumber":"String",
"m_totalPhysicalProcessors":"Integer",
"m_totalLogicalProcessors":"Integer"
},
"…"
],
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
A maioria das variáveis são explicativas a partir destas informações JSON. No entanto, a tabela abaixo lista algumas variáveis que são um pouco mais difíceis de compreender.
Variável | Descrição |
---|---|
m_servers | Matriz de nós de servidor. |
m_statusCategory | Estado de funcionamento do servidor. |
m_status | Estado do servidor. É uma matriz que pode conter um ou dois valores. O primeiro valor é obrigatório (0-4). O segundo valor é opcional (5-9). |
Os valores da variável m_statusCategory são os seguintes:
Valor | Significado |
---|---|
0 | Bom estado de funcionamento |
1 | Aviso |
2 | Mau estado de funcionamento |
255 | Outro |
Os valores da variável m_status são os seguintes:
Valor | Significado |
---|---|
0 | Cima |
1 | Baixo |
2 | Em manutenção |
3 | Associar |
4 | Normal |
5 | Isolado |
6 | Em quarentena |
7 | Drenagem |
8 | Drenagem concluída |
9 | Falha na drenagem |
0xffff | Desconhecido |
Drive event 3001 RenderedDescription column value (Valor da coluna RenderedDescription do evento de unidade 3001)
Evento de unidade 3001
{
"m_drives":[
{
"m_uniqueId":"String",
"m_model":"String",
"m_type":"Integer",
"m_canPool":"Boolean",
"m_sizeInBytes":"Integer",
"m_sizeUsedInBytes":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
},
"…"
],
"m_correlationId":"String",
"m_isLastElement":"Boolean"
}
Volume event 3002 RenderedDescription column value
Evento de volume 3002
{
"VolumeList":[
{
"m_Id":"String",
"m_Label":"String",
"m_Path":"String",
"m_StatusCategory":"Integer",
"m_Status":[
"Integer",
"…"
],
"m_Size":"Integer (Bytes)",
"m_SizeUsed":"Integer (Bytes)",
"m_TotalIops":"Double (Count/second)",
"m_TotalThroughput":"Double (Bytes/Second)",
"m_AverageLatency":"Double (Seconds)",
"m_Resiliency":"Integer",
"m_IsDedupEnabled":"Boolean",
"m_FileSystem":"String"
},
"…"
],
"m_Alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
A maioria das variáveis são explicativas a partir das informações JSON acima. No entanto, a tabela abaixo lista algumas variáveis que são um pouco mais difíceis de compreender.
Variável | Descrição |
---|---|
VolumeList | Matriz de volumes. |
m_StatusCategory | Estado de funcionamento do volume. |
m_Status | Estado do volume. É uma matriz que pode conter um ou dois valores. O primeiro valor é obrigatório (0-4). O segundo valor é opcional (5-9). |
Os valores da variável m_statusCategory são os seguintes:
Valor | Significado |
---|---|
0 | Bom estado de funcionamento |
1 | Aviso |
2 | Mau estado de funcionamento |
255 | Outro |
Os valores da variável m_status são os seguintes:
Valor | Significado |
---|---|
0 | Desconhecido |
1 | Outro |
2 | OK |
3 | Precisa de reparação |
4 | Stressado |
5 | Falha preditiva |
6 | Erro |
7 | Erro não recuperável |
8 | A iniciar |
9 | A parar |
10 | Parada |
11 | Em serviço |
12 | Sem contacto |
13 | Comunicação perdida |
14 | Abortada |
15 | Dormente |
16 | Entidade de suporte com erro |
17 | Concluído |
18 | Modo de energia |
19 | Realojamento |
0xD002 | Baixo |
0xD003 | Precisa de ressincronização |
Valor da coluna RenderedDescription do evento de máquina virtual 3003
Evento de máquina virtual 3003
{
"m_totalVmsUnknown":"Integer",
"m_totalVmsRunning":"Integer",
"m_totalVmsStopped":"Integer",
"m_totalVmsFailed":"Integer",
"m_totalVmsPaused":"Integer",
"m_totalVmsSuspended":"Integer",
"m_totalVmsStarting":"Integer",
"m_totalVmsSnapshotting":"Integer",
"m_totalVmsSaving":"Integer",
"m_totalVmsStopping":"Integer",
"m_totalVmsPausing":"Integer",
"m_totalVmsResuming":"Integer",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
}
Valor da coluna RenderedDescription do evento de cluster 3004
Evento de cluster 3004
{
"m_cpuUsage":"Double (%)",
"m_totalVolumeIops":"Double",
"m_averageVolumeLatency":"Double (Seconds)",
"m_totalVolumeThroughput":"Double (Bytes/Second)",
"m_totalVolumeSizeInBytes":"Integer",
"m_usedVolumeSizeInBytes":"Integer",
"m_totalMemoryInBytes":"Integer",
"m_usedMemoryInBytes":"Integer",
"m_isStretch":"Boolean",
"m_QuorumType":"String",
"m_QuorumMode":"String",
"m_QuorumState":"String",
"m_alerts":{
"m_totalUnknown":"Integer",
"m_totalHealthy":"Integer",
"m_totalWarning":"Integer",
"m_totalCritical":"Integer"
}
Para obter mais informações sobre os dados recolhidos, veja Falhas do Serviço de Estado de Funcionamento.
Passos seguintes
Para obter informações relacionadas, consulte: