Como monitorar a disponibilidade de cluster com os logs de Azure Monitor no HDInsight

Artigo
06/18/2024

Os clusters do HDInsight incluem a integração de logs do Azure Monitor, que fornece logs e métricas consultáveis, bem como alertas configuráveis. Este artigo mostra como usar o Azure Monitor para monitorar o cluster.

Integração de logs do Azure Monitor

Os logs do Azure Monitor permitem que os dados gerados por vários recursos, como clusters do HDInsight, sejam coletados e agregados em um único local para alcançar uma experiência de monitoramento unificada.

Como pré-requisito, você precisará de um espaço de trabalho do Log Analytics para armazenar os dados coletados. Se você ainda não criou uma, pode seguir as instruções aqui: Criar um espaço de trabalho do Log Analytics.

Habilitar a integração de logs do Azure Monitor do HDInsight

Na página de recursos do cluster do HDInsight no portal, selecione Azure Monitor. Em seguida, selecione habilitar e selecione o espaço de trabalho do Log Analytics na lista suspensa.

Pacote de Gerenciamento de Operações do HDInsight.

Por padrão, isso instala o agente do OMS em todos os nós de cluster, exceto os nós de borda. Como nenhum agente do OMS está instalado em nós de borda de cluster, não há telemetria em nós de borda presentes no Log Analytics por padrão.

Consultar tabelas de métricas e logs

Quando a integração de log do Azure Monitor estiver habilitada (isso pode levar alguns minutos), navegue até o recurso Espaço de trabalho do Log Analytics e selecione Logs.

Logs do workspace do Log Analytics.

Os logs listam várias consultas de amostra, como:

Nome da consulta	Descrição
Disponibilidade de computadores hoje	Gráfico com o número de computadores que enviam logs, a cada hora
Lista de pulsações	Lista todas as pulsações de computador da última hora
Última pulsação de cada computador	Mostrar a última pulsação enviada por cada computador
Computadores não disponíveis	Listar todos os computadores conhecidos que não enviaram uma pulsação nas últimas 5 horas
Taxa de disponibilidade	Calcular a taxa de disponibilidade de cada computador conectado

Por exemplo, execute a consulta de amostra Taxa de disponibilidade selecionando Executar na consulta, conforme mostrado na captura de tela acima. Isso mostrará a taxa de disponibilidade de cada nó no cluster como uma porcentagem. Se você tiver habilitado vários clusters do HDInsight para enviar métricas para o mesmo espaço de trabalho do Log Analytics, verá a taxa de disponibilidade para todos os nós (excluindo nós de borda) nesses clusters exibida.

A consulta de exemplo de

Observação

A taxa de disponibilidade é medida em um período de 24 horas. Portanto, o cluster precisará ser executado por pelo menos 24 horas antes de você ver taxas de disponibilidade precisas.

Você pode fixar essa tabela em um painel compartilhado clicando em Fixar no canto superior direito. Se você não tiver nenhum painel compartilhado gravável, poderá ver como criar um aqui: Criar e compartilhar painéis no portal do Azure.

Alertas do Azure Monitor

Você também pode configurar alertas do Azure Monitor que serão disparados quando o valor de uma métrica ou os resultados de uma consulta atenderem a determinadas condições. Por exemplo, vamos criar um alerta para enviar um email quando um ou mais nós não enviarem uma pulsação em 5 horas (ou seja, presume-se que não estejam disponíveis).

Em Logs, execute a consulta de amostra Computadores indisponíveis selecionando Executar na consulta, conforme mostrado abaixo.

O workspace do Log Analytics registra o exemplo de

Se todos os nós estiverem disponíveis, essa consulta não deverá retornar nenhum resultado por enquanto. Clique em Nova regra de alerta para começar a configurar o alerta para esta consulta.

Nova regra de alerta do workspace do Log Analytics.

Há três componentes para um alerta: o recurso para o qual criar a regra (o espaço de trabalho do Log Analytics, nesse caso), a condição para disparar o alerta e os grupos de ações que determinam o que acontecerá quando o alerta for disparado. Clique no título da condição, conforme mostrado abaixo, para concluir a configuração da lógica de sinal.

Condição de regra de criação de alerta do portal.

Isso abrirá Configurar lógica de sinal.

Configure a seção de Lógica de alerta da seguinte maneira:

Baseado em: Número de resultados, Condição: Maior do que, Limite: 0.

Como essa consulta só retorna nós indisponíveis como resultados, se o número de resultados for maior que 0, o alerta deverá ser acionado.

Na seção Avaliado com base em, defina o período e a frequência com base na frequência com que você deseja verificar se há nós indisponíveis.

Para fins deste alerta, você deseja verificar o Período = Frequência. Mais informações sobre o período, a frequência e outros parâmetros de alerta podem ser encontrados aqui.

Selecione Concluído quando tiver terminado de configurar a lógica de sinal.

A regra de alerta configura a lógica de sinal.

Se você ainda não tiver um grupo de ações existente, clique em Criar novo na seção Grupos de ação.

A regra de alerta cria um novo grupo de ações.

Isso abrirá Adicionar grupo de ação. Escolha um nome de grupo de ação, nome curto, assinaturae grupo de recursos. Na seção ações, escolha um nome de ação e selecione email/SMS/Push/voz como o tipo de ação.

Observação

Há várias outras ações que um alerta pode disparar além de um Email/SMS/Push/voz, como uma Função do Azure, LogicApp, Webhook, ITSM e Runbook de automação. Saiba mais.

Isso abrirá Email/SMS/Push/Voice. Escolha um Nome para o destinatário, marque a caixa Email e digite um endereço de email para o qual você deseja que o alerta seja enviado. Selecione OK em Email/SMS/Push/voze, em seguida, em Adicionar grupo de ação para concluir a configuração do grupo de ação.

A regra de alerta cria adicionar um grupo de ações.

Depois que essas folhas forem fechadas, você deverá ver o grupo de ação listado na seção Grupos de ações. Por fim, conclua a seção Detalhes do alerta digitando um nome e uma Descrição da regra de alerta e escolhendo uma Severidade. Clique em Criar regra de alerta para concluir.

O portal cria a conclusão da regra de alerta.

Dica

A capacidade de especificar a Severidade é uma ferramenta poderosa que pode ser usada durante a criação de vários alertas. Por exemplo, você pode criar um alerta para gerar um Aviso (severidade 1) se um único nó de cabeçalho ficar inoperante e outro alerta Crítico (severidade 1) no caso improvável de que ambos os nós de cabeçalho fiquem inoperantes.

Quando a condição desse alerta for atendida, o alerta será acionado e você receberá um email com os detalhes do alerta como este:

Exemplo de email de alerta do Azure Monitor.

Você também pode exibir todos os alertas que foram disparados, agrupados por severidade, acessando Alertas em seu Espaço de trabalho do log Analytics.

Alertas do workspace do Log Analytics.

Quando você selecionar em um grupo de severidade (ou seja, gravidade 1, conforme realçado acima), ele mostrará registros para todos os alertas dessa gravidade que foram disparados como abaixo:

Captura de tela mostrando a severidade de um alerta do workspace do Log Analytics.

Compartilhar via

Como monitorar a disponibilidade de cluster com os logs de Azure Monitor no HDInsight

Integração de logs do Azure Monitor

Habilitar a integração de logs do Azure Monitor do HDInsight

Consultar tabelas de métricas e logs

Alertas do Azure Monitor

Próximas etapas

Comentários

Recursos adicionais