Como monitorar a disponibilidade de cluster com os logs de Azure Monitor no HDInsight

Os clusters do HDInsight incluem a integração de logs do Azure Monitor, que fornece logs e métricas consultáveis, bem como alertas configuráveis. Este artigo mostra como usar o Azure Monitor para monitorar o cluster.

Integração de logs do Azure Monitor

Os logs do Azure Monitor permitem que os dados gerados por vários recursos, como clusters do HDInsight, sejam coletados e agregados em um único local para alcançar uma experiência de monitoramento unificada.

Como pré-requisito, você precisará de um espaço de trabalho do Log Analytics para armazenar os dados coletados. Se você ainda não criou uma, pode seguir as instruções aqui: Criar um espaço de trabalho do Log Analytics.

Habilitar a integração de logs do Azure Monitor do HDInsight

Na página de recursos do cluster do HDInsight no portal, selecione Azure Monitor. Em seguida, selecione habilitar e selecione o espaço de trabalho do Log Analytics na lista suspensa.

HDInsight Operations Management Suite.

Por padrão, isso instala o agente do OMS em todos os nós de cluster, exceto os nós de borda. Como nenhum agente do OMS está instalado em nós de borda de cluster, não há telemetria em nós de borda presentes no Log Analytics por padrão.

Consultar tabelas de métricas e logs

Quando a integração de log do Azure Monitor estiver habilitada (isso pode levar alguns minutos), navegue até o recurso Espaço de trabalho do Log Analytics e selecione Logs.

Log Analytics workspace logs.

Os logs listam várias consultas de amostra, como:

Nome da consulta Descrição
Disponibilidade de computadores hoje Gráfico com o número de computadores que enviam logs, a cada hora
Lista de pulsações Lista todas as pulsações de computador da última hora
Última pulsação de cada computador Mostrar a última pulsação enviada por cada computador
Computadores não disponíveis Listar todos os computadores conhecidos que não enviaram uma pulsação nas últimas 5 horas
Taxa de disponibilidade Calcular a taxa de disponibilidade de cada computador conectado

Por exemplo, execute a consulta de amostra Taxa de disponibilidade selecionando Executar na consulta, conforme mostrado na captura de tela acima. Isso mostrará a taxa de disponibilidade de cada nó no cluster como uma porcentagem. Se você tiver habilitado vários clusters do HDInsight para enviar métricas para o mesmo espaço de trabalho do Log Analytics, verá a taxa de disponibilidade para todos os nós (excluindo nós de borda) nesses clusters exibida.

Log Analytics workspace logs 'availability rate' sample query.

Observação

A taxa de disponibilidade é medida em um período de 24 horas. Portanto, o cluster precisará ser executado por pelo menos 24 horas antes de você ver taxas de disponibilidade precisas.

Você pode fixar essa tabela em um painel compartilhado clicando em Fixar no canto superior direito. Se você não tiver nenhum painel compartilhado gravável, poderá ver como criar um aqui: Criar e compartilhar painéis no portal do Azure.

Alertas do Azure Monitor

Você também pode configurar alertas do Azure Monitor que serão disparados quando o valor de uma métrica ou os resultados de uma consulta atenderem a determinadas condições. Por exemplo, vamos criar um alerta para enviar um email quando um ou mais nós não enviarem uma pulsação em 5 horas (ou seja, presume-se que não estejam disponíveis).

Em Logs, execute a consulta de amostra Computadores indisponíveis selecionando Executar na consulta, conforme mostrado abaixo.

Log Analytics workspace logs 'unavailable computers' sample.

Se todos os nós estiverem disponíveis, essa consulta não deverá retornar nenhum resultado por enquanto. Clique em Nova regra de alerta para começar a configurar o alerta para esta consulta.

Log Analytics workspace new alert rule.

Há três componentes para um alerta: o recurso para o qual criar a regra (o espaço de trabalho do Log Analytics, nesse caso), a condição para disparar o alerta e os grupos de ações que determinam o que acontecerá quando o alerta for disparado. Clique no título da condição, conforme mostrado abaixo, para concluir a configuração da lógica de sinal.

Portal alert create rule condition.

Isso abrirá Configurar lógica de sinal.

Configure a seção de Lógica de alerta da seguinte maneira:

Baseado em: Número de resultados, Condição: Maior do que, Limite: 0.

Como essa consulta só retorna nós indisponíveis como resultados, se o número de resultados for maior que 0, o alerta deverá ser acionado.

Na seção Avaliado com base em, defina o período e a frequência com base na frequência com que você deseja verificar se há nós indisponíveis.

Para fins deste alerta, você deseja verificar o Período = Frequência. Mais informações sobre o período, a frequência e outros parâmetros de alerta podem ser encontrados aqui.

Selecione Concluído quando tiver terminado de configurar a lógica de sinal.

Alert rule configures signal logic.

Se você ainda não tiver um grupo de ações existente, clique em Criar novo na seção Grupos de ação.

Alert rule creates new action group.

Isso abrirá Adicionar grupo de ação. Escolha um nome de grupo de ação, nome curto, assinaturae grupo de recursos. Na seção ações, escolha um nome de ação e selecione email/SMS/Push/voz como o tipo de ação.

Observação

Há várias outras ações que um alerta pode disparar além de um Email/SMS/Push/voz, como uma Função do Azure, LogicApp, Webhook, ITSM e Runbook de automação. Saiba mais.

Isso abrirá Email/SMS/Push/Voice. Escolha um Nome para o destinatário, marque a caixa Email e digite um endereço de email para o qual você deseja que o alerta seja enviado. Selecione OK em Email/SMS/Push/voze, em seguida, em Adicionar grupo de ação para concluir a configuração do grupo de ação.

Alert rule creates add action group.

Depois que essas folhas forem fechadas, você deverá ver o grupo de ação listado na seção Grupos de ações. Por fim, conclua a seção Detalhes do alerta digitando um nome e uma Descrição da regra de alerta e escolhendo uma Severidade. Clique em Criar regra de alerta para concluir.

Portal creates alert rule finish.

Dica

A capacidade de especificar a Severidade é uma ferramenta poderosa que pode ser usada durante a criação de vários alertas. Por exemplo, você pode criar um alerta para gerar um aviso (Sev 1) se um único nó de cabeçalho ficar inativo e outro alerta que gere Crítico (Sev 0) no caso improvável de ambos os nós de cabeçalho ficarem inativos.

Quando a condição desse alerta for atendida, o alerta será acionado e você receberá um email com os detalhes do alerta como este:

Azure Monitor alert email example.

Você também pode exibir todos os alertas que foram disparados, agrupados por severidade, acessando Alertas em seu Espaço de trabalho do log Analytics.

Log Analytics workspace alerts.

Selecionar em um agrupamento de severidade (ou seja, Sev 1, como realçado acima) mostrará os registros de todos os alertas dessa severidade que foram disparados da seguinte maneira:

Log Analytics workspace sev one alert.

Próximas etapas