Partilhar via


Monitorizar o desempenho, o estado de funcionamento e a utilização do Azure Data Explorer com métricas

As métricas do Azure Data Explorer fornecem indicadores-chave sobre o estado de funcionamento e o desempenho dos recursos do cluster do Azure Data Explorer. Utilize as métricas detalhadas neste artigo para monitorizar a utilização, o estado de funcionamento e o desempenho do cluster do Azure Data Explorer no seu cenário específico como métricas autónomas. Também pode utilizar as métricas como base para dashboards operacionais do Azure e Alertas do Azure.

Para obter mais informações sobre o Explorador de Métricas do Azure, veja Explorador de Métricas.

Pré-requisitos

Utilizar métricas para monitorizar os recursos do Azure Data Explorer

  1. Inicie sessão no portal do Azure.
  2. No painel esquerdo do cluster do Azure Data Explorer, procure métricas.
  3. Selecione Métricas para abrir o painel de métricas e iniciar a análise no cluster. Procure e selecione métricas no portal do Azure.

Trabalhar no painel de métricas

No painel de métricas, selecione métricas específicas para controlar, escolha como agregar os seus dados e crie gráficos de métricas para ver no dashboard.

Os seletores de Espaço de Nomes de Recursos e Métricas estão pré-selecionados para o cluster do Azure Data Explorer. Os números na imagem seguinte correspondem à lista numerada abaixo. Orientam-no ao longo de diferentes opções na configuração e visualização das suas métricas.

Painel Métricas.

  1. Para criar um gráfico de métricas, selecione Nome da métrica e Agregação relevante por métrica. Para obter mais informações sobre métricas diferentes, veja métricas suportadas do Azure Data Explorer.
  2. Selecione Adicionar métrica para ver várias métricas desenhadas no mesmo gráfico.
  3. Selecione + Novo gráfico para ver vários gráficos numa única vista.
  4. Utilize o seletor de tempo para alterar o intervalo de tempo (predefinição: últimas 24 horas).
  5. Utilize Adicionar filtro e Aplicar divisão para métricas que tenham dimensões.
  6. Selecione Afixar ao dashboard para adicionar a configuração do gráfico aos dashboards para que possa vê-lo novamente.
  7. Defina Nova regra de alerta para visualizar as métricas com os critérios definidos. A nova regra de alerta incluirá o recurso de destino, a métrica, a divisão e as dimensões de filtro do gráfico. Modifique estas definições no painel de criação de regras de alerta.

Métricas de Data Explorer do Azure suportadas

As métricas do Azure Data Explorer fornecem informações sobre o desempenho geral e a utilização dos seus recursos, bem como informações sobre ações específicas, como ingestão ou consulta. As métricas neste artigo foram agrupadas por tipo de utilização.

Os tipos de métricas são:

Para obter uma lista alfabética das métricas do Azure Monitor para o Azure Data Explorers, veja Métricas suportadas do cluster do Azure Data Explorer.

Métricas do cluster

As métricas do cluster controlam o estado de funcionamento geral do cluster. Por exemplo, utilização de recursos e ingestão e capacidade de resposta.

Métrica Unidade Agregação Descrição da métrica Dimensões
Utilização da cache (preterida) Percentagem Média, Máx. Percentagem de recursos de cache alocados atualmente em utilização pelo cluster. A cache é o tamanho do SSD alocado para a atividade do utilizador de acordo com a política de cache definida.

Uma utilização de cache média de 80% ou menos é um estado sustentável para um cluster. Se a utilização média da cache for superior a 80%, o cluster deve ser
aumentado verticalmente para um escalão de preço otimizado para armazenamento ou
aumentado horizontalmente para mais instâncias. Em alternativa, adapte a política de cache para menos dias na cache. Se a utilização da cache for superior a 100%, o tamanho dos dados a colocar em cache é superior ao tamanho total da cache no cluster.
Esta métrica foi preterida e apresentada apenas para retrocompatibilidade. Em alternativa, utilize a métrica "Fator de utilização da cache".
Nenhuma
Fator de utilização da cache Percentagem Média, Máx. Percentagem de espaço em disco utilizado dedicado à cache frequente no cluster.
100% significa que o espaço em disco atribuído aos dados frequentes é idealmente utilizado. Não é necessária nenhuma ação e o cluster está totalmente bem.
Menos de 100% significa que o espaço em disco atribuído aos dados frequentes não é totalmente utilizado.
Mais de 100% significa que o espaço em disco do cluster não é grande o suficiente para acomodar os dados frequentes, conforme definido pelas políticas de colocação em cache. Para garantir que existe espaço suficiente disponível para todos os dados frequentes, a quantidade de dados frequentes tem de ser reduzida ou o cluster tem de ser aumentado horizontalmente. Recomendamos que ative o dimensionamento automático.
Nenhuma
CPU Percentagem Média, Máx. Percentagem de recursos de computação alocados atualmente em utilização pelos computadores no cluster.

Uma CPU média de 80% ou menos é sustentável para um cluster. O valor máximo da CPU é 100%, o que significa que não há recursos de computação adicionais para processar dados.
Quando um cluster não está a ter um bom desempenho, verifique o valor máximo da CPU para determinar se existem CPUs específicas bloqueadas.
Nenhuma
Utilização da ingestão Percentagem Média, Máx. Percentagem de recursos reais utilizados para ingerir dados do total de recursos alocados, na política de capacidade, para realizar a ingestão. A política de capacidade predefinida não tem mais de 512 operações de ingestão simultâneas ou 75% dos recursos de cluster investidos na ingestão.

Uma utilização de ingestão média de 80% ou menos é um estado sustentável para um cluster. O valor máximo de utilização de ingestão é 100%, o que significa que é utilizada toda a capacidade de ingestão de clusters e pode resultar uma fila de ingestão.
Nenhuma
InstanceCount de palavras Média Contagem total de instâncias.
Mantenha-se vivo de palavras Média Controla a capacidade de resposta do cluster.

Um cluster totalmente responsivo devolve o valor 1 e um cluster bloqueado ou desligado devolve 0.
Número total de comandos limitados de palavras Média, Máx, Mínimo, Soma O número de comandos limitados (rejeitados) no cluster, uma vez que foi atingido o número máximo permitido de comandos simultâneos (paralelos). Nenhuma
Número total de extensões de palavras Média, Máx, Mínimo, Soma Número total de extensões de dados no cluster.

As alterações nesta métrica podem implicar alterações massivas na estrutura de dados e uma carga elevada no cluster, uma vez que a intercalação de extensões de dados é uma atividade intensiva da CPU.
Nenhuma
Latência do seguidor Milissegundos Média, Máx. As bases de dados de seguidores sincronizam as alterações nas bases de dados leader. Devido à sincronização, existe um atraso de dados de alguns segundos a alguns minutos na disponibilidade de dados.

Esta métrica mede a duração do atraso de tempo. O desfasamento de tempo depende de vários fatores, como: o tamanho geral e a taxa dos dados ingeridos para o líder, o número de bases de dados seguidas, a taxa de operações internas realizadas no líder (operações de intercalação/reconstrução).

Trata-se de uma métrica ao nível do cluster: os seguidores capturam metadados de todas as bases de dados que são seguidas. Esta métrica representa a latência do processo.
Nenhuma

Exportar métricas

As métricas de exportação monitorizam o estado de funcionamento geral e o desempenho das operações de exportação, como latência, resultados, número de registos e utilização.

Métrica Unidade Agregação Descrição da métrica Dimensões
Número de exportação contínua de registos exportados de palavras Soma O número de registos exportados em todas as tarefas de exportação contínua. ContinuousExportName
Latência máxima da exportação contínua de palavras Máx A latência (em minutos) comunicada pelas tarefas de exportação contínua no cluster. Nenhuma
Contagem de exportação contínua pendente de palavras Máx O número de tarefas de exportação contínua pendentes. Estas tarefas estão prontas para serem executadas, mas em espera numa fila, possivelmente devido a capacidade insuficiente).
Resultado de exportação contínua de palavras de palavras O resultado de Falha/Êxito de cada execução de exportação contínua. ContinuousExportName
Exportar utilização Percentagem Máx Capacidade de exportação utilizada, fora da capacidade total de exportação no cluster (entre 0 e 100). Nenhuma

Métricas de ingestão

As métricas de ingestão monitorizam o estado de funcionamento geral e o desempenho das operações de ingestão, como latência, resultados e volume. Para refinar a sua análise:

  • Aplicar filtros a gráficos para desenhar dados parciais por dimensões. Por exemplo, explore a ingestão para um específico Database.
  • Aplicar a divisão a um gráfico para visualizar dados por diferentes componentes. Este processo é útil para analisar métricas comunicadas por cada passo do pipeline de ingestão, por exemplo Blobs received.
Métrica Unidade Agregação Descrição da métrica Dimensões
Contagem de blobs do Batch de palavras Média, Máx. Número de origens de dados num lote concluído para ingestão. Base de Dados
Duração do lote Segundos Média, Máx. A duração da fase de criação de lotes no fluxo de ingestão. Base de Dados
Tamanho do lote Bytes Média, Máx. Tamanho de dados esperado não comprimido num lote agregado para ingestão. Base de Dados
Lotes processados de palavras Soma, Máx. Número de lotes concluídos para ingestão.
Batching Type: o acionador para selar um lote.
Para obter uma lista completa dos tipos de lotes, veja Tipos de batching.
Base de Dados, Tipo de Batching
Blobs recebidos de palavras Soma, Máx. Número de blobs recebidos do fluxo de entrada por um componente.

Utilize aplicar divisão para analisar cada componente.
Base de dados, Tipo de Componente, Nome do Componente
Blobs processados de palavras Soma, Máx. Número de blobs processados por um componente.

Utilize aplicar divisão para analisar cada componente.
Base de dados, Tipo de Componente, Nome do Componente
Blobs removidos de palavras Sum, Max, Min Número de blobs removidos permanentemente por um componente. Para cada um desses blobs, é enviada uma Ingestion result métrica com um motivo de falha.

Utilize aplicar a divisão para analisar cada componente.
Base de Dados, Tipo de Componente, Nome do Componente
Latência de deteção Segundos Média Tempo a partir da fila de dados até à deteção por ligações de dados. Desta vez, não está incluído na Latência de fase ou nas métricas de latência de ingestão .

A latência de deteção pode aumentar nas seguintes situações:
  • Quando são utilizadas ligações de dados entre regiões.

  • Nas ligações de dados dos Hubs de Eventos, se o número de partições dos Hubs de Eventos não for suficiente para o volume de saída de dados.
Tipo de Componente, Nome do Componente
Eventos recebidos de palavras Sum, Max, Min Número de eventos recebidos por ligações de dados do fluxo de entrada. Tipo de Componente, Nome do Componente
Eventos processados de palavras Sum, Max, Min Número de eventos processados por ligações de dados. Tipo de Componente, Nome do Componente
Eventos removidos de palavras Sum, Max, Min Número de eventos removidos permanentemente pelas ligações de dados. Para cada evento, é enviada uma Ingestion result métrica com um motivo de falha. Tipo de Componente, Nome do Componente
Eventos processados (para Hubs de Eventos/IoT) (preteridos) de palavras Máx., Mín. Número total de eventos lidos a partir do Hub de Eventos/Hub IoT e processados pelo cluster. Estes eventos podem ser divididos pelo estado: Recebido, Rejeitado, Processado.
Esta métrica foi preterida e apresentada apenas para retrocompatibilidade. Utilize as métricas "Eventos recebidos", "Eventos processados" e "Eventos removidos".
Estado
Latência da ingestão Segundos Média, Máx. Latência de dados ingeridos, desde o momento em que os dados foram recebidos no cluster até que estejam preparados para consulta. O período de latência de ingestão depende do cenário de ingestão.
Ingestion Kind: Ingestão de Transmissão em Fluxo ou Ingestão em Fila
Tipo de Ingestão
Resultado da ingestão de palavras Soma Número total de origens que falharam ou conseguiram ser ingeridas.
Status: êxito da ingestão com êxito ou da categoria de falha para falhas. Para obter uma lista completa das categorias de possíveis falhas, veja Códigos de erro de ingestão no Azure Data Explorer.
Failure Status Type: se a falha é permanente ou transitória. Para a ingestão com êxito, esta dimensão é None.

Nota:
  • Os Hubs de Eventos e Hub IoT eventos de ingestão são pré-agregados num único blob e, em seguida, tratados como uma única origem a ingerir. Por conseguinte, os eventos pré-agregados aparecem como um único resultado de ingestão após a pré-agregação.

  • As falhas transitórias são repetidas internamente um número limitado de vezes. Cada falha transitória é reportada como um resultado de ingestão transitório. Por conseguinte, uma ingestão única pode resultar em mais do que um resultado de ingestão.
Estado, Tipo de Estado de Falha
Volume de ingestão (em MB) de palavras Máximo, Soma O tamanho total dos dados ingeridos no cluster (em MB) antes da compressão. Base de Dados
Comprimento da fila de palavras Média Número de mensagens pendentes na fila de entrada de um componente. O componente do gestor de batches tem uma mensagem por blob. O componente do gestor de ingestão tem uma mensagem por lote. Um lote é um único comando de ingestão com um ou mais blobs. Tipo de Componente
Mensagem mais antiga da fila Segundos Média Tempo em segundos a partir do momento em que a mensagem mais antiga na fila de entrada de um componente foi inserida. Tipo de Componente
Bytes de tamanho de dados recebidos Bytes Média, Soma Tamanho dos dados recebidos pelas ligações de dados do fluxo de entrada. Tipo de Componente, Nome do Componente
Latência de fase Segundos Média O tempo a partir do momento em que uma mensagem é aceite pelo Azure Data Explorer, até que o respetivo conteúdo seja recebido por um componente de ingestão para processamento.

Utilize aplicar filtros e selecione Tipo > de Componente StorageEngine para mostrar a latência total da ingestão.
Base de Dados, Tipo de Componente

Métricas de ingestão de transmissão em fluxo

As métricas de ingestão de transmissão em fluxo controlam os dados de ingestão de transmissão em fluxo e a taxa de pedidos, a duração e os resultados.

Métrica Unidade Agregação Descrição da métrica Dimensões
Velocidade dos Dados na Ingestão de Transmissão em Fluxo de palavras RateRequestsPerSecond Volume total de dados ingeridos no cluster. Nenhuma
Duração da Ingestão de Transmissão em Fluxo Milissegundos Média, Máx. Duração total de todos os pedidos de ingestão de transmissão em fluxo. Nenhuma
Velocidade dos Pedidos na Ingestão de Transmissão em Fluxo de palavras Contagem, Média, Máx, Mínimo, Soma Número total de pedidos de ingestão de transmissão em fluxo. Nenhuma
Resultado da Ingestão de Transmissão em Fluxo de palavras Média Número total de pedidos de ingestão de transmissão em fluxo por tipo de resultado. Resultado

Métricas de consulta

As métricas de desempenho das consultas monitorizam a duração da consulta e o número total de consultas simultâneas ou limitadas.

Métrica Unidade Agregação Descrição da métrica Dimensões
Duração da consulta Milissegundos Média, Mínimo, Máx. Tempo total até que os resultados da consulta sejam recebidos (não inclui latência de rede). QueryStatus
QueryResult de palavras de palavras Número total de consultas. QueryStatus
Número total de consultas simultâneas de palavras Média, Máx, Mínimo, Soma O número de consultas executadas em paralelo no cluster. Esta métrica é uma boa forma de estimar a carga no cluster. Nenhuma
Número total de consultas limitadas de palavras Média, Máx, Mínimo, Soma O número de consultas limitadas (rejeitadas) no cluster. O número máximo de consultas simultâneas (paralelas) permitidas é definido na política de limite de taxa de pedidos. Nenhuma

Métricas de vista materializadas

Métrica Unidade Agregação Descrição da métrica Dimensões
MaterializedViewHealth 1, 0 Média O valor é 1 se a vista for considerada em bom estado de funcionamento, caso contrário, 0. Base de dados, MaterializedViewName
MaterializedViewAgeSeconds Segundos Média A age vista é definida pela hora atual menos o último tempo de ingestão processado pela vista. O valor da métrica é tempo em segundos (quanto menor for o valor, a vista é "mais saudável"). Base de dados, MaterializedViewName
MaterializedViewResult 1 Média A métrica inclui uma Result dimensão que indica o resultado do último ciclo de materialização (veja a métrica MaterializedViewResult para obter detalhes sobre valores possíveis). O valor da métrica é sempre igual a 1. Base de dados, MaterializedViewName, Resultado
MaterializedViewRecordsInDelta Contagem de registos Média O número de registos atualmente na parte não processada da tabela de origem. Para obter mais informações, veja como funcionam as vistas materializadas Base de dados, MaterializedViewName
MaterializedViewExtentsRebuild Contagem de extensões Média O número de extensões que exigiram atualizações no ciclo de materialização. Base de dados, MaterializedViewName
MaterializedViewDataLoss 1 Máx A métrica é acionada quando os dados de origem não processados se aproximam da retenção. Indica que a vista materializada está em mau estado de funcionamento. Base de dados, MaterializedViewName, Kind