Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este artigo explica como usar a ferramenta de métricas de computação nativa na interface do usuário do Azure Databricks para coletar hardware chave e métricas do Spark. A interface de utilizador das métricas está disponível para cálculos gerais e tarefas.
As métricas estão disponíveis quase em tempo real com um atraso normal de menos de um minuto. As métricas são armazenadas no armazenamento gerenciado pelo Azure Databricks, não no armazenamento do cliente.
A computação sem servidor para blocos de anotações e trabalhos usa insights de consulta em vez da interface do usuário de métricas. Para mais informações sobre métricas de computação sem servidor, veja Ver insights da consulta.
Aceder à interface de utilizador de métricas de computação
Para exibir a interface de métricas de cálculo:
- Clique em Calcular na barra lateral.
- Clique no recurso de computação para o qual deseja visualizar as métricas.
- Clique na guia Métricas .
As métricas de hardware para todos os nós são mostradas por padrão. Para visualizar as métricas do Spark, clique no menu suspenso Hardware e selecione Spark. Você também pode selecionar GPU se a instância estiver habilitada para GPU.
Filtrar métricas por período de tempo
Você pode visualizar métricas históricas selecionando um intervalo de tempo usando o filtro do seletor de datas. As métricas são coletadas a cada minuto, para que você possa filtrar por qualquer intervalo de dia, hora ou minuto dos últimos 30 dias. Clique no ícone de calendário para selecionar entre intervalos de dados predefinidos ou clique dentro da caixa de texto para definir valores personalizados.
Nota
Os intervalos de tempo exibidos nos gráficos são ajustados com base no período de tempo que você está visualizando. A maioria das métricas são médias baseadas no intervalo de tempo que você está visualizando no momento.
Você também pode obter as métricas mais recentes clicando no botão Atualizar .
Visualizar métricas ao nível do nó
Por defeito, a página de métricas mostra-lhe as métricas de todos os nós dentro de um cluster (incluindo o driver) com a média ao longo do período de tempo.
Pode visualizar métricas para nós individuais ao clicar no menu suspenso Todos os nós e selecionar o nó para o qual deseja visualizar as métricas. As métricas da GPU só estão disponíveis no nível do nó individual. As métricas do Spark não estão disponíveis para nódulos individuais.
Para ajudar a identificar quaisquer nós atípicos dentro do cluster, pode também visualizar métricas de todos os nós individuais numa única página. Para aceder a esta vista, clique no menu suspenso Todos os nós e selecione Por nó, depois, selecione a subcategoria de métricas que pretende visualizar.
Gráficos métricos de hardware
Os seguintes gráficos de métricas de hardware estão disponíveis para exibição na interface do usuário de métricas de computação:
-
Utilização da CPU e nós ativos: O gráfico de linhas mostra o número de nós ativos em cada instante de tempo para o processamento dado. O gráfico de barras mostra a percentagem de tempo que a CPU passou em cada modo, com base no custo total de segundos da CPU. A seguir estão os modos rastreados:
-
guest: Se estiveres a executar VMs, o CPU que essas VMs usam -
iowait: Tempo gasto à espera de I/O -
idle: Tempo em que a CPU não tinha nada a fazer -
irq: Tempo gasto em pedidos de interrupção -
nice: Tempo utilizado por processos que têm um valor de bondade positivo, ou seja, uma prioridade inferior a outras tarefas -
softirq: Tempo gasto em pedidos de interrupção de software -
steal: Se for uma VM, o tempo que outras VMs "roubaram" dos seus processadores -
system: O tempo passado no núcleo -
user: O tempo passado em Userland
-
-
Utilização da memória do contentor: A memória consumida pelo contentor Spark, média entre todos os nós aplicáveis. Inclui médias de memória não recuperável (
Container memory used), a cache da página de ficheiros do sistema operativo (Container memory file cache), e o limite de memória configurado (Container memory limit). - Utilização do heap da JVM: A utilização da memória do heap da JVM, distribuída em média por todos os nós aplicáveis. Inclui as médias do uso real do heap, da capacidade do heap e do limite máximo configurado para o heap.
- Rede recebida e transmitida: O número de bytes recebidos e transmitidos através da rede por cada dispositivo.
- Espaço livre do sistema de ficheiros: O uso total do sistema de ficheiros por cada ponto de montagem, medido em bytes.
Clique em Utilização de Memória do Nó na parte inferior da aba de Hardware para expandir o seguinte gráfico adicional:
-
Utilização e troca de memória: O gráfico de linhas mostra o uso total de troca de memória por modo, medido em bytes. O gráfico de barras mostra o uso total de memória por modo, também medido em bytes. Os seguintes tipos de uso são rastreados:
-
used: Memória total ao nível do sistema operativo em uso, incluindo memória usada por processos em segundo plano a correr numa computação. Como o driver e os processos em segundo plano utilizam memória, a utilização pode aparecer mesmo quando não há trabalhos Spark a correr. -
other: Memória em uso para fins diferentes deused,buffer, oucached -
buffer: Memória utilizada por buffers do kernel -
cached: Memória usada pela cache do sistema de ficheiros ao nível do sistema operativo -
free: Memória não utilizada. Tudo o que não for atribuído a uma das categorias acima no gráfico é gratuito.
-
Gráficos de métricas do Spark
Os seguintes gráficos de métricas do Spark estão disponíveis para exibição na interface do usuário de métricas de computação:
- Distribuição de carga do servidor: Estes tiles mostram a utilização da CPU ao longo do último minuto para cada nó no recurso de computação. Cada mosaico é um link clicável para a página de métricas do nó individual.
- Tarefas ativas: O número total de tarefas a serem executadas em qualquer momento.
- Total de tarefas falhadas: O número total de tarefas que falharam nos executores.
- Total de tarefas concluídas: O número total de tarefas concluídas nos executores.
- Número total de tarefas: O número total de todas as tarefas (em execução, falhadas e concluídas) nos executores.
-
Leitura total do shuffle: O tamanho total dos dados lidos no shuffle, medido em bytes.
Shuffle readsignifica o total dos dados de leitura serializados em todos os executores no início de uma fase. -
Escrita total de shuffle: O tamanho total dos dados de escrita de shuffle, medido em bytes.
Shuffle Writeé a soma de todos os dados serializados escritos em todos os executores antes da transmissão (normalmente no final de um estágio). - Duração total da tarefa: O tempo total decorrido pela JVM a executar tarefas nos executores, medido em segundos.
Gráficos métricos da GPU
Nota
As métricas da GPU só estão disponíveis no Databricks Runtime ML 13.3 e superior.
Os seguintes gráficos de métricas da GPU estão disponíveis para exibição na interface do usuário de métricas de computação:
- Distribuição de carga do servidor: este gráfico mostra a utilização da CPU no último minuto para cada nó.
- Utilização do descodificador por GPU: A percentagem de utilização do descodificador de cada GPU.
- Utilização do codificador por GPU: O percentual de utilização do codificador da GPU.
- Utilização de memória do buffer de imagem por GPU em bytes: A utilização de memória do buffer de imagem, medida em bytes.
- Utilização de memória Per-GPU: A percentagem de utilização de memória da GPU.
- Utilização por GPU: A percentagem de utilização de cada GPU.
Resolução de Problemas
Se você vir métricas incompletas ou ausentes por um período, pode ser um dos seguintes problemas:
- Uma interrupção no serviço Databricks responsável por consultar e armazenar métricas.
- Problemas de rede do lado do cliente.
- A computação está ou estava num estado de falha.