Compartilhar via


Monitoramento da atividade da conta com tabelas do sistema

Este artigo explica o conceito de tabelas do sistema no Azure Databricks e realça os recursos que você pode usar para aproveitar ao máximo os dados das tabelas do sistema.

O que são tabelas do sistema?

As tabelas do sistema são um armazenamento analítico hospedado no Azure Databricks dos dados operacionais de sua conta, encontrados no catálogo system. As tabelas do sistema podem ser usadas para observabilidade histórica em sua conta.

Observação

Para obter a documentação sobre system.information_schema, consulte o esquema de informações.

Requisitos

  • Para acessar as tabelas do sistema, seu workspace deve estar habilitado para o Catálogo do Unity. Para obter mais informações, consulte as tabelas do sistema do Access.
  • As tabelas do sistema não estão disponíveis nas seguintes regiões:
    • Regiões do Azure na China
    • Regiões do Azure Governamental
    • Oeste da Índia
    • Oeste da Suíça

Quais tabelas do sistema estão disponíveis?

Atualmente, o Azure Databricks hospeda as seguintes tabelas do sistema:

Tabela Descrição Localização Dá suporte ao streaming Período de retenção gratuito Inclui dados globais ou regionais
Logs de auditoria (versão preliminar pública) Inclui registros para todos os eventos de auditoria de workspaces em sua região. Para obter uma lista dos eventos de auditoria disponíveis, confira Referência do log de diagnóstico. system.access.audit Sim 365 dias Regional para eventos no nível do workspace. Global para eventos de nível de conta.
Linhagem de tabela Inclui um registro para cada evento de leitura ou gravação em uma tabela ou caminho do Unity Catalog. system.access.table_lineage Sim 365 dias Regional
Linhagem de coluna Inclui um registro para cada evento de leitura ou gravação em uma coluna do Catálogo do Unity (mas não inclui eventos que não têm uma origem). system.access.column_lineage Sim 365 dias Regional
Uso faturável Inclui registros de todo o uso faturável em sua conta. system.billing.usage Sim 365 dias Global
Preços Um log histórico de preços de SKU. Um registro é adicionado sempre que há uma alteração em um preço de SKU. system.billing.list_prices Não Indefinida Global
Clusters Uma tabela de dimensões de alteração lenta que contém o histórico completo de configurações de computação ao longo do tempo para qualquer cluster. system.compute.clusters Sim 365 dias Regional
Linha do tempo do nó Captura as métricas de utilização dos recursos de computação de todos os seus trabalhos e para todos os fins. system.compute.node_timeline Sim 90 dias Regional
Tipos de nós Captura os tipos de nós atualmente disponíveis com suas informações básicas de hardware. system.compute.node_types Não Indefinida Regional
SQL Warehouses (Visualização Pública) Contém o histórico completo de configurações ao longo do tempo para qualquer SQL warehouse. system.compute.warehouses Sim 365 dias Regional
Eventos do SQL warehouse (versão preliminar pública) Captura eventos relacionados a SQL warehouses. Por exemplo, iniciar, parar, executar, escalar verticalmente e reduzir verticalmente. system.compute.warehouse_events Sim 365 dias Regional
Trabalhos (versão preliminar pública) Rastreia todos os trabalhos criados na conta. system.lakeflow.jobs Sim 365 dias Regional
Tarefas de trabalho (versão preliminar pública) Rastreia todas as tarefas de trabalho executadas na conta. system.lakeflow.job_tasks Sim 365 dias Regional
Linha do tempo de execução do trabalho (versão preliminar pública) Rastreia os horários de início e término das execuções de trabalhos. system.lakeflow.
job_run_timeline
Sim 365 dias Regional
Linha do tempo da tarefa de trabalho (versão preliminar pública) Rastreia os horários de início e término e calcula os recursos usados ​​para execuções de tarefas de trabalho. system.lakeflow.
job_task_run_timeline
Sim 365 dias Regional
Pipelines (versão prévia pública) Rastreia todos os pipelines criados na conta. system.lakeflow.pipelines Sim 365 dias Regional
Eventos de pipeline do Marketplace (versão preliminar pública) Inclui a impressão do consumidor e os dados de funil para suas listagens. system.marketplace.listing_
funnel_events
Sim 365 dias Regional
Acesso à listagem do Marketplace (versão preliminar pública) Inclui informações do consumidor para eventos solicitar dados ou obter dados concluídos em suas listagens. system.marketplace.listing_
access_events
Sim 365 dias Regional
Otimização preditiva (versão preliminar pública) Controla o histórico de operações do recurso de otimização preditiva. system.storage.predictive_
optimization_operations_history
Não 180 dias Regional
Eventos do Assistente do Databricks (versão preliminar pública) Rastreia as mensagens do usuário enviadas ao Assistente do Databricks. system.access.assistant_events Não 365 dias Regional
Histórico de consultas (versão preliminar pública) Captura registros de todas as consultas executadas em SQL warehouses e na computação sem servidor para blocos de anotações e trabalhos. system.query.history Não 180 dias Regional
Eventos do Clean room (versão preliminar pública) Captura eventos relacionados ao clean rooms. system.access.clean_room_events Sim 365 dias Regional
Uso do ponto de extremidade de serviço do modelo (versão preliminar pública) Captura contagens de tokens para cada solicitação a um endpoint de serviço do modelo e as respostas dele. Para capturar o uso do endpoint nesta tabela, você deve habilitar o acompanhamento de uso no endpoint de serviço. system.serving.endpoint_usage. Sim 90 dias Regional
Dados do ponto de extremidade de serviço do modelo (versão preliminar pública) Uma tabela de dimensão com alteração lenta que armazena metadados sobre cada modelo de base servido em um ponto de extremidade do Serviço de Modelo. system.serving.served_entities Sim 365 dias Regional
Eventos de acesso à rede (versão preliminar pública) Uma tabela que registra um evento toda vez que o acesso à internet é negado da sua conta. system.access.outbound_network Sim 365 dias Regional
Eventos de materialização de dados do Delta Sharing Captura eventos de materialização de dados criados a partir de exibição, exibição materializada e compartilhamento de tabelas de streaming. system.sharing.materialization_history Sim 365 dias Regional para eventos no nível do workspace.
Workspaces (visualização pública) A tabela workspaces_latest é uma tabela de dimensão de metadados de mudança lenta para todos os espaços de trabalho na conta. system.access.workspaces_latest Não Indefinida Global

As tabelas de uso passível de faturamento e de preços são gratuitas para uso. As tabelas na Visualização Pública também são gratuitas para usar durante a visualização, mas podem incorrer em um custo no futuro.

Observação

Você pode ver outras tabelas do sistema em sua conta além das listadas acima. Essas tabelas estão atualmente em Versão Prévia Privada e estão vazias por padrão. Se você estiver interessado em usar qualquer uma dessas tabelas, entre em contato com sua equipe de conta do Databricks.

Relações de tabelas do sistema

O diagrama de relação de entidade a seguir descreve como as tabelas do sistema atualmente disponíveis se relacionam entre si. Este diagrama realça as chaves primárias e estrangeiras de cada tabela.

Diagrama de relação de entidade das tabelas do sistema Databricks

Acessar tabelas do sistema

Como as tabelas do sistema são governadas pelo Catálogo do Unity, você precisa ter pelo menos um workspace habilitado para Catálogo do Unity em sua conta para acessar as tabelas do sistema da sua conta. As tabelas do sistema incluem dados de todos os espaços de trabalho da sua conta, mas só podem ser acessadas a partir de um espaço de trabalho habilitado para o Unity Catalog.

O metastore precisa estar no Modelo de Privilégio do Catálogo do Unity versão 1.0 para acessar tabelas do sistema. Consulte Atualizar para a herança de privilégios.

Observação

Os esquemas marketplace e materialization_history devem ser habilitados manualmente. Outros esquemas serão habilitados por padrão.

Conceder acesso a tabelas do sistema

O acesso às tabelas do sistema é regido pelo Catálogo do Unity. Nenhum usuário tem acesso a esses esquemas do sistema por padrão. Para conceder acesso, um usuário que seja um administrador do metastore e um administrador de contas deve conceder as USE e SELECT permissões nos esquemas do sistema. Consulte Gerenciar privilégios no Catálogo do Unity.

As tabelas do sistema são somente leitura e não podem ser modificadas.

Observação

Se a sua conta foi criada após 9 de novembro de 2023, talvez você não tenha um administrador de metastore por padrão. Para obter mais informações, consulte Introdução ao Catálogo do Unity.

As tabelas do sistema contêm dados de todos os workspaces na sua conta?

As tabelas do sistema contêm dados operacionais para todos os workspaces em sua conta implantados na mesma região de nuvem. Algumas tabelas incluem dados globais. Para obter detalhes, consulte a lista de tabelas disponíveis.

Embora as tabelas do sistema só possam ser acessadas por meio de um espaço de trabalho do Unity Catalog, elas incluem dados operacionais de espaços de trabalho que não são do Unity Catalog em sua conta.

Onde os dados da tabela do sistema são armazenados?

Os dados da tabela do sistema da sua conta são armazenados em uma conta de armazenamento hospedada no Azure Databricks localizada na mesma região que o metastore. Os dados são compartilhados em segurança com o uso do Compartilhamento Delta.

Cada tabela tem um período de retenção de dados gratuito. Para obter informações sobre como estender o período de retenção, entre em contato com a equipe de conta do Azure Databricks.

Onde estão as tabelas do sistema localizadas no Gerenciador de Catálogos?

As tabelas do sistema em sua conta estão localizadas em um catálogo chamado system, que está incluído em cada metastore do Unity Catalog. system No catálogo, você verá esquemas como access e billing que contêm as tabelas do sistema.

Considerações sobre tabelas do sistema de streaming

O Azure Databricks usa o compartilhamento Delta para compartilhar dados da tabela do sistema com os clientes. Esteja ciente das seguintes considerações ao transmitir com o Compartilhamento Delta:

  • Se você estiver usando streaming com tabelas do sistema, defina a opção skipChangeCommits como true. Isso garante que o trabalho de streaming não seja interrompido por exclusões nas tabelas do sistema. Consulte Ignorar atualizações e exclusões.
  • Trigger.AvailableNow não é suportado com o streaming do Compartilhamento Delta. Ele será convertido em Trigger.Once.

Se você usar um gatilho em seu trabalho de streaming e descobrir que ele não está atualizando a versão mais recente da tabela do sistema, o Databricks recomenda aumentar a frequência agendada do trabalho.

Ler alterações incrementais de tabelas do sistema de streaming

spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")

Problemas conhecidos

  • Novas colunas podem ser adicionadas às tabelas do sistema existentes a qualquer momento. As consultas que dependem de um esquema fixo poderão ser interrompidas se novas colunas forem introduzidas. As colunas existentes não serão alteradas nem removidas. Se você estiver escrevendo dados de tabela do sistema em outra tabela de destino, considere habilitar a evolução do esquema.
  • Não há suporte para monitoramento em tempo real. Os dados são atualizados ao longo do dia. Se não vir um log para um evento recente, verifique novamente depois.
  • O esquema de tabela do sistema __internal_logging dá suporte ao registro de payload usando tabelas de inferência habilitadas para Gateway de IA para modelos externos e workloads com taxa de transferência provisionada. Esse esquema é visível para administradores de conta, mas não pode ser habilitado e não deve ser usado para fluxos de trabalho do cliente.
  • Para habilitar tabelas do sistema, talvez seja necessário conceder acesso à rede para o ponto de extremidade de armazenamento de blobs das tabelas do sistema. Para visualizar uma lista dos pontos de extremidade de armazenamento das tabelas do sistema de cada região, consulte Endereços IP dos pontos de extremidade de armazenamento.
  • Os esquemas system.operational_datasystem.lineage do sistema são preteridos e conterão tabelas vazias.