Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo explica o conceito de tabelas do sistema no Azure Databricks e realça os recursos que você pode usar para aproveitar ao máximo os dados das tabelas do sistema.
O que são tabelas do sistema?
As tabelas do sistema são um armazenamento analítico hospedado no Azure Databricks dos dados operacionais de sua conta, encontrados no catálogo system
. As tabelas do sistema podem ser usadas para observabilidade histórica em sua conta.
Observação
Para obter a documentação sobre system.information_schema
, consulte o esquema de informações.
Requisitos
- Para acessar as tabelas do sistema, seu workspace deve estar habilitado para o Catálogo do Unity. Para obter mais informações, consulte as tabelas do sistema do Access.
- As tabelas do sistema não estão disponíveis nas seguintes regiões:
- Regiões do Azure na China
- Regiões do Azure Governamental
- Oeste da Índia
- Oeste da Suíça
Quais tabelas do sistema estão disponíveis?
Atualmente, o Azure Databricks hospeda as seguintes tabelas do sistema:
Tabela | Descrição | Localização | Dá suporte ao streaming | Período de retenção gratuito | Inclui dados globais ou regionais |
---|---|---|---|---|---|
Logs de auditoria (versão preliminar pública) | Inclui registros para todos os eventos de auditoria de workspaces em sua região. Para obter uma lista dos eventos de auditoria disponíveis, confira Referência do log de diagnóstico. | system.access.audit |
Sim | 365 dias | Regional para eventos no nível do workspace. Global para eventos de nível de conta. |
Linhagem de tabela | Inclui um registro para cada evento de leitura ou gravação em uma tabela ou caminho do Unity Catalog. | system.access.table_lineage |
Sim | 365 dias | Regional |
Linhagem de coluna | Inclui um registro para cada evento de leitura ou gravação em uma coluna do Catálogo do Unity (mas não inclui eventos que não têm uma origem). | system.access.column_lineage |
Sim | 365 dias | Regional |
Uso faturável | Inclui registros de todo o uso faturável em sua conta. | system.billing.usage |
Sim | 365 dias | Global |
Preços | Um log histórico de preços de SKU. Um registro é adicionado sempre que há uma alteração em um preço de SKU. | system.billing.list_prices |
Não | Indefinida | Global |
Clusters | Uma tabela de dimensões de alteração lenta que contém o histórico completo de configurações de computação ao longo do tempo para qualquer cluster. | system.compute.clusters |
Sim | 365 dias | Regional |
Linha do tempo do nó | Captura as métricas de utilização dos recursos de computação de todos os seus trabalhos e para todos os fins. | system.compute.node_timeline |
Sim | 90 dias | Regional |
Tipos de nós | Captura os tipos de nós atualmente disponíveis com suas informações básicas de hardware. | system.compute.node_types |
Não | Indefinida | Regional |
SQL Warehouses (Visualização Pública) | Contém o histórico completo de configurações ao longo do tempo para qualquer SQL warehouse. | system.compute.warehouses |
Sim | 365 dias | Regional |
Eventos do SQL warehouse (versão preliminar pública) | Captura eventos relacionados a SQL warehouses. Por exemplo, iniciar, parar, executar, escalar verticalmente e reduzir verticalmente. | system.compute.warehouse_events |
Sim | 365 dias | Regional |
Trabalhos (versão preliminar pública) | Rastreia todos os trabalhos criados na conta. | system.lakeflow.jobs |
Sim | 365 dias | Regional |
Tarefas de trabalho (versão preliminar pública) | Rastreia todas as tarefas de trabalho executadas na conta. | system.lakeflow.job_tasks |
Sim | 365 dias | Regional |
Linha do tempo de execução do trabalho (versão preliminar pública) | Rastreia os horários de início e término das execuções de trabalhos. | system.lakeflow. job_run_timeline |
Sim | 365 dias | Regional |
Linha do tempo da tarefa de trabalho (versão preliminar pública) | Rastreia os horários de início e término e calcula os recursos usados para execuções de tarefas de trabalho. | system.lakeflow. job_task_run_timeline |
Sim | 365 dias | Regional |
Pipelines (versão prévia pública) | Rastreia todos os pipelines criados na conta. | system.lakeflow.pipelines |
Sim | 365 dias | Regional |
Eventos de pipeline do Marketplace (versão preliminar pública) | Inclui a impressão do consumidor e os dados de funil para suas listagens. | system.marketplace.listing_ funnel_events |
Sim | 365 dias | Regional |
Acesso à listagem do Marketplace (versão preliminar pública) | Inclui informações do consumidor para eventos solicitar dados ou obter dados concluídos em suas listagens. | system.marketplace.listing_ access_events |
Sim | 365 dias | Regional |
Otimização preditiva (versão preliminar pública) | Controla o histórico de operações do recurso de otimização preditiva. | system.storage.predictive_ optimization_operations_history |
Não | 180 dias | Regional |
Eventos do Assistente do Databricks (versão preliminar pública) | Rastreia as mensagens do usuário enviadas ao Assistente do Databricks. | system.access.assistant_events |
Não | 365 dias | Regional |
Histórico de consultas (versão preliminar pública) | Captura registros de todas as consultas executadas em SQL warehouses e na computação sem servidor para blocos de anotações e trabalhos. | system.query.history |
Não | 180 dias | Regional |
Eventos do Clean room (versão preliminar pública) | Captura eventos relacionados ao clean rooms. | system.access.clean_room_events |
Sim | 365 dias | Regional |
Uso do ponto de extremidade de serviço do modelo (versão preliminar pública) | Captura contagens de tokens para cada solicitação a um endpoint de serviço do modelo e as respostas dele. Para capturar o uso do endpoint nesta tabela, você deve habilitar o acompanhamento de uso no endpoint de serviço. | system.serving.endpoint_usage . |
Sim | 90 dias | Regional |
Dados do ponto de extremidade de serviço do modelo (versão preliminar pública) | Uma tabela de dimensão com alteração lenta que armazena metadados sobre cada modelo de base servido em um ponto de extremidade do Serviço de Modelo. | system.serving.served_entities |
Sim | 365 dias | Regional |
Eventos de acesso à rede (versão preliminar pública) | Uma tabela que registra um evento toda vez que o acesso à internet é negado da sua conta. | system.access.outbound_network |
Sim | 365 dias | Regional |
Eventos de materialização de dados do Delta Sharing | Captura eventos de materialização de dados criados a partir de exibição, exibição materializada e compartilhamento de tabelas de streaming. | system.sharing.materialization_history |
Sim | 365 dias | Regional para eventos no nível do workspace. |
Workspaces (visualização pública) | A tabela workspaces_latest é uma tabela de dimensão de metadados de mudança lenta para todos os espaços de trabalho na conta. | system.access.workspaces_latest |
Não | Indefinida | Global |
As tabelas de uso passível de faturamento e de preços são gratuitas para uso. As tabelas na Visualização Pública também são gratuitas para usar durante a visualização, mas podem incorrer em um custo no futuro.
Observação
Você pode ver outras tabelas do sistema em sua conta além das listadas acima. Essas tabelas estão atualmente em Versão Prévia Privada e estão vazias por padrão. Se você estiver interessado em usar qualquer uma dessas tabelas, entre em contato com sua equipe de conta do Databricks.
Relações de tabelas do sistema
O diagrama de relação de entidade a seguir descreve como as tabelas do sistema atualmente disponíveis se relacionam entre si. Este diagrama realça as chaves primárias e estrangeiras de cada tabela.
Acessar tabelas do sistema
Como as tabelas do sistema são governadas pelo Catálogo do Unity, você precisa ter pelo menos um workspace habilitado para Catálogo do Unity em sua conta para acessar as tabelas do sistema da sua conta. As tabelas do sistema incluem dados de todos os espaços de trabalho da sua conta, mas só podem ser acessadas a partir de um espaço de trabalho habilitado para o Unity Catalog.
O metastore precisa estar no Modelo de Privilégio do Catálogo do Unity versão 1.0 para acessar tabelas do sistema. Consulte Atualizar para a herança de privilégios.
Observação
Os esquemas marketplace
e materialization_history
devem ser habilitados manualmente. Outros esquemas serão habilitados por padrão.
Conceder acesso a tabelas do sistema
O acesso às tabelas do sistema é regido pelo Catálogo do Unity. Nenhum usuário tem acesso a esses esquemas do sistema por padrão. Para conceder acesso, um usuário que seja um administrador do metastore e um administrador de contas deve conceder as USE
e SELECT
permissões nos esquemas do sistema. Consulte Gerenciar privilégios no Catálogo do Unity.
As tabelas do sistema são somente leitura e não podem ser modificadas.
Observação
Se a sua conta foi criada após 9 de novembro de 2023, talvez você não tenha um administrador de metastore por padrão. Para obter mais informações, consulte Introdução ao Catálogo do Unity.
As tabelas do sistema contêm dados de todos os workspaces na sua conta?
As tabelas do sistema contêm dados operacionais para todos os workspaces em sua conta implantados na mesma região de nuvem. Algumas tabelas incluem dados globais. Para obter detalhes, consulte a lista de tabelas disponíveis.
Embora as tabelas do sistema só possam ser acessadas por meio de um espaço de trabalho do Unity Catalog, elas incluem dados operacionais de espaços de trabalho que não são do Unity Catalog em sua conta.
Onde os dados da tabela do sistema são armazenados?
Os dados da tabela do sistema da sua conta são armazenados em uma conta de armazenamento hospedada no Azure Databricks localizada na mesma região que o metastore. Os dados são compartilhados em segurança com o uso do Compartilhamento Delta.
Cada tabela tem um período de retenção de dados gratuito. Para obter informações sobre como estender o período de retenção, entre em contato com a equipe de conta do Azure Databricks.
Onde estão as tabelas do sistema localizadas no Gerenciador de Catálogos?
As tabelas do sistema em sua conta estão localizadas em um catálogo chamado system
, que está incluído em cada metastore do Unity Catalog. system
No catálogo, você verá esquemas como access
e billing
que contêm as tabelas do sistema.
Considerações sobre tabelas do sistema de streaming
O Azure Databricks usa o compartilhamento Delta para compartilhar dados da tabela do sistema com os clientes. Esteja ciente das seguintes considerações ao transmitir com o Compartilhamento Delta:
- Se você estiver usando streaming com tabelas do sistema, defina a opção
skipChangeCommits
comotrue
. Isso garante que o trabalho de streaming não seja interrompido por exclusões nas tabelas do sistema. Consulte Ignorar atualizações e exclusões. -
Trigger.AvailableNow
não é suportado com o streaming do Compartilhamento Delta. Ele será convertido emTrigger.Once
.
Se você usar um gatilho em seu trabalho de streaming e descobrir que ele não está atualizando a versão mais recente da tabela do sistema, o Databricks recomenda aumentar a frequência agendada do trabalho.
Ler alterações incrementais de tabelas do sistema de streaming
spark.readStream.option("skipChangeCommits", "true").table("system.billing.usage")
Problemas conhecidos
- Novas colunas podem ser adicionadas às tabelas do sistema existentes a qualquer momento. As consultas que dependem de um esquema fixo poderão ser interrompidas se novas colunas forem introduzidas. As colunas existentes não serão alteradas nem removidas. Se você estiver escrevendo dados de tabela do sistema em outra tabela de destino, considere habilitar a evolução do esquema.
- Não há suporte para monitoramento em tempo real. Os dados são atualizados ao longo do dia. Se não vir um log para um evento recente, verifique novamente depois.
- O esquema de tabela do sistema
__internal_logging
dá suporte ao registro de payload usando tabelas de inferência habilitadas para Gateway de IA para modelos externos e workloads com taxa de transferência provisionada. Esse esquema é visível para administradores de conta, mas não pode ser habilitado e não deve ser usado para fluxos de trabalho do cliente.
- Para habilitar tabelas do sistema, talvez seja necessário conceder acesso à rede para o ponto de extremidade de armazenamento de blobs das tabelas do sistema. Para visualizar uma lista dos pontos de extremidade de armazenamento das tabelas do sistema de cada região, consulte Endereços IP dos pontos de extremidade de armazenamento.
- Os esquemas
system.operational_data
system.lineage
do sistema são preteridos e conterão tabelas vazias.