Tabelas geridas do Unity Catalog para Delta Lake e Apache Iceberg

As tabelas geridas pelo Unity Catalog são o tipo de tabela padrão e recomendado no Azure Databricks para Delta Lake e Apache Iceberg. O Unity Catalog gere todas as responsabilidades de leitura, escrita, armazenamento e otimização. Veja Converter tabelas Delta Lake externas ou estrangeiras para tabelas geridas pelo Unity Catalog.

Os arquivos de dados para tabelas gerenciadas são armazenados no esquema ou catálogo que os contém. Consulte Especificar um local de armazenamento gerenciado no Catálogo Unity.

A Databricks recomenda utilizar tabelas geridas para tirar partido dos seguintes benefícios, em comparação com tabelas externas e estrangeiras:

Custos reduzidos de armazenamento e computação.
Desempenho de consulta mais rápido em todos os tipos de clientes.
Manutenção e otimização automática de tabelas.
Acesso seguro para clientes externos através de APIs abertas.
Suporte para os formatos Delta Lake e Apache Iceberg.
Atualizações automáticas para os recursos mais recentes da plataforma.

Pode trabalhar com tabelas geridas em todos os idiomas e produtos suportados no Azure Databricks. Você precisa de certos privilégios para criar, atualizar, excluir ou consultar tabelas gerenciadas. Consulte Gerenciar privilégios no Catálogo Unity.

Note

Esta página descreve apenas tabelas geridas pelo Unity Catalog. Para tabelas gerenciadas no metastore herdado do Hive, consulte Objetos de banco de dados no metastore herdado do Hive.

Benefícios das tabelas geridas pelo Unity Catalog

As tabelas geridas do Unity Catalog otimizam custos de armazenamento e velocidades de consulta, permitindo a interoperabilidade com ferramentas de terceiros para Delta Lake e Apache Iceberg. Para simplificar a gestão e o desempenho de dados, estas tabelas geridas utilizam tecnologias baseadas em IA, como compactação do tamanho dos ficheiros e recolha inteligente de estatísticas.

As tabelas geridas suportam a interoperabilidade ao permitir o acesso a partir de clientes Delta Lake e Apache Iceberg. Consulte aceder aos dados do Databricks usando sistemas externos.

As seguintes funcionalidades são exclusivas das tabelas geridas pelo Unity Catalog e não estão disponíveis para tabelas externas e tabelas estrangeiras:

Feature	Benefits	Configuration
Catálogo de commits	Permite transações com múltiplas instruções em várias tabelas, um planeamento de consultas mais rápido ao disponibilizar metadados diretamente a partir do Unity Catalog, alterações de esquema e de restrições passíveis de imposição e gravações seguras a partir de motores externos.	Desativado por predefinição. Para ativar, defina a propriedade da tabela `delta.feature.catalogManaged`. Veja Ativar commits do catálogo.
Otimização preditiva	Otimiza automaticamente o layout e o cálculo dos seus dados usando IA, sem necessidade de operações manuais de manutenção. A Databricks recomenda habilitar a otimização preditiva para todas as tabelas gerenciadas para reduzir os custos de armazenamento e computação. Executa automaticamente: `OPTIMIZE`: Melhora o desempenho da consulta compactando tamanhos de arquivo e agrupando incrementalmente novos dados. `VACUUM`: Ajuda a economizar nos custos de armazenamento excluindo arquivos não utilizados. `ANALYZE`: Coleta estatísticas que ajudam o Azure Databricks a implementar o salto de dados para acelerar as consultas.	Ativado por defeito para todas as novas contas criadas a partir de 11 de novembro de 2024. Para as contas atuais, o Azure Databricks está gradualmente a ativar a otimização preditiva por defeito. Veja Verificar se a otimização preditiva está ativada. Para configurar, consulte Ativar otimização preditiva.
Transações com múltiplos extratos	Permite executar múltiplas instruções SQL em uma ou mais tabelas numa única confirmação atómica, com garantias ACID. Todas as mudanças têm sucesso em conjunto ou revertem em conjunto. Utilize para procedimentos armazenados e scripts SQL em cargas de trabalho de armazenamento de dados de missão crítica. As transações que escrevem para tabelas geridas da Delta Lake encontram-se em Pré-visualização Pública. As transações que escrevem para tabelas Apache Iceberg geridas encontram-se em Pré-visualização Privada.	Desativado por predefinição. Use `BEGIN ATOMIC ... END;` para transações não interativas ou `BEGIN TRANSACTION; ... COMMIT;` para transações interativas. Veja Modos de transação.
Agrupamento automático de líquidos	Para tabelas com otimização preditiva, o agrupamento líquido seleciona inteligentemente as chaves de agrupamento e atualiza-as automaticamente à medida que os padrões de consulta mudam, para melhorar o desempenho e reduzir custos.	Desativado por predefinição. Para configurar, consulte Ativar agrupamento de líquidos.
Cache de metadados	O cache na memória de metadados de transação melhora o desempenho da consulta minimizando as solicitações para o log de transações armazenado na nuvem.	Ativado por padrão. Não é configurável.
Índices de pesquisa em texto completo	Acelera as procuras de subcadeias e de palavras-chave em colunas de texto com as funções `search` e `isearch`. Quando um índice se aplica, o Azure Databricks ignora ficheiros que não conseguem conter linhas correspondentes, reduzindo a quantidade de dados digitalizados. Está em Beta e requer o Databricks Runtime 18.2 ou posterior.	Desativado por predefinição. Criar com o `CREATE SEARCH INDEX`.
Exclusão automática de arquivos após um `DROP TABLE` comando	Se ELIMINAR uma tabela gerida, o Azure Databricks elimina os ficheiros de dados no armazenamento na cloud após o término do período de recuperação (padrão 7 dias), reduzindo os custos de armazenamento. Para tabelas externas, tens de apagar manualmente os ficheiros do teu bucket de armazenamento.	Ativado por padrão. Pode configurar o período de recuperação ao nível do catálogo ou do esquema. Veja Eliminar uma tabela gerida.

Aceder aos dados Databricks usando sistemas externos

As tabelas geridas suportam a interoperabilidade ao permitir o acesso a partir de clientes Delta Lake e Apache Iceberg.

Através de APIs abertas e venda automática de credenciais, o Unity Catalog permite que motores externos como Trino, DuckDB, Apache Spark, Daft e motores integrados no catálogo Iceberg REST, como o Dremio, acedam a tabelas geridas. Para clientes externos que não suportam APIs abertas, pode usar o Modo de Compatibilidade para ler tabelas geridas usando qualquer cliente Delta Lake ou Apache Iceberg. O OpenSharing, um protocolo open source, permite a partilha segura e governada de dados com parceiros e plataformas externas.

Consulte integrações para obter uma lista de mecanismos externos suportados ou verifique a documentação do mecanismo se ele não estiver incluído nessa lista.

As seguintes APIs abertas permitem que sistemas externos acedam a tabelas geridas pelo Unity Catalog:

A API REST do Unity fornece acesso de leitura, escrita e criação aos clientes Delta Lake para tabelas Delta Lake geridas.
O Iceberg REST Catalog (IRC) oferece acesso de leitura, escrita e criação a clientes do Apache Iceberg para tabelas Apache Iceberg geridas e acesso apenas de leitura a tabelas Delta Lake com leituras através do Apache Iceberg ativadas (UniForm).

Ambas as APIs dão suporte à distribuição de credenciais, que fornece credenciais temporárias específicas que herdam os privilégios da entidade solicitante do Azure Databricks, mantendo controles de governança e segurança.

O OpenSharing é um protocolo open source que permite acesso seguro e regulado a dados a parceiros e plataformas externas. Pode usar o OpenSharing para conceder aos parceiros acesso temporário e apenas de leitura.

Todas as leituras e gravações em tabelas gerenciadas devem usar nomes de tabelas e nomes de catálogo e esquema, onde existirem. Por exemplo, catalog_name.schema_name.table_name. O acesso baseado em caminho às tabelas gerenciadas do Unity Catalog não é suportado (exceto no Modo de Compatibilidade) porque ignora os controles de acesso do Unity Catalog e impede que os recursos da tabela gerenciada funcionem corretamente.

Criar uma tabela gerenciada

Para criar uma tabela gerenciada, você deve ter:

USE SCHEMA no esquema pai da tabela.
USE CATALOG no catálogo pai da tabela.
CREATE TABLE no esquema pai da tabela.

Use a seguinte sintaxe para criar uma tabela gerida vazia. Substitua os valores dos espaços reservados:

<catalog-name>: O nome do catálogo que conterá a tabela.
<schema-name>: O nome do esquema que contém a tabela.
<table-name>: Um nome para a tabela.
<column-specification>: Nome e tipo de dados de cada coluna.

SQL

-- Create a managed Delta table
CREATE TABLE <catalog-name>.<schema-name>.<table-name>
(
  <column-specification>
);

-- Create a managed Iceberg table
CREATE TABLE <catalog-name>.<schema-name>.<table-name>
(
  <column-specification>
)
USING iceberg;

Python

Crie uma tabela Delta Lake gerida usando saveAsTable():

from pyspark.sql.types import StructType, StructField, StringType

schema = StructType([StructField("<column-name>", StringType())])

spark.createDataFrame([], schema).write \
  .saveAsTable("<catalog-name>.<schema-name>.<table-name>")

Alternativamente, use a DeltaTableBuilder API para opções específicas de Delta, como colunas geradas e propriedades de tabelas:

from delta.tables import DeltaTable

DeltaTable.create(spark) \
  .tableName("<catalog-name>.<schema-name>.<table-name>") \
  .addColumn("<column-name>", "<data-type>") \
  .property("<key>", "<value>") \
  .execute()

Crie uma tabela Apache Iceberg gerida:

from pyspark.sql.types import StructType, StructField, StringType

schema = StructType([StructField("<column-name>", StringType())])

spark.createDataFrame([], schema).write \
  .format("iceberg") \
  .saveAsTable("<catalog-name>.<schema-name>.<table-name>")

Para manter o desempenho em leituras e escritas, o Azure Databricks executa periodicamente operações para otimizar os metadados geridos das tabelas Apache Iceberg. Esta tarefa é realizada através de computação sem servidor, que tem MODIFY permissões sobre a tabela Apache Iceberg. Esta operação grava apenas nos metadados da tabela, e a computação mantém as permissões para a tabela durante a execução da tarefa.

Note

Para criar uma tabela Apache Iceberg, especifique USING icebergexplicitamente . Caso contrário, o Azure Databricks criará uma tabela Delta Lake por padrão.

Você pode criar tabelas geridas a partir de resultados de consulta ou operações de escrita no DataFrame. Os artigos a seguir demonstram alguns dos muitos padrões que você pode usar para criar uma tabela gerenciada no Azure Databricks:

Para criar uma cópia de uma tabela gerida existente, use clone. As tabelas Delta Lake geridas suportam clonagem profunda e superficial. As tabelas Apache Iceberg geridas suportam apenas clonagem profunda. Veja Clonar uma tabela no Azure Databricks e Clonar uma tabela Iceberg gerida.

Eliminar uma tabela gerida

Para soltar uma tabela gerenciada, você deve ter:

MANAGE na mesa ou você deve ser o dono da mesa.
USE SCHEMA no esquema pai da tabela.
USE CATALOG no catálogo pai da tabela.

Para largar uma tabela gerida, execute o seguinte comando:

SQL

DROP TABLE IF EXISTS catalog_name.schema_name.table_name;

Python

spark.sql("DROP TABLE IF EXISTS catalog_name.schema_name.table_name")

Em alternativa, no Databricks Runtime 18.2 ou superior, utilize o seguinte spark.catalog.dropTable():

spark.catalog.dropTable("catalog_name.schema_name.table_name", ifExists=True)

O Unity Catalog suporta o UNDROP TABLE comando para recuperar tabelas geridas acidentalmente perdidas. Por predefinição, as tabelas podem ser recuperadas durante 7 dias após serem eliminadas. Após o término do período de recuperação, o Azure Databricks apaga os ficheiros de dados subjacentes do seu tenant cloud no prazo de 48 horas.

Configurar o período de recuperação

Important

O período de recuperação configurável está em Pré-visualização Pública.

Pode configurar quanto tempo as tabelas geridas deixadas de lado permanecem recuperáveis ao nível do catálogo ou do esquema. Se os períodos de recuperação estiverem definidos em ambos os níveis, a definição ao nível do esquema tem prioridade para as tabelas desse esquema.

Para configurar o período de recuperação, deve ter MANAGE privilégio ou propriedade sobre o catálogo ou esquema. Esta definição aplica-se apenas a tabelas descartadas depois de configuradas. Não afeta as tabelas que já tinham sido eliminadas.

O período de recuperação pode ser definido para 0 horas (para desativar a recuperação) ou entre 7 a 30 dias, inclusive. Um período de recuperação mais longo (até 30 dias) oferece proteção adicional contra quedas acidentais de dados críticos de produção. Um período de recuperação mais curto, ou defini-lo como 0, faz com que os dados eliminados sejam apagados mais depressa — útil para reduzir custos em cargas de trabalho que criam e eliminam tabelas com frequência como parte de processos de ETL. Definir o período de recuperação para 0 significa que as tabelas eliminadas não são recuperáveis usando UNDROP. Os ficheiros de dados são eliminados do armazenamento na cloud no prazo de 48 horas após a retirada da tabela.

Para definir o período de recuperação, use ALTER CATALOG ou ALTER SCHEMA com a RETAIN DROPPED TO cláusula:

SQL

-- Set a 30-day recovery period on a catalog
ALTER CATALOG my_catalog RETAIN DROPPED TO 30 DAYS;

-- Set a 7-day recovery period on a schema (overrides the catalog setting)
ALTER SCHEMA my_catalog.my_schema RETAIN DROPPED TO 7 DAYS;

Python

spark.sql("ALTER CATALOG my_catalog RETAIN DROPPED TO 30 DAYS")
spark.sql("ALTER SCHEMA my_catalog.my_schema RETAIN DROPPED TO 7 DAYS")

Também pode definir o período de recuperação ao criar um catálogo ou esquema com a RETAIN DROPPED FOR cláusula:

SQL

CREATE CATALOG my_catalog RETAIN DROPPED FOR 30 DAYS;
CREATE SCHEMA my_catalog.my_schema RETAIN DROPPED FOR 7 DAYS;

Python

spark.sql("CREATE CATALOG my_catalog RETAIN DROPPED FOR 30 DAYS")
spark.sql("CREATE SCHEMA my_catalog.my_schema RETAIN DROPPED FOR 7 DAYS")

Para verificar o período de recuperação atual, execute DESCRIBE EXTENDED. A saída inclui uma linha Recovery Period Hours:

SQL

DESCRIBE CATALOG EXTENDED my_catalog;
DESCRIBE SCHEMA EXTENDED my_catalog.my_schema;

Python

spark.sql("DESCRIBE CATALOG EXTENDED my_catalog").show()
spark.sql("DESCRIBE SCHEMA EXTENDED my_catalog.my_schema").show()

Comentários

Esta página foi útil?

Last updated on 2026-07-07

Tabelas geridas do Unity Catalog para Delta Lake e Apache Iceberg

Benefícios das tabelas geridas pelo Unity Catalog

Aceder aos dados Databricks usando sistemas externos

Criar uma tabela gerenciada

SQL

Python

Eliminar uma tabela gerida

SQL

Python

Configurar o período de recuperação

SQL

Python

SQL

Python

SQL

Python

Comentários

Recursos adicionais