Compartilhar via


O que é o Delta Lake no Azure Databricks?

Delta Lake é a camada de armazenamento otimizada que fornece a base para tabelas em um lakehouse no Databricks. O Delta Lake é um software de software livre que estende arquivos de dados Parquet com um log de transações baseado em arquivo para transações ACID e tratamento de metadados escalonáveis. O Delta Lake é totalmente compatível com as APIs do Apache Spark e foi desenvolvido para uma integração estreita com o Streaming Estruturado, permitindo que você use facilmente uma só cópia de dados para operações de lote e de streaming e fornecendo processamento incremental em escala.

Delta Lake é o formato padrão para todas as operações no Azure Databricks. A menos que seja especificado de outra forma, todas as tabelas no Azure Databricks são tabelas Delta. Originalmente, o Databricks desenvolveu o protocolo Delta Lake e continua contribuindo ativamente para o projeto de código aberto. Muitas das otimizações e dos produtos na Plataforma Databricks são baseadas nas garantias fornecidas pelo Apache Spark e pelo Delta Lake. Para obter informações sobre otimizações no Azure Databricks, consulte recomendações de otimização no Azure Databricks.

Para obter informações de referência sobre comandos SQL do Delta Lake, consulte as instruções delta lake.

O log de transações do Delta Lake tem um protocolo aberto bem definido que pode ser usado por qualquer sistema para ler o log. Consulte o Protocolo de Log de Transações Delta.

Introdução ao Delta Lake

Todas as tabelas no Azure Databricks são tabelas Delta por padrão. Se você estiver usando o Apache Spark DataFrames ou o SQL, você obtém todos os benefícios do Delta Lake apenas salvando seus dados no lakehouse com configurações padrão.

Para obter exemplos de operações básicas do Delta Lake, como criar tabelas, ler, gravar e atualizar dados, consulte Tutorial: Delta Lake.

O Databricks tem muitas recomendações para práticas recomendadas para o Delta Lake.

Convertendo e ingerindo dados no Delta Lake

O Azure Databricks fornece vários produtos para acelerar e simplificar o carregamento de dados no lakehouse.

Para obter uma lista completa das opções de ingestão, consulte conectores Standard no Lakeflow Connect.

Atualizando e modificando tabelas do Delta Lake

As transações atômicas com o Delta Lake fornecem muitas opções para atualizar dados e metadados. O Databricks recomenda que você evite interagir diretamente com arquivos de log de transações e dados nos diretórios de arquivos do Delta Lake para evitar corromper as tabelas.

Cargas de trabalho incrementais e de streaming no Delta Lake

O Delta Lake é otimizado para Streaming Estruturado no Azure Databricks. O Lakeflow Spark Declarative Pipelines estende os recursos nativos com implantação de infraestrutura simplificada, dimensionamento aprimorado e dependências de dados gerenciados.

Consultando versões anteriores de uma tabela

Cada gravação em uma tabela Delta cria uma versão da tabela. Você pode usar o log de transações para examinar modificações em sua tabela e consultar versões anteriores da tabela. Consulte o histórico da tabela Work with Delta Lake.

Aprimoramentos de esquema do Delta Lake

O Delta Lake valida o esquema na gravação, garantindo que todos os dados gravados em uma tabela correspondam aos requisitos definidos.

Gerenciando arquivos e indexando dados com o Delta Lake

O Azure Databricks define muitos parâmetros padrão para o Delta Lake que afetam o tamanho dos arquivos de dados e o número de versões de tabela mantidas no histórico. O Delta Lake usa uma combinação de análise de metadados e de layout de dados físicos para reduzir o número de arquivos verificados para atender a qualquer consulta.

Configurando e revisando configurações do Delta Lake

O Azure Databricks armazena todos os dados e os metadados para tabelas do Delta Lake no armazenamento de objetos de nuvem. Muitas configurações podem ser definidas no nível da tabela ou na sessão do Spark. Você pode examinar os detalhes da tabela Delta para descobrir quais opções estão configuradas.

Pipelines de dados usando o Delta Lake e os Pipelines Declarativos do Lakeflow Spark

O Azure Databricks incentiva os usuários a aproveitar uma arquitetura de medalhão para processar dados por meio de uma série de tabelas à medida que os dados são limpos e enriquecidos. O Lakeflow Spark Declarative Pipelines simplifica as cargas de trabalho de ETL por meio de execução otimizada e implantação e dimensionamento automatizados de infraestrutura.

Compatibilidade de recursos do Delta Lake

Nem todos os recursos do Delta Lake estão em todas as versões do Databricks Runtime. Para obter informações sobre o controle de versão do Delta Lake, consulte compatibilidade de recursos e protocolos do Delta Lake.

Documentação da API do Delta Lake

Para a maioria das operações de leitura e gravação em tabelas Delta, você pode usar o Spark SQL ou as APIs de DataFrame do Apache Spark.

Para instruções SQL específicas do Delta Lake, consulte as instruções delta lake.

O Azure Databricks garante a compatibilidade binária com as APIs do Delta Lake no Databricks Runtime. Para exibir a versão da API delta lake empacotada em cada versão do Databricks Runtime, consulte a seção Ambiente do sistema no artigo relevante nas notas de versão do Databricks Runtime. Para obter documentação sobre as APIs Delta Lake para Python, Scala e Java, consulte a documentação da OSS Delta Lake.