Ingerir dados em um databricks lakehouse

Artigo
03/01/2024

O Azure Databricks oferece várias maneiras de ajudá-lo a ingerir dados em um lakehouse com suporte do Delta Lake. O Databricks recomenda o uso do Carregador Automático para ingestão de dados incremental do armazenamento de objetos de nuvem. A interface do usuário para adicionar dados fornece várias opções para carregar arquivos locais rapidamente ou conectar-se a fontes de dados externas.

Executar sua primeira carga de trabalho de ETL

Se você ainda não usou o Carregador Automático no Azure Databricks, comece com um tutorial. Confira Executar sua primeira carga de trabalho de ETL no Azure Databricks.

Carregador Automático

O Carregador Automático processa de modo incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem, sem nenhuma configuração adicional. O Carregador automático fornece uma fonte de Fluxo estruturado chamada cloudFiles. Dado um caminho de diretório de entrada no armazenamento de arquivos em nuvem, a origem cloudFiles processa automaticamente novos arquivos conforme chegam, com a opção de também processar arquivos existentes nesse diretório.

Automatizar o ETL com Delta Live Tables e o Carregador Automático

Você pode simplificar a implantação de uma infraestrutura de ingestão escalonável e incremental com o Carregador Automático e o Delta Live Tables. Observe que o Delta Live Tables não usa a execução interativa padrão encontrada em notebooks, enfatizando a implantação da infraestrutura pronta para produção.

Carregar arquivos de dados locais ou conectar fontes de dados externas

Você pode carregar com segurança arquivos de dados locais ou ingerir dados de fontes externas para criar tabelas. Confira Carregar dados usando a IU de adição de dados.

Ingerir dados no Azure Databricks usando ferramentas de terceiros

O Azure Databricks valida integrações de parceiros tecnológicos que permitem ingerir dados no Azure Databricks. Essas integrações possibilitam uma ingestão de dados com pouco uso de código e escalonável de uma variedade de fontes para o Azure Databricks. Consulte Parceiros de tecnologia. Alguns parceiros de tecnologia são apresentados no Databricks Partner Connect, que fornece uma interface do usuário que simplifica a conexão de ferramentas de terceiros aos dados do Lakehouse.

COPY INTO

COPIAR PARA permite que os usuários do SQL ingiram dados de forma idempotente e incremental do armazenamento de objetos em nuvem em tabelas Delta. Ele pode ser usado em trabalhos do Databricks, em notebooks e no SQL do Databricks.

Quando usar o COPY INTO e quando usar o Carregador automático

A seguir estão algumas coisas a analisar ao escolher entre o Carregador automático e o COPY INTO:

Se for ingerir milhares de arquivos, poderá usar COPY INTO. Se estiver esperando milhões ou mais de arquivos ao longo do tempo, use o Carregador automático. O Carregador Automático requer menos operações totais para descobrir arquivos em comparação com COPY INTO e pode dividir o processamento em vários lotes, o que significa que o Carregador Automático é menos caro e mais eficiente em escala.
Se o esquema de dados evoluir com frequência, o Carregador automático fornece primitivas melhores para a inferência e a evolução do esquema. Confira Configurar a inferência e a evolução de esquema no Carregador Automático para obter mais detalhes.
A carga de subconjuntos de arquivos recarregados pode ser um pouco mais fácil de gerenciar usando o COPY INTO. Com o Carregador automático, é mais difícil reprocessar subconjuntos de arquivos. No entanto, é possível usar o COPY INTO para recarregar os subconjuntos de arquivos enquanto um fluxo do Carregador automático está em execução simultaneamente.
Para uma experiência de ingestão de arquivos ainda mais escalonável e robusta, o Carregador Automático permite que os usuários do SQL aproveitem as tabelas de streaming. Confira Carregar dados usando tabelas de streaming no Databricks SQL.

Para obter uma breve visão geral e uma demonstração do Carregador Automático, bem como de COPY INTO, assista o seguinte vídeo do YouTube (dois minutos).

Examinar metadados de arquivo capturados durante a ingestão de dados

O Apache Spark captura automaticamente dados sobre arquivos de origem durante o carregamento de dados. O Azure Databricks permite acessar esses dados com a Coluna metadados de arquivo.

Carregar exportações de planilha para o Azure Databricks

Use a página Criar ou modificar tabela do upload de arquivo para carregar arquivos CSV, TSV ou JSON. Confira Criar ou modificar uma tabela usando o upload de arquivo.

Migrar aplicativos de dados para o Azure Databricks

Migre aplicativos de dados existentes para o Azure Databricks para que você possa trabalhar com dados de vários sistemas de origem em uma única plataforma. Consulte Migrar aplicativos de dados para o Azure Databricks.