Ingerir dados do armazenamento de objetos na nuvem

Artigo
10/07/2024

Este artigo lista as maneiras de configurar a ingestão incremental do armazenamento de objetos na nuvem.

Adicionar interface do usuário de dados

Para saber como usar a interface do usuário adicionar dados para criar uma tabela gerenciada a partir de dados no armazenamento de objetos na nuvem, consulte Carregar dados usando um local externo do Unity Catalog.

Bloco de anotações ou editor SQL

Esta seção descreve opções para configurar a ingestão incremental do armazenamento de objetos na nuvem usando um bloco de anotações ou o editor SQL do Databricks.

Carregador Automático

O Auto Loader processa de forma incremental e eficiente novos arquivos de dados à medida que chegam ao armazenamento em nuvem sem configuração adicional. O Auto Loader fornece uma fonte de Streaming Estruturado chamada cloudFiles. Dado um caminho de diretório de entrada no armazenamento de arquivos em nuvem, a fonte processa cloudFiles automaticamente novos arquivos à medida que eles chegam, com a opção de também processar arquivos existentes nesse diretório.

COPY INTO

Com o COPY INTO, os usuários do SQL podem ingerir dados do armazenamento de objetos na nuvem de forma idempotente e incremental em tabelas Delta. Você pode usar COPY INTO em Databricks SQL, notebooks e Databricks Jobs.

Quando usar COPY INTO e quando usar o Auto Loader

Aqui estão algumas coisas a considerar ao escolher entre Auto Loader e COPY INTO:

Se você vai ingerir arquivos na ordem de milhares ao longo do tempo, você pode usar COPY INTOo . Se você está esperando arquivos na ordem de milhões ou mais ao longo do tempo, use Auto Loader. O Auto Loader requer menos operações totais para descobrir arquivos em comparação com COPY INTO e pode dividir o processamento em vários lotes, o que significa que o Auto Loader é menos caro e mais eficiente em escala.
Se o seu esquema de dados vai evoluir com frequência, o Auto Loader fornece melhores tipos de dados primitivos em torno da inferência e evolução do esquema. Consulte Configurar inferência e evolução de esquema no Auto Loader para obter mais detalhes.
Carregar um subconjunto de arquivos recarregados pode ser um pouco mais fácil de gerenciar com COPY INTOo . Com o Auto Loader, é mais difícil reprocessar um subconjunto selecionado de arquivos. No entanto, você pode usar COPY INTO para recarregar o subconjunto de arquivos enquanto um fluxo do carregador automático está sendo executado simultaneamente.
Para uma experiência de ingestão de arquivos ainda mais escalável e robusta, o Auto Loader permite que os usuários do SQL aproveitem as tabelas de streaming. Consulte Carregar dados usando tabelas de streaming no Databricks SQL.

Para uma breve visão geral e demonstração do Auto Loader e COPY INTO, assista ao seguinte vídeo do YouTube (2 minutos).

Automatize o ETL com Delta Live Tables e Auto Loader

Você pode simplificar a implantação de infraestrutura de ingestão escalável e incremental com o Auto Loader e o Delta Live Tables. Delta Live Tables não usa a execução interativa padrão encontrada em notebooks, em vez disso, enfatiza a implantação de infraestrutura pronta para produção.

Ferramentas de ingestão de terceiros

O Databricks valida integrações de parceiros de tecnologia que permitem ingerir a partir de várias fontes, incluindo armazenamento de objetos na nuvem. Essas integrações permitem a ingestão de dados escaláveis e de baixo código de várias fontes no Azure Databricks. Consulte Parceiros tecnológicos. Alguns parceiros de tecnologia são apresentados em O que é o Databricks Partner Connect?, que fornece uma interface do usuário que simplifica a conexão de ferramentas de terceiros aos seus dados lakehouse.

Partilhar via