Compartilhar via


O que é o Lakeflow Connect?

O Lakeflow Connect oferece conectores simples e eficientes para ingerir dados de arquivos locais, aplicativos empresariais populares, bancos de dados, armazenamento em nuvem, barramentos de mensagens e muito mais. Esta página descreve algumas das maneiras pelas quais o Lakeflow Connect pode melhorar o desempenho do ETL. Ele também abrange casos de uso comuns e a variedade de ferramentas de ingestão com suporte, desde conectores totalmente gerenciados até estruturas totalmente personalizáveis.

Modelos de serviço flexíveis

O Lakeflow Connect oferece uma ampla gama de conectores para aplicativos empresariais, armazenamento em nuvem, bancos de dados, barramentos de mensagens e muito mais. Ele também oferece a flexibilidade para escolher entre os seguintes:

Opção Descrição
Um serviço totalmente gerenciado Conectores prontos para uso imediato que democratizam o acesso a dados com UIs simples e APIs poderosas. Isso permite que você crie rapidamente pipelines de ingestão robustos, minimizando os custos de manutenção de longo prazo.
Um pipeline personalizado Se você precisar de mais personalização, poderá usar pipelines declarativos do Lakeflow Spark ou streaming estruturado. Por fim, essa versatilidade permite que o Lakeflow Connect atenda às necessidades específicas da sua organização.

Unificação com as principais ferramentas do Databricks

O Lakeflow Connect usa os principais recursos do Databricks para fornecer gerenciamento de dados abrangente. Por exemplo, ele oferece governança ao usar o Catálogo do Unity, orquestração ao usar o Lakeflow Jobs e monitoramento holístico nos seus pipelines. Isso ajuda sua organização a gerenciar a segurança de dados, a qualidade e o custo, unificando os processos de ingestão com outras ferramentas de engenharia de dados. O Lakeflow Connect é criado em uma Plataforma de Inteligência de Dados aberta, com total flexibilidade para incorporar suas ferramentas de terceiros preferenciais. Isso garante uma solução personalizada que se alinhe à sua infraestrutura existente e às estratégias de dados futuras.

Ingestão rápida e escalonável

O Lakeflow Connect usa leituras e gravações incrementais para habilitar a ingestão eficiente. Quando combinado com transformações incrementais downstream, isso pode melhorar significativamente o desempenho de ETL.

Casos de uso comuns

Os clientes ingerem dados para resolver os problemas mais desafiadores de suas organizações. Os casos de uso de exemplo incluem o seguinte:

Caso de uso Descrição
Cliente 360 Medição do desempenho da campanha e da pontuação de clientes em potencial
Gerenciamento de portfólio Maximizando o ROI com modelos históricos e de previsão
Análise do consumidor Personalizando as experiências de compra dos clientes
Recursos humanos centralizados Suporte à força de trabalho da sua organização
Gêmeos digitais Aumentando a eficiência de fabricação
Chatbots RAG Criar chatbots para ajudar os usuários a entender políticas, produtos e muito mais

Camadas da pilha ETL

Alguns conectores operam em um nível da pilha ETL. Por exemplo, o Databricks oferece conectores totalmente gerenciados para aplicativos empresariais, como Salesforce e bancos de dados como o SQL Server. Outros conectores operam em várias camadas da pilha ETL. Por exemplo, você pode usar conectores padrão em Streaming Estruturado para personalização completa ou Pipelines Declarativos do Lakeflow Spark para uma experiência mais gerenciada. Da mesma forma, você pode escolher seu nível de personalização para transmitir dados do Apache Kafka, Amazon Kinesis, Google Pub/Sub e Apache Pulsar.

Diagrama de camadas ETL

O Databricks recomenda começar com a camada mais gerenciada. Se ele não atender aos seus requisitos (por exemplo, se não der suporte à fonte de dados), desça para a próxima camada. O Databricks planeja expandir o suporte para mais conectores em todas as três camadas.

A tabela a seguir descreve as três camadas de produtos de ingestão, ordenadas da mais personalizável para a mais gerenciada:

Camada Descrição
Streaming estruturado O Streaming Estruturado é uma API para processamento de fluxo incremental quase em tempo real. Ele fornece forte desempenho, escalabilidade e tolerância a falhas.
Pipelines Declarativos Lakeflow Spark O Lakeflow Spark Declarative Pipelines baseia-se no Streaming Estruturado, oferecendo uma estrutura declarativa para a criação de pipelines de dados. Você pode definir as transformações a serem executadas em seus dados e o Lakeflow Spark Declarative Pipelines gerencia a orquestração, o monitoramento, a qualidade dos dados, os erros e muito mais. Portanto, ele oferece mais automação e menos sobrecarga do que o Streaming Estruturado.
Conectores totalmente gerenciados Conectores inteiramente gerenciados baseiam-se nas Pipelines Declarativas do Lakeflow Spark, oferecendo ainda mais automação para as fontes de dados mais populares. Eles estendem a funcionalidade de Pipelines Declarativos do Lakeflow Spark para incluir também autenticação específica da origem, CDC, tratamento de casos de borda, manutenção de API de longo prazo, repetições automatizadas, evolução automatizada do esquema e assim por diante. Portanto, eles oferecem ainda mais automação para quaisquer fontes de dados com suporte.

Conectores gerenciados

Você pode usar conectores totalmente gerenciados para ingerir de aplicativos empresariais e bancos de dados.

Os conectores com suporte incluem:

As interfaces com suporte incluem:

  • Interface do usuário do Databricks
  • Pacotes de ativos do Databricks
  • Databricks APIs
  • Databricks SDKs
  • CLI do Databricks

Conectores padrão

Além dos conectores gerenciados, o Databricks oferece conectores personalizáveis para barramentos de mensagens e armazenamento de objetos de nuvem. Consulte conectores Padrões no Lakeflow Connect.

Transferência de arquivos

Você pode ingerir arquivos que residem em sua rede local, arquivos que foram carregados em um volume ou arquivos baixados de um local da Internet. Consulte Arquivos.

Parceiros de ingestão

Muitas ferramentas de terceiros dão suporte à ingestão em lote ou streaming no Databricks. O Databricks valida várias integrações de terceiros, embora as etapas para configurar o acesso aos sistemas de origem e ingerir dados variem de acordo com a ferramenta. Consulte os parceiros de ingestão para obter uma lista de ferramentas validadas. Alguns parceiros de tecnologia também são apresentados no Databricks Partner Connect, que tem uma interface do usuário que simplifica a conexão de ferramentas de terceiros aos dados do Lakehouse.

Ingestão DIY

O Databricks fornece uma plataforma de computação geral. Como resultado, você pode criar seus próprios conectores de ingestão usando qualquer linguagem de programação compatível com o Databricks, como Python ou Java. Você também pode importar e usar bibliotecas populares de conectores de software livre, como ferramenta de carregamento de dados, Airbyte e Debezium.

Alternativas de ingestão

O Databricks recomenda a ingestão para a maioria dos casos de uso porque ele é dimensionado para acomodar grandes volumes de dados, consultas de baixa latência e limites de API de terceiros. A ingestão copia dados de seus sistemas de origem para o Azure Databricks, o que resulta em dados duplicados que podem ficar obsoletos ao longo do tempo. Se você não quiser copiar dados, poderá usar as seguintes ferramentas:

Ferramenta Descrição
Federação do Lakehouse Permite que você consulte fontes de dados externas sem mover seus dados.
Compartilhamento Delta Permite compartilhar dados com segurança entre plataformas, nuvens e regiões.