Conectores padrão no Lakeflow Connect

Esta página descreve os conectores padrão no Databricks Lakeflow Connect, que oferecem níveis mais altos de personalização do pipeline de ingestão em comparação com os conectores gerenciados.

Camadas do stack ETL

Alguns conectores operam em um nível da pilha ETL. Por exemplo, o Databricks oferece conectores totalmente gerenciados para aplicativos corporativos, como Salesforce, e bancos de dados, como o SQL Server. Outros conectores operam em várias camadas da tecnologia de ETL. Por exemplo, você pode usar conectores padrão no Structured Streaming para personalização completa ou Lakeflow Spark Declarative Pipelines para uma experiência mais gerenciada.

Diagrama de camada ETL

A Databricks recomenda começar com a camada mais gerenciada. Se ele não atender aos seus requisitos (por exemplo, se não oferecer suporte à sua fonte de dados), desça para a próxima camada.

A tabela a seguir descreve as três camadas de produtos de ingestão, ordenados do mais personalizável para o mais gerenciado:

Camada	Descrição
Transmissão em Fluxo Estruturada	O Apache Spark Structured Streaming é um mecanismo de streaming que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente uma vez usando APIs do Spark.
Oleodutos declarativos Lakeflow Spark	O Lakeflow Spark Declarative Pipelines baseia-se no Structured Streaming, oferecendo uma estrutura declarativa para a criação de pipelines de dados. Você pode definir as transformações a serem executadas em seus dados, e o Lakeflow Spark Declarative Pipelines gerencia orquestração, monitoramento, qualidade de dados, erros e muito mais. Portanto, ele oferece mais automação e menos sobrecarga do que o Structured Streaming.
Conectores gerenciados	Os conectores totalmente gerenciados se baseiam nos Lakeflow Spark Declarative Pipelines, oferecendo ainda mais automação para as fontes de dados mais populares. Eles estendem a funcionalidade Lakeflow Spark Declarative Pipelines para também incluir autenticação específica da fonte, CDC, manipulação de casos de borda, manutenção de API de longo prazo, tentativas automatizadas, evolução automatizada do esquema e assim por diante. Portanto, eles oferecem ainda mais automação para quaisquer fontes de dados suportadas.

Escolher um conector

A tabela a seguir lista conectores de ingestão padrão por fonte de dados e nível de personalização de pipeline. Para uma experiência de ingestão totalmente automatizada, use conectores gerenciados .

Exemplos de SQL para ingestão incremental usam a sintaxe CREATE STREAMING TABLE de armazenamento de objetos em nuvem. Ele oferece aos usuários SQL uma experiência de ingestão escalável e robusta, portanto, é a alternativa recomendada ao COPY INTO.

Fonte	Mais personalização	Alguma personalização	Mais automação
Armazenamento de objetos na nuvem	Carregador automático com streaming estruturado (Python, Scala)	Carregador automático com dutos declarativos Lakeflow Spark (Python, SQL)	Carregador automático com Databricks SQL (SQL)
Servidores SFTP	Ingerir arquivos de servidores SFTP (Python, SQL)	N/A	N/A
Apache Kafka	Streaming estruturado com fonte Kafka (Python, Scala)	Lakeflow Spark Declarative Pipelines com fonte Kafka (Python, SQL)	Databricks SQL com fonte Kafka (SQL)
Google Pub/Sub	Streaming estruturado com fonte Pub/Sub (Python, Scala)	Lakeflow Spark Declarative Pipelines com fonte Pub/Sub (Python, SQL)	Databricks SQL com origem Pub/Sub (SQL)
Apache Pulsar	Streaming estruturado com fonte Pulsar (Python, Scala)	Oleodutos declarativos Lakeflow Spark com fonte Pulsar (Python, SQL)	Databricks SQL com fonte Pulsar (SQL)

Horários de ingestão

Você pode configurar pipelines de ingestão para serem executados de forma recorrente ou continuamente.

Caso de uso	Modo de Pipeline
Ingestão em lote	Acionado: realiza o processamento de novos dados numa programação ou quando ativado manualmente.
Ingestão por streaming	Contínuo: processa novos dados à medida que chegam à fonte.

Feedback

Esta página foi útil?

Last updated on 2025-11-13