Nota
O acesso a esta página requer autorização. Podes tentar iniciar sessão ou mudar de diretório.
O acesso a esta página requer autorização. Podes tentar mudar de diretório.
Esta página descreve os conectores padrão no Databricks Lakeflow Connect, que oferecem níveis mais altos de personalização do pipeline de ingestão em comparação com os conectores gerenciados.
Camadas do stack ETL
Alguns conectores operam em um nível da pilha ETL. Por exemplo, o Databricks oferece conectores totalmente gerenciados para aplicativos corporativos, como Salesforce, e bancos de dados, como o SQL Server. Outros conectores operam em várias camadas da tecnologia de ETL. Por exemplo, você pode usar conectores padrão no Structured Streaming para personalização completa ou Lakeflow Spark Declarative Pipelines para uma experiência mais gerenciada.
A Databricks recomenda começar com a camada mais gerenciada. Se ele não atender aos seus requisitos (por exemplo, se não oferecer suporte à sua fonte de dados), desça para a próxima camada.
A tabela a seguir descreve as três camadas de produtos de ingestão, ordenados do mais personalizável para o mais gerenciado:
| Camada | Descrição |
|---|---|
| Transmissão em Fluxo Estruturada | O Apache Spark Structured Streaming é um mecanismo de streaming que oferece tolerância a falhas de ponta a ponta com garantias de processamento exatamente uma vez usando APIs do Spark. |
| Oleodutos declarativos Lakeflow Spark | O Lakeflow Spark Declarative Pipelines baseia-se no Structured Streaming, oferecendo uma estrutura declarativa para a criação de pipelines de dados. Você pode definir as transformações a serem executadas em seus dados, e o Lakeflow Spark Declarative Pipelines gerencia orquestração, monitoramento, qualidade de dados, erros e muito mais. Portanto, ele oferece mais automação e menos sobrecarga do que o Structured Streaming. |
| Conectores gerenciados | Os conectores totalmente gerenciados se baseiam nos Lakeflow Spark Declarative Pipelines, oferecendo ainda mais automação para as fontes de dados mais populares. Eles estendem a funcionalidade Lakeflow Spark Declarative Pipelines para também incluir autenticação específica da fonte, CDC, manipulação de casos de borda, manutenção de API de longo prazo, tentativas automatizadas, evolução automatizada do esquema e assim por diante. Portanto, eles oferecem ainda mais automação para quaisquer fontes de dados suportadas. |
Escolher um conector
A tabela a seguir lista conectores de ingestão padrão por fonte de dados e nível de personalização de pipeline. Para uma experiência de ingestão totalmente automatizada, use conectores gerenciados .
Exemplos de SQL para ingestão incremental usam a sintaxe CREATE STREAMING TABLE de armazenamento de objetos em nuvem. Ele oferece aos usuários SQL uma experiência de ingestão escalável e robusta, portanto, é a alternativa recomendada ao COPY INTO.
| Fonte | Mais personalização | Alguma personalização | Mais automação |
|---|---|---|---|
| Armazenamento de objetos na nuvem |
Carregador automático com streaming estruturado (Python, Scala) |
Carregador automático com dutos declarativos Lakeflow Spark (Python, SQL) |
Carregador automático com Databricks SQL (SQL) |
| Servidores SFTP |
Ingerir arquivos de servidores SFTP (Python, SQL) |
N/A | N/A |
| Apache Kafka |
Streaming estruturado com fonte Kafka (Python, Scala) |
Lakeflow Spark Declarative Pipelines com fonte Kafka (Python, SQL) |
Databricks SQL com fonte Kafka (SQL) |
| Google Pub/Sub |
Streaming estruturado com fonte Pub/Sub (Python, Scala) |
Lakeflow Spark Declarative Pipelines com fonte Pub/Sub (Python, SQL) |
Databricks SQL com origem Pub/Sub (SQL) |
| Apache Pulsar |
Streaming estruturado com fonte Pulsar (Python, Scala) |
Oleodutos declarativos Lakeflow Spark com fonte Pulsar (Python, SQL) |
Databricks SQL com fonte Pulsar (SQL) |
Horários de ingestão
Você pode configurar pipelines de ingestão para serem executados de forma recorrente ou continuamente.
| Caso de uso | Modo de Pipeline |
|---|---|
| Ingestão em lote | Acionado: realiza o processamento de novos dados numa programação ou quando ativado manualmente. |
| Ingestão por streaming | Contínuo: processa novos dados à medida que chegam à fonte. |