Condividi tramite


Connettori Standard in Lakeflow Connect

Questa pagina descrive i connettori standard in Databricks Lakeflow Connect, che offrono livelli più elevati di personalizzazione della pipeline di inserimento rispetto ai connettori gestiti.

Livelli dello stack ETL

Alcuni connettori operano a un livello dello stack ETL. Ad esempio, Databricks offre connettori completamente gestiti per applicazioni aziendali come Salesforce e database come SQL Server. Altri connettori funzionano a più livelli dello stack ETL. Ad esempio, è possibile usare i connettori standard in Structured Streaming per la personalizzazione completa o le pipeline dichiarative di Lakeflow per un'esperienza più gestita.

Diagramma dello stack ETL

Databricks consiglia di iniziare con il livello più gestito. Se non soddisfa i requisiti, ad esempio se non supporta la tua origine dati, scendi al livello successivo.

Nella tabella seguente vengono descritti i tre livelli di prodotti di ingestione, ordinati dal più personalizzabile al più gestito.

Strato Descrizione
Structured Streaming Apache Spark Structured Streaming è un motore di streaming che offre tolleranza ai guasti end-to-end con garanzie di elaborazione una sola volta esatta utilizzando le API Spark.
Pipeline dichiarative di Lakeflow Le pipeline dichiarative di Lakeflow si basa su Structured Streaming, offrendo un framework più dichiarativo per la creazione di pipeline di dati. È possibile definire le trasformazioni da eseguire sui dati e Le pipeline dichiarative di Lakeflow gestiscono l'orchestrazione, il monitoraggio, la qualità dei dati, gli errori e altro ancora. Pertanto, offre maggiore automazione e meno sovraccarico rispetto a Structured Streaming.
Connettori gestiti I connettori completamente gestiti si basano su pipeline dichiarative di Lakeflow, offrendo ancora più automazione per le origini dati più diffuse. Estendono la funzionalità delle pipeline dichiarative di Lakeflow per includere anche l'autenticazione specifica dell'origine, CDC, la gestione dei casi perimetrali, la manutenzione dell'API a lungo termine, i tentativi automatizzati, l'evoluzione automatizzata dello schema e così via. Pertanto, offrono ancora più automazione per tutte le origini dati supportate.

Scegliere un connettore

La tabella seguente elenca i connettori di inserimento standard in base all'origine dati e al livello di personalizzazione della pipeline. Per un'esperienza di inserimento completamente automatizzata, usare invece connettori gestiti .

Esempi SQL per l'inserimento incrementale dall'archiviazione di oggetti cloud usano CREATE STREAMING TABLE la sintassi. Offre agli utenti SQL un'esperienza di inserimento scalabile e affidabile, pertanto è l'alternativa consigliata a COPY INTO.

Fonte Altre personalizzazioni Alcune personalizzazioni Maggiore automazione
Archiviazione di oggetti cloud Caricatore automatico con streaming strutturato
(Python, Scala)
Caricatore Automatico con Pipeline Dichiarative di Lakeflow
(Python, SQL)
Caricatore automatico con Databricks SQL
(SQL)
Apache Kafka Streaming Strutturato con sorgente Kafka
(Python, Scala)
Pipeline dichiarative di Lakeflow con origine Kafka
(Python, SQL)
Databricks SQL con origine Kafka
(SQL)
Google Pub/Sub Structured Streaming with Pub/Sub source (Streaming strutturato con origine pub/sub)
(Python, Scala)
Pipeline dichiarative di Lakeflow con origine Pub/Sub
(Python, SQL)
Databricks SQL con origine Pub/Sub
(SQL)
Apache Pulsar Streaming strutturato con sorgente Pulsar
(Python, Scala)
Pipeline dichiarative di Lakeflow con origine Pulsar
(Python, SQL)
Databricks SQL con sorgente Pulsar
(SQL)

pianificazioni di ingestione

È possibile configurare le pipeline di inserimento per l'esecuzione in base a una pianificazione ricorrente o in modo continuo.

Caso d'uso Modalità pipeline
Inserimento batch Attivato: elabora nuovi dati in base a una pianificazione o quando viene attivato manualmente.
Ingestione in streaming Continuo: elabora nuovi dati man mano che arrivano nell'origine.