Standardní konektory ve službě Lakeflow Connect

Tato stránka popisuje standardní konektory v Databricks Lakeflow Connect, které nabízejí vyšší úrovně přizpůsobení kanálu příjmu dat v porovnání se spravovanými konektory.

Vrstvy zásobníku ETL

Některé konektory fungují na jedné úrovni zásobníku ETL. Databricks například nabízí plně spravované konektory pro podnikové aplikace, jako jsou Salesforce a databáze, jako je SQL Server. Ostatní konektory pracují v několika vrstvách architektury ETL. Můžete například použít standardní konektory ve strukturovaném streamování pro úplné přizpůsobení nebo deklarativní kanály Lakeflow Spark pro více spravované prostředí.

Diagram zásobníku ETL

Databricks doporučuje začít s nejvíce spravovanou vrstvou. Pokud nevyhovuje vašim požadavkům (například pokud nepodporuje váš zdroj dat), přejděte na další vrstvu.

Následující tabulka popisuje tři vrstvy produktů pro ingesci seřazené od nejsnáze přizpůsobitelných k nejvíce spravovaným.

Vrstva Popis
Strukturované streamování Strukturované streamování Apache Sparku je streamovací modul, který nabízí komplexní odolnost proti chybám s přesně jednou zárukou zpracování pomocí rozhraní Spark API.
Deklarativní kanály Lakeflow Spark Deklarativní kanály Sparku Lakeflow vycházejí ze strukturovaného streamování a nabízejí deklarativní architekturu pro vytváření datových kanálů. Transformace, které se mají s daty provádět, můžete definovat a deklarativní kanály Sparku Lakeflow spravují orchestraci, monitorování, kvalitu dat, chyby a další. Proto nabízí větší automatizaci a menší režii než strukturované streamování.
Spravované konektory Plně spravované konektory vycházejí z deklarativních kanálů Sparku Lakeflow a nabízejí ještě větší automatizaci pro nejoblíbenější zdroje dat. Rozšiřují funkce deklarativních kanálů Sparku pro Lakeflow, aby zahrnovaly také ověřování specifické pro zdroj, CDC, zpracování hraničních případů, dlouhodobou údržbu rozhraní API, automatizované opakování, automatizovanou vývoj schématu atd. Proto nabízejí ještě větší automatizaci pro všechny podporované zdroje dat.

Zvolte konektor.

Následující tabulka uvádí standardní konektory pro příjem dat podle zdroje dat a úroveň přizpůsobení kanálu. Pro plně automatizované prostředí příjmu dat použijte místo toho spravované konektory .

Příklady SQL pro přírůstkový příjem dat z cloudového úložiště objektů používají CREATE STREAMING TABLE syntaxi. Nabízí uživatelům SQL škálovatelný a robustní systém pro zpracování příchozích dat, proto se doporučuje jako alternativa k COPY INTO.

Zdroj Další přizpůsobení Nějaké přizpůsobení Další automatizace
Cloudové úložiště objektů Automatické načítání se strukturovaným streamováním
(Python, Scala)
Automatický zavaděč s deklarativními kanály Sparku Lakeflow
(Python, SQL)
Automatický zavaděč s Databricks SQL
(SQL)
Servery SFTP Příjem souborů ze serverů SFTP
(Python, SQL)
N/A N/A
Apache Kafka Strukturované streamování se zdrojem Kafka
(Python, Scala)
Deklarativní kanály Sparku Lakeflow se zdrojem Kafka
(Python, SQL)
Databricks SQL se zdrojem Kafka
(SQL)
Google Pub/Sub (služba pro zasílání zpráv) Strukturované streamování s pub/sub source
(Python, Scala)
Deklarativní kanály Lakeflow Spark se zdrojem Pub/Sub
(Python, SQL)
Databricks SQL s Pub/Sub zdrojem
(SQL)
Apache Pulsar Strukturované streamování s pulzárním zdrojem
(Python, Scala)
Deklarativní kanály Lakeflow Spark se zdrojem Pulsar
(Python, SQL)
Databricks SQL s Pulsar jako zdrojem
(SQL)

plány příjmu dat

Můžete nakonfigurovat procesy příjmu dat tak, aby běžely podle pravidelného rozvrhu nebo nepřetržitě.

Případ použití Režim potrubí
Dávkový příjem dat Aktivováno: Zpracovává nová data podle plánu nebo při ruční aktivaci.
Příjem streamovaných dat Průběžné: Zpracovává nová data při jejich příchodu do zdroje.