Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Tato stránka popisuje standardní konektory v Databricks Lakeflow Connect, které nabízejí vyšší úrovně přizpůsobení kanálu příjmu dat v porovnání se spravovanými konektory.
Vrstvy zásobníku ETL
Některé konektory fungují na jedné úrovni zásobníku ETL. Databricks například nabízí plně spravované konektory pro podnikové aplikace, jako jsou Salesforce a databáze, jako je SQL Server. Ostatní konektory pracují v několika vrstvách architektury ETL. Můžete například použít standardní konektory ve strukturovaném streamování pro úplné přizpůsobení nebo deklarativní kanály Lakeflow Spark pro více spravované prostředí.
Databricks doporučuje začít s nejvíce spravovanou vrstvou. Pokud nevyhovuje vašim požadavkům (například pokud nepodporuje váš zdroj dat), přejděte na další vrstvu.
Následující tabulka popisuje tři vrstvy produktů pro ingesci seřazené od nejsnáze přizpůsobitelných k nejvíce spravovaným.
| Vrstva | Popis |
|---|---|
| Strukturované streamování | Strukturované streamování Apache Sparku je streamovací modul, který nabízí komplexní odolnost proti chybám s přesně jednou zárukou zpracování pomocí rozhraní Spark API. |
| Deklarativní kanály Lakeflow Spark | Deklarativní kanály Sparku Lakeflow vycházejí ze strukturovaného streamování a nabízejí deklarativní architekturu pro vytváření datových kanálů. Transformace, které se mají s daty provádět, můžete definovat a deklarativní kanály Sparku Lakeflow spravují orchestraci, monitorování, kvalitu dat, chyby a další. Proto nabízí větší automatizaci a menší režii než strukturované streamování. |
| Spravované konektory | Plně spravované konektory vycházejí z deklarativních kanálů Sparku Lakeflow a nabízejí ještě větší automatizaci pro nejoblíbenější zdroje dat. Rozšiřují funkce deklarativních kanálů Sparku pro Lakeflow, aby zahrnovaly také ověřování specifické pro zdroj, CDC, zpracování hraničních případů, dlouhodobou údržbu rozhraní API, automatizované opakování, automatizovanou vývoj schématu atd. Proto nabízejí ještě větší automatizaci pro všechny podporované zdroje dat. |
Zvolte konektor.
Následující tabulka uvádí standardní konektory pro příjem dat podle zdroje dat a úroveň přizpůsobení kanálu. Pro plně automatizované prostředí příjmu dat použijte místo toho spravované konektory .
Příklady SQL pro přírůstkový příjem dat z cloudového úložiště objektů používají CREATE STREAMING TABLE syntaxi. Nabízí uživatelům SQL škálovatelný a robustní systém pro zpracování příchozích dat, proto se doporučuje jako alternativa k COPY INTO.
| Zdroj | Další přizpůsobení | Nějaké přizpůsobení | Další automatizace |
|---|---|---|---|
| Cloudové úložiště objektů |
Automatické načítání se strukturovaným streamováním (Python, Scala) |
Automatický zavaděč s deklarativními kanály Sparku Lakeflow (Python, SQL) |
Automatický zavaděč s Databricks SQL (SQL) |
| Servery SFTP |
Příjem souborů ze serverů SFTP (Python, SQL) |
N/A | N/A |
| Apache Kafka |
Strukturované streamování se zdrojem Kafka (Python, Scala) |
Deklarativní kanály Sparku Lakeflow se zdrojem Kafka (Python, SQL) |
Databricks SQL se zdrojem Kafka (SQL) |
| Google Pub/Sub (služba pro zasílání zpráv) |
Strukturované streamování s pub/sub source (Python, Scala) |
Deklarativní kanály Lakeflow Spark se zdrojem Pub/Sub (Python, SQL) |
Databricks SQL s Pub/Sub zdrojem (SQL) |
| Apache Pulsar |
Strukturované streamování s pulzárním zdrojem (Python, Scala) |
Deklarativní kanály Lakeflow Spark se zdrojem Pulsar (Python, SQL) |
Databricks SQL s Pulsar jako zdrojem (SQL) |
plány příjmu dat
Můžete nakonfigurovat procesy příjmu dat tak, aby běžely podle pravidelného rozvrhu nebo nepřetržitě.
| Případ použití | Režim potrubí |
|---|---|
| Dávkový příjem dat | Aktivováno: Zpracovává nová data podle plánu nebo při ruční aktivaci. |
| Příjem streamovaných dat | Průběžné: Zpracovává nová data při jejich příchodu do zdroje. |