Udostępnij przez


Łączniki standardowe w programie Lakeflow Connect

Na tej stronie opisano standardowe konektory w usłudze Databricks Lakeflow Connect, które oferują wyższe poziomy dostosowywania procesu pobierania danych w porównaniu z zarządzanymi konektorami.

Warstwy stosu ETL

Niektóre łączniki działają na jednym poziomie stosu ETL. Na przykład usługa Databricks oferuje w pełni zarządzane łączniki dla aplikacji dla przedsiębiorstw, takich jak Salesforce i bazy danych, takie jak SQL Server. Inne łączniki działają w wielu warstwach stosu ETL. Można na przykład użyć standardowych łączników w strumieniowaniu o strukturze w celu pełnego dostosowania lub deklaratywnych potoków Spark w Lakeflow dla bardziej zarządzanego doświadczenia.

Diagram stosu ETL

Usługa Databricks zaleca rozpoczęcie od najbardziej zarządzanej warstwy. Jeśli nie spełnia Twoich wymagań (na przykład, jeśli nie obsługuje Twojego źródła danych), przejdź do następnej warstwy.

W poniższej tabeli opisano trzy warstwy produktów integracji, uporządkowane od najbardziej dostosowywalnych do najbardziej zarządzanych.

Warstwa Opis
Przesyłanie strumieniowe ze strukturą Strukturalne Przesyłanie Strumieniowe Apache Spark to silnik przesyłania strumieniowego, który oferuje kompleksową odporność na uszkodzenia oraz gwarantowane dokładnie jednokrotne przetwarzanie przy użyciu interfejsów API Spark.
Potoki deklaratywne platformy Spark w usłudze Lakeflow Potoki deklaratywne Lakeflow Spark Declarative Pipelines są oparte na Structured Streaming, oferując deklaratywne ramy do tworzenia potoków danych. Przekształcenia do wykonania na danych można zdefiniować, a usługa Lakeflow Spark Deklaratative Pipelines zarządza aranżacją, monitorowaniem, jakością danych, błędami i nie tylko. W związku z tym oferuje większą automatyzację i mniejsze koszty ogólne niż Structured Streaming.
Łączniki zarządzane W pełni zarządzane łączniki są oparte na deklaratywnych potokach platformy Lakeflow Spark, oferując jeszcze większą automatyzację najpopularniejszych źródeł danych. Rozszerzają funkcje potoków deklaratywnych platformy Lakeflow, aby obejmowały również uwierzytelnianie specyficzne dla źródła, usługę CDC, obsługę przypadków brzegowych, długoterminową konserwację interfejsu API, automatyczne ponawianie prób, automatyczną ewolucję schematu itd. W związku z tym oferują jeszcze większą automatyzację dla wszystkich obsługiwanych źródeł danych.

Wybieranie łącznika

W poniższej tabeli wymieniono standardowe łączniki przyjmowania według źródła danych i poziomu personalizacji potoku danych. Dla w pełni zautomatyzowanego procesu pozyskiwania danych używaj zarządzanych łączników.

Przykłady sql dotyczące przyrostowego pozyskiwania z magazynu obiektów w chmurze używają CREATE STREAMING TABLE składni. Oferuje użytkownikom SQL skalowalne i niezawodne doświadczenie pozyskiwania danych, dlatego jest zalecaną alternatywą dla programu COPY INTO.

Źródło Więcej dostosowywania Niektóre dostosowania Więcej automatyzacji
Magazyn obiektów w chmurze Automatyczne ładowanie za pomocą przesyłania strumieniowego ze strukturą
(Python, Scala)
Automatyczne ładowanie za pomocą potoków deklaratywnych platformy Spark w usłudze Lakeflow
(Python, SQL)
Automatyczne ładowanie przy użyciu usługi Databricks SQL
(SQL)
Serwery SFTP Pozyskiwanie plików z serwerów SFTP
(Python, SQL)
N/A N/A
Apache Kafka Przesyłanie strumieniowe ze strukturą za pomocą źródła platformy Kafka
(Python, Scala)
Potoki deklaratywne platformy Lakeflow spark ze źródłem platformy Kafka
(Python, SQL)
Usługa Databricks SQL ze źródłem platformy Kafka
(SQL)
Google Pub/Sub (usługa przesyłania wiadomości) Strumieniowanie ustrukturyzowane z wykorzystaniem źródła Pub/Sub
(Python, Scala)
Deklaratywne potoki Lakeflow Spark z źródłem Pub/Sub
(Python, SQL)
Usługa Databricks SQL ze źródłem Pub/Sub
(SQL)
Apache Pulsar Strukturalne przesyłanie strumieniowe z źródłem Pulsar
(Python, Scala)
Deklaratywne Potoki Spark Lakeflow ze źródłem Pulsar
(Python, SQL)
Usługa Databricks SQL ze źródłem Pulsar
(SQL)

harmonogramy przyjmowania

Potoki przetwarzania danych można skonfigurować tak, aby działały według harmonogramu okresowego lub stale.

Przypadek użycia Tryb potokowy
Pozyskiwanie wsadowe Wyzwalane: przetwarza nowe dane zgodnie z harmonogramem lub po ręcznym wyzwoleniu.
Strumieniowe pobieranie danych Ciągły: przetwarza nowe dane w miarę ich nadejścia w źródle.