Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować się zalogować lub zmienić katalog.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Na tej stronie opisano standardowe konektory w usłudze Databricks Lakeflow Connect, które oferują wyższe poziomy dostosowywania procesu pobierania danych w porównaniu z zarządzanymi konektorami.
Warstwy stosu ETL
Niektóre łączniki działają na jednym poziomie stosu ETL. Na przykład usługa Databricks oferuje w pełni zarządzane łączniki dla aplikacji dla przedsiębiorstw, takich jak Salesforce i bazy danych, takie jak SQL Server. Inne łączniki działają w wielu warstwach stosu ETL. Można na przykład użyć standardowych łączników w strumieniowaniu o strukturze w celu pełnego dostosowania lub deklaratywnych potoków Spark w Lakeflow dla bardziej zarządzanego doświadczenia.
Usługa Databricks zaleca rozpoczęcie od najbardziej zarządzanej warstwy. Jeśli nie spełnia Twoich wymagań (na przykład, jeśli nie obsługuje Twojego źródła danych), przejdź do następnej warstwy.
W poniższej tabeli opisano trzy warstwy produktów integracji, uporządkowane od najbardziej dostosowywalnych do najbardziej zarządzanych.
| Warstwa | Opis |
|---|---|
| Przesyłanie strumieniowe ze strukturą | Strukturalne Przesyłanie Strumieniowe Apache Spark to silnik przesyłania strumieniowego, który oferuje kompleksową odporność na uszkodzenia oraz gwarantowane dokładnie jednokrotne przetwarzanie przy użyciu interfejsów API Spark. |
| Potoki deklaratywne platformy Spark w usłudze Lakeflow | Potoki deklaratywne Lakeflow Spark Declarative Pipelines są oparte na Structured Streaming, oferując deklaratywne ramy do tworzenia potoków danych. Przekształcenia do wykonania na danych można zdefiniować, a usługa Lakeflow Spark Deklaratative Pipelines zarządza aranżacją, monitorowaniem, jakością danych, błędami i nie tylko. W związku z tym oferuje większą automatyzację i mniejsze koszty ogólne niż Structured Streaming. |
| Łączniki zarządzane | W pełni zarządzane łączniki są oparte na deklaratywnych potokach platformy Lakeflow Spark, oferując jeszcze większą automatyzację najpopularniejszych źródeł danych. Rozszerzają funkcje potoków deklaratywnych platformy Lakeflow, aby obejmowały również uwierzytelnianie specyficzne dla źródła, usługę CDC, obsługę przypadków brzegowych, długoterminową konserwację interfejsu API, automatyczne ponawianie prób, automatyczną ewolucję schematu itd. W związku z tym oferują jeszcze większą automatyzację dla wszystkich obsługiwanych źródeł danych. |
Wybieranie łącznika
W poniższej tabeli wymieniono standardowe łączniki przyjmowania według źródła danych i poziomu personalizacji potoku danych. Dla w pełni zautomatyzowanego procesu pozyskiwania danych używaj zarządzanych łączników.
Przykłady sql dotyczące przyrostowego pozyskiwania z magazynu obiektów w chmurze używają CREATE STREAMING TABLE składni. Oferuje użytkownikom SQL skalowalne i niezawodne doświadczenie pozyskiwania danych, dlatego jest zalecaną alternatywą dla programu COPY INTO.
harmonogramy przyjmowania
Potoki przetwarzania danych można skonfigurować tak, aby działały według harmonogramu okresowego lub stale.
| Przypadek użycia | Tryb potokowy |
|---|---|
| Pozyskiwanie wsadowe | Wyzwalane: przetwarza nowe dane zgodnie z harmonogramem lub po ręcznym wyzwoleniu. |
| Strumieniowe pobieranie danych | Ciągły: przetwarza nowe dane w miarę ich nadejścia w źródle. |