Notatka
Dostęp do tej strony wymaga autoryzacji. Może spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Uwaga / Notatka
Łączniki zarządzane w programie Lakeflow Connect znajdują się w różnych stanach wydania.
Ta strona zawiera omówienie łączników zarządzanych w usłudze Databricks Lakeflow Connect na potrzeby pozyskiwania danych z aplikacji SaaS i baz danych. Potok danych wejściowych jest zarządzany przez Unity Catalog i jest obsługiwany przez bezserwerowe obliczenia oraz deklaratywne potoki Spark w ramach usługi Lakeflow. Łączniki zarządzane wykorzystują wydajne operacje odczytu i zapisu przyrostowego w celu szybszego, skalowalnego i bardziej ekonomicznego pozyskiwania danych, a dane pozostają świeże do użycia podrzędnego.
Typy łączników
| Typ łącznika | Opis |
|---|---|
| Łączniki SaaS | Pozyskiwanie danych z aplikacji SaaS dla przedsiębiorstw, takich jak Salesforce, HubSpot, Jira, Workday i inne. |
| Łączniki bazy danych (CDC) | Pozyskiwanie danych z relacyjnych baz danych, w tym MySQL, PostgreSQL i SQL Server przy użyciu przechwytywania zmian danych. |
Architecture
Każdy typ łącznika ma odrębny zestaw składników. Łączniki SaaS używają połączenia, potoku pobierania i tabel docelowych. Łączniki bazy danych obejmują również bramę wejściową do pozyskiwania danych i magazyn buforowy do obsługi ciągłego przechwytywania zmian. Aby uzyskać szczegółowe informacje, zobacz Łączniki SaaS w programie Lakeflow Connect i łączniki bazy danych w programie Lakeflow Connect.
Składniki łącznika opartego na zapytaniach
Łącznik oparty na zapytaniach zadaje bezpośrednio zapytania do bazy danych źródłowej zgodnie z harmonogramem, nie wykorzystując przy tym bramy ani magazynu przejściowego. Aby zapoznać się z omówieniem sposobu działania łączników opartych na zapytaniach, zobacz Łączniki oparte na zapytaniach.
| Składnik | Opis |
|---|---|
| Połączenie | Obiekt zabezpieczenia Katalogu Unity, który przechowuje szczegóły uwierzytelniania źródłowej bazy danych. Bezpośrednie połączenie z katalogiem Unity Catalog (do integracji połączeń zewnętrznych) lub zewnętrzny katalog Unity Catalog (do integracji katalogów zewnętrznych przy użyciu Federacji Lakehouse). |
| Potok pozyskiwania | Potok danych, który wysyła zapytanie bezpośrednio do źródłowej bazy danych i zapisuje wyniki w tabelach strumieniowych. Pipeline domyślnie działa na infrastrukturze obliczeniowej bez serwera. |
| Tabele docelowe | Tabele przesyłania strumieniowego, w których potok pozyskiwania zapisuje dane. |
Orkiestracja
Potok pozyskiwania można uruchomić w jednym lub kilku niestandardowych harmonogramach. Dla każdego harmonogramu dodawanego do potoku, program Lakeflow Connect automatycznie tworzy zadanie dla tego harmonogramu. Potok przetwarzania jest zadaniem w ramach pracy. Opcjonalnie możesz dodać więcej zadań do zadania.
W przypadku łączników bazy danych brama pozyskiwania jest uruchamiana we własnym zadaniu jako zadanie ciągłe.
Pozyskiwanie przyrostowe
Lakeflow Connect używa pozyskiwania przyrostowego w celu zwiększenia wydajności przepływu. Podczas pierwszego uruchomienia ścieżki, pobierane są wszystkie wybrane dane ze źródła. Równolegle śledzi zmiany w danych źródłowych. W każdorazowym uruchomieniu potoku używa się śledzenia zmian, aby pobierać tylko te dane, które zmieniły się od poprzedniego uruchomienia, o ile to możliwe.
Dokładne podejście zależy od tego, co jest dostępne w źródle danych. Na przykład możesz użyć funkcji śledzenia zmian i przechwytywania danych zmian (CDC) z SQL Server. Z kolei łącznik usługi Salesforce wybiera kolumnę kursora z listy opcji.
Niektóre źródła lub określone tabele nie obsługują obecnie przyrostowego pobierania danych. Databricks planuje rozszerzyć zakres wsparcia przyrostowego.
Sieć
Istnieje kilka opcji nawiązywania połączenia z aplikacją lub bazą danych SaaS.
- Łączniki aplikacji SaaS docierają do interfejsów API źródła. Są one również automatycznie zgodne z bezserwerowymi kontrolkami ruchu wychodzącego.
- Łączniki dla baz danych w chmurze mogą łączyć się ze źródłem za pośrednictwem Private Link. Alternatywnie, jeśli obszar roboczy ma Virtual Network (VNet) lub wirtualną chmurę prywatną (VPC) połączoną z VNet lub VPC hostującymi bazę danych, możesz wdrożyć bramę wewnątrz niej.
- Łączniki dla lokalnych baz danych mogą łączyć się przy użyciu usług, takich jak AWS Direct Connect i Azure ExpressRoute.
Wdrożenie
Potoki pozyskiwania można wdrażać przy użyciu pakietów automatyzacji deklaratywnej, które umożliwiają najlepsze praktyki, takie jak kontrola źródła, przegląd kodu, testowanie oraz ciągła integracja i ciągłe dostarczanie (CI/CD). Pakiety są zarządzane przy użyciu interfejsu wiersza polecenia usługi Databricks i mogą być uruchamiane w różnych docelowych środowiskach roboczych, takich jak programistyczny, testowy i produkcyjny.
Odzyskiwanie po awarii
Jako w pełni zarządzana usługa Lakeflow Connect ma na celu automatyczne odzyskiwanie po problemach, gdy jest to możliwe. Na przykład gdy łącznik ulegnie awarii, automatycznie ponawia próbę z wycofywaniem wykładniczym.
Istnieje jednak możliwość, że błąd wymaga interwencji (na przykład po wygaśnięciu poświadczeń). W takich przypadkach łącznik próbuje uniknąć braku danych, przechowując ostatnią pozycję kursora. Następnie może kontynuować z tego miejsca przy kolejnym uruchomieniu potoku, jeśli to możliwe.
Nadzorowanie
Lakeflow Connect zapewnia niezawodne alerty i monitorowanie, aby pomóc w utrzymaniu potoków. Obejmuje to dzienniki zdarzeń, dzienniki klastra, metryki kondycji potoku i metryki jakości danych. Możesz również użyć system.billing.usage tabeli do śledzenia kosztów i monitorowania wykorzystania potoku. Zobacz Monitorowanie kosztów zarządzanego potoku pozyskiwania.
W przypadku konektorów bazy danych można monitorować postęp działania bramki w czasie rzeczywistym przy użyciu dzienników zdarzeń. Zobacz Monitoruj postęp tej bramy wejściowej za pomocą dzienników zdarzeń.
Zależność od usług zewnętrznych
Usługa Databricks SaaS, baza danych i inne w pełni zarządzane łączniki zależą od dostępności, zgodności i stabilności aplikacji, bazy danych lub usługi zewnętrznej, z którą się łączą. Usługa Databricks nie kontroluje tych usług zewnętrznych, dlatego ma ograniczony (jeśli istnieje) wpływ na zmiany, aktualizacje i konserwację.
Jeśli zmiany, zakłócenia lub okoliczności związane z usługą zewnętrzną utrudniają lub uniemożliwiają działanie łącznika, Databricks może zaprzestać utrzymywania tego łącznika. Databricks podejmie uzasadnione wysiłki, aby powiadomić klientów o zaprzestaniu serwisowania, w tym o aktualizacjach odpowiedniej dokumentacji.