Udostępnij za pośrednictwem


Łączniki zarządzane w programie Lakeflow Connect

Uwaga / Notatka

Łączniki zarządzane w programie Lakeflow Connect znajdują się w różnych stanach wydania.

Ta strona zawiera omówienie łączników zarządzanych w usłudze Databricks Lakeflow Connect na potrzeby pozyskiwania danych z aplikacji SaaS i baz danych. Potok danych wejściowych jest zarządzany przez Unity Catalog i jest obsługiwany przez bezserwerowe obliczenia oraz deklaratywne potoki Spark w ramach usługi Lakeflow. Łączniki zarządzane wykorzystują wydajne operacje odczytu i zapisu przyrostowego w celu szybszego, skalowalnego i bardziej ekonomicznego pozyskiwania danych, a dane pozostają świeże do użycia podrzędnego.

Typy łączników

Typ łącznika Opis
Łączniki SaaS Pozyskiwanie danych z aplikacji SaaS dla przedsiębiorstw, takich jak Salesforce, HubSpot, Jira, Workday i inne.
Łączniki bazy danych (CDC) Pozyskiwanie danych z relacyjnych baz danych, w tym MySQL, PostgreSQL i SQL Server przy użyciu przechwytywania zmian danych.

Architecture

Każdy typ łącznika ma odrębny zestaw składników. Łączniki SaaS używają połączenia, potoku pobierania i tabel docelowych. Łączniki bazy danych obejmują również bramę wejściową do pozyskiwania danych i magazyn buforowy do obsługi ciągłego przechwytywania zmian. Aby uzyskać szczegółowe informacje, zobacz Łączniki SaaS w programie Lakeflow Connect i łączniki bazy danych w programie Lakeflow Connect.

Składniki łącznika opartego na zapytaniach

Łącznik oparty na zapytaniach zadaje bezpośrednio zapytania do bazy danych źródłowej zgodnie z harmonogramem, nie wykorzystując przy tym bramy ani magazynu przejściowego. Aby zapoznać się z omówieniem sposobu działania łączników opartych na zapytaniach, zobacz Łączniki oparte na zapytaniach.

Składnik Opis
Połączenie Obiekt zabezpieczenia Katalogu Unity, który przechowuje szczegóły uwierzytelniania źródłowej bazy danych. Bezpośrednie połączenie z katalogiem Unity Catalog (do integracji połączeń zewnętrznych) lub zewnętrzny katalog Unity Catalog (do integracji katalogów zewnętrznych przy użyciu Federacji Lakehouse).
Potok pozyskiwania Potok danych, który wysyła zapytanie bezpośrednio do źródłowej bazy danych i zapisuje wyniki w tabelach strumieniowych. Pipeline domyślnie działa na infrastrukturze obliczeniowej bez serwera.
Tabele docelowe Tabele przesyłania strumieniowego, w których potok pozyskiwania zapisuje dane.

Orkiestracja

Potok pozyskiwania można uruchomić w jednym lub kilku niestandardowych harmonogramach. Dla każdego harmonogramu dodawanego do potoku, program Lakeflow Connect automatycznie tworzy zadanie dla tego harmonogramu. Potok przetwarzania jest zadaniem w ramach pracy. Opcjonalnie możesz dodać więcej zadań do zadania.

Diagram aranżacji potoku dla łączników SaaS

W przypadku łączników bazy danych brama pozyskiwania jest uruchamiana we własnym zadaniu jako zadanie ciągłe.

Diagram orkiestracji pipeline'u dla łączników bazy danych

Pozyskiwanie przyrostowe

Lakeflow Connect używa pozyskiwania przyrostowego w celu zwiększenia wydajności przepływu. Podczas pierwszego uruchomienia ścieżki, pobierane są wszystkie wybrane dane ze źródła. Równolegle śledzi zmiany w danych źródłowych. W każdorazowym uruchomieniu potoku używa się śledzenia zmian, aby pobierać tylko te dane, które zmieniły się od poprzedniego uruchomienia, o ile to możliwe.

Dokładne podejście zależy od tego, co jest dostępne w źródle danych. Na przykład możesz użyć funkcji śledzenia zmian i przechwytywania danych zmian (CDC) z SQL Server. Z kolei łącznik usługi Salesforce wybiera kolumnę kursora z listy opcji.

Niektóre źródła lub określone tabele nie obsługują obecnie przyrostowego pobierania danych. Databricks planuje rozszerzyć zakres wsparcia przyrostowego.

Sieć

Istnieje kilka opcji nawiązywania połączenia z aplikacją lub bazą danych SaaS.

  • Łączniki aplikacji SaaS docierają do interfejsów API źródła. Są one również automatycznie zgodne z bezserwerowymi kontrolkami ruchu wychodzącego.
  • Łączniki dla baz danych w chmurze mogą łączyć się ze źródłem za pośrednictwem Private Link. Alternatywnie, jeśli obszar roboczy ma Virtual Network (VNet) lub wirtualną chmurę prywatną (VPC) połączoną z VNet lub VPC hostującymi bazę danych, możesz wdrożyć bramę wewnątrz niej.
  • Łączniki dla lokalnych baz danych mogą łączyć się przy użyciu usług, takich jak AWS Direct Connect i Azure ExpressRoute.

Wdrożenie

Potoki pozyskiwania można wdrażać przy użyciu pakietów automatyzacji deklaratywnej, które umożliwiają najlepsze praktyki, takie jak kontrola źródła, przegląd kodu, testowanie oraz ciągła integracja i ciągłe dostarczanie (CI/CD). Pakiety są zarządzane przy użyciu interfejsu wiersza polecenia usługi Databricks i mogą być uruchamiane w różnych docelowych środowiskach roboczych, takich jak programistyczny, testowy i produkcyjny.

Odzyskiwanie po awarii

Jako w pełni zarządzana usługa Lakeflow Connect ma na celu automatyczne odzyskiwanie po problemach, gdy jest to możliwe. Na przykład gdy łącznik ulegnie awarii, automatycznie ponawia próbę z wycofywaniem wykładniczym.

Istnieje jednak możliwość, że błąd wymaga interwencji (na przykład po wygaśnięciu poświadczeń). W takich przypadkach łącznik próbuje uniknąć braku danych, przechowując ostatnią pozycję kursora. Następnie może kontynuować z tego miejsca przy kolejnym uruchomieniu potoku, jeśli to możliwe.

Nadzorowanie

Lakeflow Connect zapewnia niezawodne alerty i monitorowanie, aby pomóc w utrzymaniu potoków. Obejmuje to dzienniki zdarzeń, dzienniki klastra, metryki kondycji potoku i metryki jakości danych. Możesz również użyć system.billing.usage tabeli do śledzenia kosztów i monitorowania wykorzystania potoku. Zobacz Monitorowanie kosztów zarządzanego potoku pozyskiwania.

W przypadku konektorów bazy danych można monitorować postęp działania bramki w czasie rzeczywistym przy użyciu dzienników zdarzeń. Zobacz Monitoruj postęp tej bramy wejściowej za pomocą dzienników zdarzeń.

Zależność od usług zewnętrznych

Usługa Databricks SaaS, baza danych i inne w pełni zarządzane łączniki zależą od dostępności, zgodności i stabilności aplikacji, bazy danych lub usługi zewnętrznej, z którą się łączą. Usługa Databricks nie kontroluje tych usług zewnętrznych, dlatego ma ograniczony (jeśli istnieje) wpływ na zmiany, aktualizacje i konserwację.

Jeśli zmiany, zakłócenia lub okoliczności związane z usługą zewnętrzną utrudniają lub uniemożliwiają działanie łącznika, Databricks może zaprzestać utrzymywania tego łącznika. Databricks podejmie uzasadnione wysiłki, aby powiadomić klientów o zaprzestaniu serwisowania, w tym o aktualizacjach odpowiedniej dokumentacji.