Dela via


Hanterade kopplingar i Lakeflow Connect

Viktigt!

Hanterade anslutningar i Lakeflow Connect är i olika versionslägen.

Den här artikeln innehåller en översikt över hanterade anslutningar i Databricks Lakeflow Connect för att hämta data från SaaS-tillämpningar och databaser. Den resulterande inmatningspipelinen styrs av Unity Catalog och drivs av serverlösa beräknings- och Lakeflow-deklarativa pipelines. Hanterade kopplingar utnyttjar effektiva inkrementella läsningar och skrivningar för att göra datainföringen snabbare, mer skalbar och mer kostnadseffektiv, medan era data förblir aktuella för nedströmsförbrukning.

SaaS-anslutningskomponenter

En SaaS-anslutning har följande komponenter:

Komponent Beskrivning
Anslutning Ett skyddsbart Unity Catalog-objekt som lagrar autentiseringsinformation för programmet.
Inmatningspipeline En pipeline som kopierar data från programmet till måltabellerna. Inmatningspipelinen körs på serverlös beräkning.
Destinationstabeller Tabellerna där inmatningspipelinen skriver data. Det här är strömmande tabeller, som är Delta-tabeller med extra stöd för inkrementell databearbetning.

SaaS-anslutningskomponentdiagram

Komponenter för databasanslutning

En databasanslutning har följande komponenter:

Komponent Beskrivning
Anslutning Ett skyddsbart Unity Catalog-objekt som lagrar autentiseringsinformation för databasen.
Inmatningsgränssnitt En pipeline som extraherar ögonblicksbilder, ändringsloggar och metadata från källdatabasen. Gatewayen körs på klassisk beräkning och körs kontinuerligt för att samla in ändringar innan ändringsloggar kan trunkeras i källan.
Förberedande lagring En Unity Catalog-volym som tillfälligt lagrar extraherade data innan den tillämpas på måltabellen. På så sätt kan du köra inmatningspipelinen enligt vilket schema du vill, även om gatewayen kontinuerligt registrerar ändringar. Det hjälper också till med återställning av fel. Du skapar automatiskt en mellanlagringsvolym när du distribuerar gatewayen och du kan anpassa katalogen och schemat där den finns. Data rensas automatiskt från mellanlagring efter 30 dagar.
Inmatningspipeline En pipeline som flyttar data från mellanlagring till måltabellerna. Pipelinen körs på serverlös beräkning.
Destinationstabeller Tabellerna där inmatningspipelinen skriver data. Det här är strömmande tabeller, som är Delta-tabeller med extra stöd för inkrementell databearbetning.

Diagram över databasanslutningskomponenter

Orkestrering

Du kan köra din inmatningspipeline enligt ett eller flera anpassade scheman. För varje schema som du lägger till i en pipeline skapar Lakeflow Connect automatiskt ett jobb för den. Inmatningspipelinen är en uppgift i jobbet. Du kan också lägga till fler aktiviteter i jobbet.

Orkestreringsdiagram för pipeline för SaaS-kopplingar

För databasanslutningar körs inmatningsgatewayen i sitt eget jobb som en kontinuerlig uppgift.

Pipelineorkestreringsdiagram för databasanslutningar

Inkrementell intagning

Lakeflow Connect använder inkrementell inmatning för att förbättra pipelineeffektiviteten. Vid den första körningen av din pipeline matar den in alla valda data från källan. Parallellt spårar den ändringar i källdata. Vid varje efterföljande körning av pipelinen använder den ändringsspårningen för att mata in endast de data som har ändrats från den tidigare körningen, när det är möjligt.

Den exakta metoden beror på vad som är tillgängligt i datakällan. Du kan till exempel använda både ändringsspårning och ändringsdatainsamling (CDC) med SQL Server. Salesforce-anslutningen väljer däremot en markörkolumn från en lista med förvalda alternativ.

Vissa källor eller specifika tabeller stöder inte inkrementell inmatning just nu. Databricks planerar att utöka täckningen för inkrementell support.

Nätverkande

Det finns flera alternativ för att ansluta till ett SaaS-program eller en databas.

  • Anslutningsappar för SaaS-program når källans API:er. De är också automatiskt kompatibla med serverlösa utgående kontroller.
  • Konnektorer för molndatabaser kan ansluta till källan via Private Link. Om din arbetsyta har ett virtuellt nätverk (VNet) eller virtuellt privat moln (VPC) som är peerkopplat med det virtuella nätverket eller VPC som är värd för databasen kan du distribuera inmatningsgatewayen inuti den.
  • Anslutningar för lokala databaser kan ansluta med hjälp av tjänster som AWS Direct Connect och Azure ExpressRoute.

Driftsättning

Du kan distribuera inmatningspipelines med Databricks Asset Bundles, som möjliggör bästa praxis som källkodskontroll, kodgranskning, testning och kontinuerlig integrering och leverans (CI/CD). Paket hanteras med Databricks CLI och kan köras på olika målarbetsytor, till exempel utveckling, mellanlagring och produktion.

Återställning vid fel

Som en fullständigt hanterad tjänst strävar Lakeflow Connect efter att automatiskt återställa från problem när det är möjligt. När en anslutning till exempel misslyckas försöker den automatiskt igen med exponentiell backoff.

Det är dock möjligt att ett fel kräver din åtgärd (till exempel när autentiseringsuppgifterna upphör att gälla). I dessa fall försöker anslutningsappen undvika data som saknas genom att lagra markörens sista position. Den kan sedan återuppta från den positionen vid nästa körning av pipelinen när det är möjligt.

Övervakning

Lakeflow Connect tillhandahåller robusta aviseringar och övervakning som hjälper dig att underhålla dina pipelines. Detta inkluderar händelseloggar, klusterloggar, hälsomått för pipeline och datakvalitetsmått.

Funktionskompatibilitet

I följande tabell sammanfattas funktionstillgängligheten för varje hanterad inmatningsanslutning. Ytterligare funktioner och begränsningar finns i dokumentationen för din specifika anslutningsapp.

Egenskap Google Analytics Salesforce Arbetsdag SQL Server ServiceNow SharePoint (på engelska)
Läge Allmänt tillgängligt Allmänt tillgängligt Allmänt tillgängligt Allmänt tillgängligt Allmänt tillgängligt Beta-version
Redigering av användargränssnittsbaserad pipeline Ja Ja Nej Ja Ja Nej
API-baserad pipelineutformning Ja Ja Ja Ja Ja Ja
Databricks-resurspaket Ja Ja Ja Ja Ja Ja
Inkrementell intagning Ja Ja – Med ett tillfälligt undantag för formelfält. Mer information finns i How does the connector incrementally pull updates?. Nej Ja Ja – Med undantag när tabellen saknar ett markörfält. Ja
Styrning av Unity-katalog Ja Ja Ja Ja Ja Ja
Orkestrering med Databricks-arbetsflöden Ja Ja Ja Ja Ja Ja
SCD-typ 2 Ja Nej Ja Ja Ja Ja
API-baserad kolumnmarkering och avmarkering Ja Ja Ja Ja Ja Ja
Automatiserad schemautveckling: Nya och borttagna kolumner Ja Ja Ja Ja Ja Ja
Automatiserad schemautveckling: Ändringar av datatyp Nej Nej Nej Nej Nej Nej
Automatiserad schemautveckling: Kolumnbyten Ja – Behandlas som en ny kolumn (nytt namn) och borttagen kolumn (gammalt namn). Ja – Behandlas som en ny kolumn (nytt namn) och borttagen kolumn (gammalt namn). Ja – Behandlas som en ny kolumn (nytt namn) och borttagen kolumn (gammalt namn). Nej – När DDL-objekt är aktiverade kan anslutningsappen byta namn på kolumnen. När DDL-objekt inte är aktiverade behandlar anslutningsappen detta som en ny kolumn (nytt namn) och en borttagen kolumn (gammalt namn). I båda fallen kräver det en fullständig uppdatering. Ja – Behandlas som en ny kolumn (nytt namn) och borttagen kolumn (gammalt namn). Ja – Behandlas som en ny kolumn (nytt namn) och borttagen kolumn (gammalt namn).
Automatiserad schemautveckling: Nya tabeller Ja – Om du matar in hela schemat. Se begränsningarna för antalet tabeller per pipeline. Ja – Om du matar in hela schemat. Se begränsningarna för antalet tabeller per pipeline. Inte tillgänglig Ja – Om du matar in hela schemat. Se begränsningarna för antalet tabeller per pipeline. Ja – Om du matar in hela schemat. Se begränsningarna för antalet tabeller per pipeline. Ja – Om du matar in hela schemat. Se begränsningarna för antalet tabeller per pipeline.
Maximalt antal tabeller per pipeline 250 250 250 250 250 250

Autentiseringsmetoder

I följande tabell visas de autentiseringsmetoder som stöds för varje hanterad inmatningsanslutning. Databricks rekommenderar att du använder OAuth U2M eller OAuth M2M när det är möjligt. Om anslutningsappen stöder OAuth U2M eller OAuth M2M betraktas grundläggande autentisering och OAuth med manuell tokenuppdatering som äldre autentiseringsmetoder.

Connector OAuth U2M OAuth M2M OAuth (manuell uppdateringstoken) Grundläggande autentisering (användarnamn/lösenord) Grundläggande autentisering (JSON-nyckel för tjänstkonto)
Rådata för Google Analytics Ja Nej Nej Nej Ja (endast API)
ServiceNow Ja Nej Ja (endast API) Nej Nej
SharePoint (på engelska) Ja Nej Ja Nej Nej
Salesforce Ja Nej Nej Nej Nej
SQL Server Ja Nej Nej Nej Ja
Workday-rapporter Nej Nej Ja Ja Nej

Beroende av externa tjänster

Databricks SaaS, databaser och andra fullt hanterade anslutningar är beroende av tillgängligheten, kompatibiliteten och stabiliteten hos det program, den databas eller externa tjänst de ansluter till. Databricks kontrollerar inte dessa externa tjänster och har därför begränsat (om någon) påverkan på deras ändringar, uppdateringar och underhåll.

Om ändringar, störningar eller omständigheter som rör en extern tjänst hindrar eller gör det opraktiskt att en kontakt fungerar, kan Databricks sluta underhålla den kontakten. Databricks kommer att göra rimliga ansträngningar för att meddela kunderna om upphörande eller upphörande av underhåll, inklusive uppdateringar av tillämplig dokumentation.