Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Viktigt!
Hanterade anslutningar i Lakeflow Connect är i olika versionslägen.
Den här artikeln innehåller en översikt över hanterade anslutningar i Databricks Lakeflow Connect för att hämta data från SaaS-tillämpningar och databaser. Den resulterande inmatningspipelinen styrs av Unity Catalog och drivs av serverlösa beräknings- och Lakeflow-deklarativa pipelines. Hanterade kopplingar utnyttjar effektiva inkrementella läsningar och skrivningar för att göra datainföringen snabbare, mer skalbar och mer kostnadseffektiv, medan era data förblir aktuella för nedströmsförbrukning.
SaaS-anslutningskomponenter
En SaaS-anslutning har följande komponenter:
| Komponent | Beskrivning |
|---|---|
| Anslutning | Ett skyddsbart Unity Catalog-objekt som lagrar autentiseringsinformation för programmet. |
| Inmatningspipeline | En pipeline som kopierar data från programmet till måltabellerna. Inmatningspipelinen körs på serverlös beräkning. |
| Destinationstabeller | Tabellerna där inmatningspipelinen skriver data. Det här är strömmande tabeller, som är Delta-tabeller med extra stöd för inkrementell databearbetning. |
Komponenter för databasanslutning
En databasanslutning har följande komponenter:
| Komponent | Beskrivning |
|---|---|
| Anslutning | Ett skyddsbart Unity Catalog-objekt som lagrar autentiseringsinformation för databasen. |
| Inmatningsgränssnitt | En pipeline som extraherar ögonblicksbilder, ändringsloggar och metadata från källdatabasen. Gatewayen körs på klassisk beräkning och körs kontinuerligt för att samla in ändringar innan ändringsloggar kan trunkeras i källan. |
| Förberedande lagring | En Unity Catalog-volym som tillfälligt lagrar extraherade data innan den tillämpas på måltabellen. På så sätt kan du köra inmatningspipelinen enligt vilket schema du vill, även om gatewayen kontinuerligt registrerar ändringar. Det hjälper också till med återställning av fel. Du skapar automatiskt en mellanlagringsvolym när du distribuerar gatewayen och du kan anpassa katalogen och schemat där den finns. Data rensas automatiskt från mellanlagring efter 30 dagar. |
| Inmatningspipeline | En pipeline som flyttar data från mellanlagring till måltabellerna. Pipelinen körs på serverlös beräkning. |
| Destinationstabeller | Tabellerna där inmatningspipelinen skriver data. Det här är strömmande tabeller, som är Delta-tabeller med extra stöd för inkrementell databearbetning. |
Orkestrering
Du kan köra din inmatningspipeline enligt ett eller flera anpassade scheman. För varje schema som du lägger till i en pipeline skapar Lakeflow Connect automatiskt ett jobb för den. Inmatningspipelinen är en uppgift i jobbet. Du kan också lägga till fler aktiviteter i jobbet.
För databasanslutningar körs inmatningsgatewayen i sitt eget jobb som en kontinuerlig uppgift.
Inkrementell intagning
Lakeflow Connect använder inkrementell inmatning för att förbättra pipelineeffektiviteten. Vid den första körningen av din pipeline matar den in alla valda data från källan. Parallellt spårar den ändringar i källdata. Vid varje efterföljande körning av pipelinen använder den ändringsspårningen för att mata in endast de data som har ändrats från den tidigare körningen, när det är möjligt.
Den exakta metoden beror på vad som är tillgängligt i datakällan. Du kan till exempel använda både ändringsspårning och ändringsdatainsamling (CDC) med SQL Server. Salesforce-anslutningen väljer däremot en markörkolumn från en lista med förvalda alternativ.
Vissa källor eller specifika tabeller stöder inte inkrementell inmatning just nu. Databricks planerar att utöka täckningen för inkrementell support.
Nätverkande
Det finns flera alternativ för att ansluta till ett SaaS-program eller en databas.
- Anslutningsappar för SaaS-program når källans API:er. De är också automatiskt kompatibla med serverlösa utgående kontroller.
- Konnektorer för molndatabaser kan ansluta till källan via Private Link. Om din arbetsyta har ett virtuellt nätverk (VNet) eller virtuellt privat moln (VPC) som är peerkopplat med det virtuella nätverket eller VPC som är värd för databasen kan du distribuera inmatningsgatewayen inuti den.
- Anslutningar för lokala databaser kan ansluta med hjälp av tjänster som AWS Direct Connect och Azure ExpressRoute.
Driftsättning
Du kan distribuera inmatningspipelines med Databricks Asset Bundles, som möjliggör bästa praxis som källkodskontroll, kodgranskning, testning och kontinuerlig integrering och leverans (CI/CD). Paket hanteras med Databricks CLI och kan köras på olika målarbetsytor, till exempel utveckling, mellanlagring och produktion.
Återställning vid fel
Som en fullständigt hanterad tjänst strävar Lakeflow Connect efter att automatiskt återställa från problem när det är möjligt. När en anslutning till exempel misslyckas försöker den automatiskt igen med exponentiell backoff.
Det är dock möjligt att ett fel kräver din åtgärd (till exempel när autentiseringsuppgifterna upphör att gälla). I dessa fall försöker anslutningsappen undvika data som saknas genom att lagra markörens sista position. Den kan sedan återuppta från den positionen vid nästa körning av pipelinen när det är möjligt.
Övervakning
Lakeflow Connect tillhandahåller robusta aviseringar och övervakning som hjälper dig att underhålla dina pipelines. Detta inkluderar händelseloggar, klusterloggar, hälsomått för pipeline och datakvalitetsmått.
Funktionskompatibilitet
I följande tabell sammanfattas funktionstillgängligheten för varje hanterad inmatningsanslutning. Ytterligare funktioner och begränsningar finns i dokumentationen för din specifika anslutningsapp.
| Egenskap | Google Analytics | Salesforce | Arbetsdag | SQL Server | ServiceNow | SharePoint (på engelska) |
|---|---|---|---|---|---|---|
| Läge | Allmänt tillgängligt | Allmänt tillgängligt | Allmänt tillgängligt | Allmänt tillgängligt | Allmänt tillgängligt | Beta-version |
| Redigering av användargränssnittsbaserad pipeline | Ja | Ja | Nej | Ja | Ja | Nej |
| API-baserad pipelineutformning | Ja | Ja | Ja | Ja | Ja | Ja |
| Databricks-resurspaket | Ja | Ja | Ja | Ja | Ja | Ja |
| Inkrementell intagning | Ja | Ja – Med ett tillfälligt undantag för formelfält. Mer information finns i How does the connector incrementally pull updates?. | Nej | Ja | Ja – Med undantag när tabellen saknar ett markörfält. | Ja |
| Styrning av Unity-katalog | Ja | Ja | Ja | Ja | Ja | Ja |
| Orkestrering med Databricks-arbetsflöden | Ja | Ja | Ja | Ja | Ja | Ja |
| SCD-typ 2 | Ja | Nej | Ja | Ja | Ja | Ja |
| API-baserad kolumnmarkering och avmarkering | Ja | Ja | Ja | Ja | Ja | Ja |
| Automatiserad schemautveckling: Nya och borttagna kolumner | Ja | Ja | Ja | Ja | Ja | Ja |
| Automatiserad schemautveckling: Ändringar av datatyp | Nej | Nej | Nej | Nej | Nej | Nej |
| Automatiserad schemautveckling: Kolumnbyten | Ja – Behandlas som en ny kolumn (nytt namn) och borttagen kolumn (gammalt namn). | Ja – Behandlas som en ny kolumn (nytt namn) och borttagen kolumn (gammalt namn). | Ja – Behandlas som en ny kolumn (nytt namn) och borttagen kolumn (gammalt namn). | Nej – När DDL-objekt är aktiverade kan anslutningsappen byta namn på kolumnen. När DDL-objekt inte är aktiverade behandlar anslutningsappen detta som en ny kolumn (nytt namn) och en borttagen kolumn (gammalt namn). I båda fallen kräver det en fullständig uppdatering. | Ja – Behandlas som en ny kolumn (nytt namn) och borttagen kolumn (gammalt namn). | Ja – Behandlas som en ny kolumn (nytt namn) och borttagen kolumn (gammalt namn). |
| Automatiserad schemautveckling: Nya tabeller | Ja – Om du matar in hela schemat. Se begränsningarna för antalet tabeller per pipeline. | Ja – Om du matar in hela schemat. Se begränsningarna för antalet tabeller per pipeline. | Inte tillgänglig | Ja – Om du matar in hela schemat. Se begränsningarna för antalet tabeller per pipeline. | Ja – Om du matar in hela schemat. Se begränsningarna för antalet tabeller per pipeline. | Ja – Om du matar in hela schemat. Se begränsningarna för antalet tabeller per pipeline. |
| Maximalt antal tabeller per pipeline | 250 | 250 | 250 | 250 | 250 | 250 |
Autentiseringsmetoder
I följande tabell visas de autentiseringsmetoder som stöds för varje hanterad inmatningsanslutning. Databricks rekommenderar att du använder OAuth U2M eller OAuth M2M när det är möjligt. Om anslutningsappen stöder OAuth U2M eller OAuth M2M betraktas grundläggande autentisering och OAuth med manuell tokenuppdatering som äldre autentiseringsmetoder.
| Connector | OAuth U2M | OAuth M2M | OAuth (manuell uppdateringstoken) | Grundläggande autentisering (användarnamn/lösenord) | Grundläggande autentisering (JSON-nyckel för tjänstkonto) |
|---|---|---|---|---|---|
| Rådata för Google Analytics | Ja | Nej | Nej | Nej | Ja (endast API) |
| ServiceNow | Ja | Nej | Ja (endast API) | Nej | Nej |
| SharePoint (på engelska) | Ja | Nej | Ja | Nej | Nej |
| Salesforce | Ja | Nej | Nej | Nej | Nej |
| SQL Server | Ja | Nej | Nej | Nej | Ja |
| Workday-rapporter | Nej | Nej | Ja | Ja | Nej |
Beroende av externa tjänster
Databricks SaaS, databaser och andra fullt hanterade anslutningar är beroende av tillgängligheten, kompatibiliteten och stabiliteten hos det program, den databas eller externa tjänst de ansluter till. Databricks kontrollerar inte dessa externa tjänster och har därför begränsat (om någon) påverkan på deras ändringar, uppdateringar och underhåll.
Om ändringar, störningar eller omständigheter som rör en extern tjänst hindrar eller gör det opraktiskt att en kontakt fungerar, kan Databricks sluta underhålla den kontakten. Databricks kommer att göra rimliga ansträngningar för att meddela kunderna om upphörande eller upphörande av underhåll, inklusive uppdateringar av tillämplig dokumentation.