Delen via


Beheerde connectors in Lakeflow Connect

Belangrijk

Beheerde connectors in Lakeflow Connect bevinden zich in verschillende releasefases.

Dit artikel bevat een overzicht van beheerde connectors in Databricks Lakeflow Connect voor het opnemen van gegevens uit SaaS-toepassingen en -databases. De resulterende opnamepijplijn wordt beheerd door Unity Catalog en wordt mogelijk gemaakt door serverloze compute- en Lakeflow-declaratieve pijplijnen. Beheerde connectors maken gebruik van efficiënte incrementele lees- en schrijfbewerkingen om gegevensopname sneller, schaalbaar en rendabeler te maken, terwijl uw gegevens vers blijven voor downstreamverbruik.

Onderdelen van SaaS-connector

Een SaaS-connector heeft de volgende onderdelen:

Onderdeel Beschrijving
Verbinding Een beveiligbaar object voor Unity Catalog waarin verificatiedetails voor de toepassing worden opgeslagen.
Opnamepijplijn Een pijplijn waarmee de gegevens uit de toepassing worden gekopieerd naar de doeltabellen. De opnamepijplijn wordt uitgevoerd op serverloze berekeningen.
Bestemmingstabellen De tabellen waarin de opnamepijplijn de gegevens schrijft. Dit zijn streamingtabellen, die Delta-tabellen zijn met extra ondersteuning voor incrementele gegevensverwerking.

Diagram met onderdelen van SaaS-connector

Onderdelen van databaseconnectoren

Een databaseconnector heeft de volgende onderdelen:

Onderdeel Beschrijving
Verbinding Een beveiligbaar object in Unity Catalog waarin verificatiedetails voor de database worden opgeslagen.
Invoerpoort Een pijplijn die momentopnamen, logboeken en metagegevens uit de brondatabase extraheert. De gateway draait op klassieke computer en draait continu om wijzigingen vast te leggen voordat changelogboeken in de bron worden afgekapt.
Tijdelijke opslag Een Unity Catalog-volume waarin tijdelijk geëxtraheerde gegevens worden opgeslagen voordat deze worden toegepast op de doeltabel. Hiermee kunt u uw opnamepijplijn uitvoeren volgens het gewenste schema, zelfs wanneer de gateway voortdurend wijzigingen vastlegt. Het helpt ook bij het herstellen van fouten. U maakt automatisch een faseringsopslagvolume wanneer u de gateway implementeert en u kunt de catalogus en het schema aanpassen waar deze zich bevindt. Gegevens worden na 30 dagen automatisch uit fasering verwijderd.
Opnamepijplijn Een pijplijn waarmee de gegevens uit de faseringsopslag worden verplaatst naar de doeltabellen. De pijplijn wordt uitgevoerd op serverloze berekeningen.
Bestemmingstabellen De tabellen waarin de opnamepijplijn de gegevens schrijft. Dit zijn streamingtabellen, die Delta-tabellen zijn met extra ondersteuning voor incrementele gegevensverwerking.

Diagram met onderdelen van databaseconnector

Orkestratie

U kunt uw gegevensinvoerpijplijn uitvoeren op een of meer aangepaste schema's. Voor elk schema dat u aan een pijplijn toevoegt, maakt Lakeflow Connect automatisch een taak ervoor. De opnamepijplijn is een taak binnen de opdracht. U kunt desgewenst meer taken toevoegen aan de taak.

Diagram voor pijplijnindeling voor SaaS-connectors

Voor databaseconnectors draait de verwerkingsgateway als een eigen job binnen een doorlopende taak.

Diagram voor pijplijnindeling voor databaseconnectors

Stapsgewijze opname

Lakeflow Connect maakt gebruik van incrementele opname om de efficiëntie van pijplijnen te verbeteren. Tijdens de eerste uitvoering van uw pijplijn worden alle geselecteerde gegevens uit de bron opgenomen. Parallel worden wijzigingen in de brongegevens bijgehouden. Bij elke volgende uitvoering van de pijplijn wordt het bijhouden van wijzigingen gebruikt om alleen de gegevens op te nemen die zijn gewijzigd van de vorige uitvoering, indien mogelijk.

De exacte benadering is afhankelijk van wat er beschikbaar is in uw gegevensbron. U kunt bijvoorbeeld zowel het bijhouden van wijzigingen als het vastleggen van wijzigingen (CDC) gebruiken met SQL Server. De Salesforce-connector selecteert daarentegen een cursorkolom uit een reeks van opties.

Sommige bronnen of specifieke tabellen ondersteunen op dit moment geen incrementele opname. Databricks is van plan om de dekking voor incrementele ondersteuning uit te breiden.

Netwerken

Er zijn verschillende opties voor het maken van verbinding met een SaaS-toepassing of -database.

  • Connectors voor SaaS-toepassingen maken contact met de API's van de bron. Ze zijn ook automatisch compatibel met serverless egress-controlesystemen.
  • Connectors voor clouddatabases kunnen via Private Link verbinding maken met de bron. Als uw werkruimte een virtueel netwerk (VNet) of een virtuele privécloud (VPC) heeft die gekoppeld is aan het VNet of de VPC die als host fungeert voor uw database, dan kunt u de opnamegateway erin implementeren.
  • Connectors voor on-premises databases kunnen verbinding maken met behulp van services zoals AWS Direct Connect en Azure ExpressRoute.

Uitrol

U kunt opnamepijplijnen implementeren met behulp van Databricks Asset Bundles, waarmee best practices zoals broncodebeheer, codebeoordeling, testen en continue integratie en levering (CI/CD) mogelijk zijn. Bundels worden beheerd met behulp van de Databricks CLI en kunnen worden uitgevoerd in verschillende doelwerkruimten, zoals ontwikkeling, fasering en productie.

Foutherstel

Als volledig beheerde service streeft Lakeflow Connect ernaar om waar mogelijk automatisch te herstellen van problemen. Wanneer een connector bijvoorbeeld faalt, wordt er automatisch opnieuw geprobeerd met exponentiële terugval.

Het kan echter zijn dat een fout uw tussenkomst vereist (bijvoorbeeld wanneer de inloggegevens verlopen). In deze gevallen probeert de connector ontbrekende gegevens te voorkomen door de laatste positie van de cursor op te slaan. Vervolgens kan de pijplijn, wanneer mogelijk, weer vanaf die positie doorgaan.

Controle

Lakeflow Connect biedt robuuste waarschuwingen en bewaking om u te helpen uw pijplijnen te onderhouden. Dit omvat gebeurtenislogboeken, clusterlogboeken, metrische gegevens over de pijplijnstatus en metrische gegevens over de kwaliteit van gegevens.

Geschiedenis bijhouden

De instelling voor het bijhouden van geschiedenis, ook wel bekend als de SCD-instelling (Langzaam veranderende dimensies), bepaalt hoe wijzigingen in uw gegevens in de loop van de tijd moeten worden verwerkt. Schakel het bijhouden van geschiedenis uit (SCD-type 1) om verouderde records te overschrijven wanneer ze worden bijgewerkt en verwijderd in de bron. Schakel het bijhouden van geschiedenis in (SCD-type 2) om een geschiedenis van deze wijzigingen te behouden. Als u een tabel of kolom in de bron verwijdert, worden die gegevens niet van de bestemming verwijderd, zelfs niet wanneer SCD-type 1 is geselecteerd.

Stel dat u de volgende tabel opneemt:

Voorbeeld brontabel

Stel ook dat de favoriete kleur van Alice verandert in paars op 2 januari.

Als het bijhouden van geschiedenis is uitgeschakeld (SCD-type 1), werkt de volgende uitvoering van de opnamepijplijn die rij in de doeltabel bij.

SCD type 1 voorbeeld

Als het bijhouden van geschiedenis is ingeschakeld (SCD-type 2), houdt de opnamepijplijn de oude rij bij en wordt de update toegevoegd als een nieuwe rij. Hiermee wordt de oude rij gemarkeerd als inactief, zodat u weet welke rij up-to-date is.

SCD-type 2-voorbeeld

Niet alle connectors ondersteunen het bijhouden van geschiedenis (SCD-type 2).

Functiecompatibiliteit

De volgende tabel bevat een overzicht van de beschikbaarheid van functies per connector. Zie de documentatie voor uw specifieke connector voor aanvullende functies en beperkingen.

Eigenschap Google Analytics Salesforce Werkdag SQL Server ServiceNow SharePoint
Toestand Publieke Preview Algemeen beschikbaar Algemeen beschikbaar Publieke Preview Publieke Preview Bèta
Ontwerpen van pijplijnen op basis van gebruikersinterface Ja Ja Nee. Ja Ja Nee.
Op API gebaseerde pijplijncreatie Ja Ja Ja Ja Ja Ja
Databricks Asset Pakketten Ja Ja Ja Ja Ja Ja
Stapsgewijze opname Ja Ja: met een tijdelijke uitzondering voor formulevelden. Nee. Ja Ja: met uitzonderingen wanneer uw tabel geen cursorveld heeft. Ja
Unity Catalog-beheer Ja Ja Ja Ja Ja Ja
Indeling met Databricks-werkstromen Ja Ja Ja Ja Ja Ja
SCD-type 2 Ja Nee. Ja Nee. Ja Ja
Op API gebaseerde kolomselectie en -deselectie Ja Ja Ja Ja Ja Ja
Geautomatiseerde schemaontwikkeling: nieuwe en verwijderde kolommen Ja Ja Ja Ja Ja Ja
Geautomatiseerde schemaontwikkeling: wijzigingen in gegevenstypen Nee. Nee. Nee. Nee. Nee. Nee.
Geautomatiseerde ontwikkeling van schema's: kolomnamen Ja: behandeld als een nieuwe kolom (nieuwe naam) en verwijderde kolom (oude naam). Ja: behandeld als een nieuwe kolom (nieuwe naam) en verwijderde kolom (oude naam). Ja: behandeld als een nieuwe kolom (nieuwe naam) en verwijderde kolom (oude naam). Nee: wanneer DDL-objecten zijn ingeschakeld, kan de connector de naam van de kolom wijzigen. Wanneer DDL-objecten niet zijn ingeschakeld, wordt deze door de connector behandeld als een nieuwe kolom (nieuwe naam) en een verwijderde kolom (oude naam). In beide gevallen is een volledige vernieuwing vereist. Ja: behandeld als een nieuwe kolom (nieuwe naam) en verwijderde kolom (oude naam). Ja: behandeld als een nieuwe kolom (nieuwe naam) en verwijderde kolom (oude naam).
Geautomatiseerde schemaontwikkeling: nieuwe tabellen Ja, als u het hele schema opneemt. Bekijk de beperkingen voor het aantal tabellen per pijplijn. Ja, als u het hele schema opneemt. Bekijk de beperkingen voor het aantal tabellen per pijplijn. Niet van toepassing. Ja, als u het hele schema opneemt. Bekijk de beperkingen voor het aantal tabellen per pijplijn. Ja, als u het hele schema opneemt. Bekijk de beperkingen voor het aantal tabellen per pijplijn. Ja, als u het hele schema opneemt. Bekijk de beperkingen voor het aantal tabellen per pijplijn.
Maximum aantal tabellen per pijplijn 250 250 250 250 250 250

Afhankelijkheid van externe services

Databricks SaaS, database en andere volledig beheerde connectors zijn afhankelijk van de toegankelijkheid, compatibiliteit en stabiliteit van de toepassing, database of externe service waarmee ze verbinding maken. Databricks beheert deze externe services niet en heeft daarom beperkte (indien van toepassing) invloed op hun wijzigingen, updates en onderhoud.

Als wijzigingen, onderbrekingen of omstandigheden met betrekking tot een externe service de werking van een connector belemmeren of onpraktisch maken, kan Databricks die connector stopzetten of niet meer onderhouden. Databricks zal redelijke inspanningen leveren om klanten op de hoogte te stellen van stopzetting of beëindiging van onderhoud, inclusief updates voor de toepasselijke documentatie.