Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Beheerde connectors in Lakeflow Connect bevinden zich in verschillende releasefases.
Dit artikel bevat een overzicht van beheerde connectors in Databricks Lakeflow Connect voor het opnemen van gegevens uit SaaS-toepassingen en -databases. De resulterende opnamepijplijn wordt beheerd door Unity Catalog en wordt mogelijk gemaakt door serverloze compute- en Lakeflow-declaratieve pijplijnen. Beheerde connectors maken gebruik van efficiënte incrementele lees- en schrijfbewerkingen om gegevensopname sneller, schaalbaar en rendabeler te maken, terwijl uw gegevens vers blijven voor downstreamverbruik.
Onderdelen van SaaS-connector
Een SaaS-connector heeft de volgende onderdelen:
Onderdeel | Beschrijving |
---|---|
Verbinding | Een beveiligbaar object voor Unity Catalog waarin verificatiedetails voor de toepassing worden opgeslagen. |
Opnamepijplijn | Een pijplijn waarmee de gegevens uit de toepassing worden gekopieerd naar de doeltabellen. De opnamepijplijn wordt uitgevoerd op serverloze berekeningen. |
Bestemmingstabellen | De tabellen waarin de opnamepijplijn de gegevens schrijft. Dit zijn streamingtabellen, die Delta-tabellen zijn met extra ondersteuning voor incrementele gegevensverwerking. |
Onderdelen van databaseconnectoren
Een databaseconnector heeft de volgende onderdelen:
Onderdeel | Beschrijving |
---|---|
Verbinding | Een beveiligbaar object in Unity Catalog waarin verificatiedetails voor de database worden opgeslagen. |
Invoerpoort | Een pijplijn die momentopnamen, logboeken en metagegevens uit de brondatabase extraheert. De gateway draait op klassieke computer en draait continu om wijzigingen vast te leggen voordat changelogboeken in de bron worden afgekapt. |
Tijdelijke opslag | Een Unity Catalog-volume waarin tijdelijk geëxtraheerde gegevens worden opgeslagen voordat deze worden toegepast op de doeltabel. Hiermee kunt u uw opnamepijplijn uitvoeren volgens het gewenste schema, zelfs wanneer de gateway voortdurend wijzigingen vastlegt. Het helpt ook bij het herstellen van fouten. U maakt automatisch een faseringsopslagvolume wanneer u de gateway implementeert en u kunt de catalogus en het schema aanpassen waar deze zich bevindt. Gegevens worden na 30 dagen automatisch uit fasering verwijderd. |
Opnamepijplijn | Een pijplijn waarmee de gegevens uit de faseringsopslag worden verplaatst naar de doeltabellen. De pijplijn wordt uitgevoerd op serverloze berekeningen. |
Bestemmingstabellen | De tabellen waarin de opnamepijplijn de gegevens schrijft. Dit zijn streamingtabellen, die Delta-tabellen zijn met extra ondersteuning voor incrementele gegevensverwerking. |
Orkestratie
U kunt uw gegevensinvoerpijplijn uitvoeren op een of meer aangepaste schema's. Voor elk schema dat u aan een pijplijn toevoegt, maakt Lakeflow Connect automatisch een taak ervoor. De opnamepijplijn is een taak binnen de opdracht. U kunt desgewenst meer taken toevoegen aan de taak.
Voor databaseconnectors draait de verwerkingsgateway als een eigen job binnen een doorlopende taak.
Stapsgewijze opname
Lakeflow Connect maakt gebruik van incrementele opname om de efficiëntie van pijplijnen te verbeteren. Tijdens de eerste uitvoering van uw pijplijn worden alle geselecteerde gegevens uit de bron opgenomen. Parallel worden wijzigingen in de brongegevens bijgehouden. Bij elke volgende uitvoering van de pijplijn wordt het bijhouden van wijzigingen gebruikt om alleen de gegevens op te nemen die zijn gewijzigd van de vorige uitvoering, indien mogelijk.
De exacte benadering is afhankelijk van wat er beschikbaar is in uw gegevensbron. U kunt bijvoorbeeld zowel het bijhouden van wijzigingen als het vastleggen van wijzigingen (CDC) gebruiken met SQL Server. De Salesforce-connector selecteert daarentegen een cursorkolom uit een reeks van opties.
Sommige bronnen of specifieke tabellen ondersteunen op dit moment geen incrementele opname. Databricks is van plan om de dekking voor incrementele ondersteuning uit te breiden.
Netwerken
Er zijn verschillende opties voor het maken van verbinding met een SaaS-toepassing of -database.
- Connectors voor SaaS-toepassingen maken contact met de API's van de bron. Ze zijn ook automatisch compatibel met serverless egress-controlesystemen.
- Connectors voor clouddatabases kunnen via Private Link verbinding maken met de bron. Als uw werkruimte een virtueel netwerk (VNet) of een virtuele privécloud (VPC) heeft die gekoppeld is aan het VNet of de VPC die als host fungeert voor uw database, dan kunt u de opnamegateway erin implementeren.
- Connectors voor on-premises databases kunnen verbinding maken met behulp van services zoals AWS Direct Connect en Azure ExpressRoute.
Uitrol
U kunt opnamepijplijnen implementeren met behulp van Databricks Asset Bundles, waarmee best practices zoals broncodebeheer, codebeoordeling, testen en continue integratie en levering (CI/CD) mogelijk zijn. Bundels worden beheerd met behulp van de Databricks CLI en kunnen worden uitgevoerd in verschillende doelwerkruimten, zoals ontwikkeling, fasering en productie.
Foutherstel
Als volledig beheerde service streeft Lakeflow Connect ernaar om waar mogelijk automatisch te herstellen van problemen. Wanneer een connector bijvoorbeeld faalt, wordt er automatisch opnieuw geprobeerd met exponentiële terugval.
Het kan echter zijn dat een fout uw tussenkomst vereist (bijvoorbeeld wanneer de inloggegevens verlopen). In deze gevallen probeert de connector ontbrekende gegevens te voorkomen door de laatste positie van de cursor op te slaan. Vervolgens kan de pijplijn, wanneer mogelijk, weer vanaf die positie doorgaan.
Controle
Lakeflow Connect biedt robuuste waarschuwingen en bewaking om u te helpen uw pijplijnen te onderhouden. Dit omvat gebeurtenislogboeken, clusterlogboeken, metrische gegevens over de pijplijnstatus en metrische gegevens over de kwaliteit van gegevens.
Geschiedenis bijhouden
De instelling voor het bijhouden van geschiedenis, ook wel bekend als de SCD-instelling (Langzaam veranderende dimensies), bepaalt hoe wijzigingen in uw gegevens in de loop van de tijd moeten worden verwerkt. Schakel het bijhouden van geschiedenis uit (SCD-type 1) om verouderde records te overschrijven wanneer ze worden bijgewerkt en verwijderd in de bron. Schakel het bijhouden van geschiedenis in (SCD-type 2) om een geschiedenis van deze wijzigingen te behouden. Als u een tabel of kolom in de bron verwijdert, worden die gegevens niet van de bestemming verwijderd, zelfs niet wanneer SCD-type 1 is geselecteerd.
Stel dat u de volgende tabel opneemt:
Stel ook dat de favoriete kleur van Alice verandert in paars op 2 januari.
Als het bijhouden van geschiedenis is uitgeschakeld (SCD-type 1), werkt de volgende uitvoering van de opnamepijplijn die rij in de doeltabel bij.
Als het bijhouden van geschiedenis is ingeschakeld (SCD-type 2), houdt de opnamepijplijn de oude rij bij en wordt de update toegevoegd als een nieuwe rij. Hiermee wordt de oude rij gemarkeerd als inactief, zodat u weet welke rij up-to-date is.
Niet alle connectors ondersteunen het bijhouden van geschiedenis (SCD-type 2).
Functiecompatibiliteit
De volgende tabel bevat een overzicht van de beschikbaarheid van functies per connector. Zie de documentatie voor uw specifieke connector voor aanvullende functies en beperkingen.
Eigenschap | Google Analytics | Salesforce | Werkdag | SQL Server | ServiceNow | SharePoint |
---|---|---|---|---|---|---|
Toestand | Publieke Preview | Algemeen beschikbaar | Algemeen beschikbaar | Publieke Preview | Publieke Preview | Bèta |
Ontwerpen van pijplijnen op basis van gebruikersinterface | Ja | Ja | Nee. | Ja | Ja | Nee. |
Op API gebaseerde pijplijncreatie | Ja | Ja | Ja | Ja | Ja | Ja |
Databricks Asset Pakketten | Ja | Ja | Ja | Ja | Ja | Ja |
Stapsgewijze opname | Ja | Ja: met een tijdelijke uitzondering voor formulevelden. | Nee. | Ja | Ja: met uitzonderingen wanneer uw tabel geen cursorveld heeft. | Ja |
Unity Catalog-beheer | Ja | Ja | Ja | Ja | Ja | Ja |
Indeling met Databricks-werkstromen | Ja | Ja | Ja | Ja | Ja | Ja |
SCD-type 2 | Ja | Nee. | Ja | Nee. | Ja | Ja |
Op API gebaseerde kolomselectie en -deselectie | Ja | Ja | Ja | Ja | Ja | Ja |
Geautomatiseerde schemaontwikkeling: nieuwe en verwijderde kolommen | Ja | Ja | Ja | Ja | Ja | Ja |
Geautomatiseerde schemaontwikkeling: wijzigingen in gegevenstypen | Nee. | Nee. | Nee. | Nee. | Nee. | Nee. |
Geautomatiseerde ontwikkeling van schema's: kolomnamen | Ja: behandeld als een nieuwe kolom (nieuwe naam) en verwijderde kolom (oude naam). | Ja: behandeld als een nieuwe kolom (nieuwe naam) en verwijderde kolom (oude naam). | Ja: behandeld als een nieuwe kolom (nieuwe naam) en verwijderde kolom (oude naam). | Nee: wanneer DDL-objecten zijn ingeschakeld, kan de connector de naam van de kolom wijzigen. Wanneer DDL-objecten niet zijn ingeschakeld, wordt deze door de connector behandeld als een nieuwe kolom (nieuwe naam) en een verwijderde kolom (oude naam). In beide gevallen is een volledige vernieuwing vereist. | Ja: behandeld als een nieuwe kolom (nieuwe naam) en verwijderde kolom (oude naam). | Ja: behandeld als een nieuwe kolom (nieuwe naam) en verwijderde kolom (oude naam). |
Geautomatiseerde schemaontwikkeling: nieuwe tabellen | Ja, als u het hele schema opneemt. Bekijk de beperkingen voor het aantal tabellen per pijplijn. | Ja, als u het hele schema opneemt. Bekijk de beperkingen voor het aantal tabellen per pijplijn. | Niet van toepassing. | Ja, als u het hele schema opneemt. Bekijk de beperkingen voor het aantal tabellen per pijplijn. | Ja, als u het hele schema opneemt. Bekijk de beperkingen voor het aantal tabellen per pijplijn. | Ja, als u het hele schema opneemt. Bekijk de beperkingen voor het aantal tabellen per pijplijn. |
Maximum aantal tabellen per pijplijn | 250 | 250 | 250 | 250 | 250 | 250 |
Afhankelijkheid van externe services
Databricks SaaS, database en andere volledig beheerde connectors zijn afhankelijk van de toegankelijkheid, compatibiliteit en stabiliteit van de toepassing, database of externe service waarmee ze verbinding maken. Databricks beheert deze externe services niet en heeft daarom beperkte (indien van toepassing) invloed op hun wijzigingen, updates en onderhoud.
Als wijzigingen, onderbrekingen of omstandigheden met betrekking tot een externe service de werking van een connector belemmeren of onpraktisch maken, kan Databricks die connector stopzetten of niet meer onderhouden. Databricks zal redelijke inspanningen leveren om klanten op de hoogte te stellen van stopzetting of beëindiging van onderhoud, inclusief updates voor de toepasselijke documentatie.