Wat is Lakeflow Connect?

Lakeflow Connect biedt eenvoudige en efficiënte connectors voor het opnemen van gegevens uit lokale bestanden, populaire bedrijfstoepassingen, databases, cloudopslag, berichtenbussen en meer. Op deze pagina vindt u een overzicht van een aantal manieren waarop Lakeflow Connect ETL-prestaties kan verbeteren. Het behandelt ook veelvoorkomende gebruikssituaties en het scala aan ondersteunde invoertools, van volledig beheerde verbindingen tot volledig aanpasbare frameworks.

Flexibele servicemodellen

Lakeflow Connect biedt een breed scala aan connectors voor bedrijfstoepassingen, cloudopslag, databases, berichtenbussen en meer. Het biedt u ook de flexibiliteit om te kiezen tussen het volgende:

Optie Beschrijving
Een volledig beheerde service Out-of-the-box connectors die gegevenstoegang democratiseren met eenvoudige UI's en krachtige API's. Hierdoor kunt u snel robuuste opnamepijplijnen maken en tegelijkertijd de onderhoudskosten op de lange termijn minimaliseren.
Een aangepaste pijplijn Als u meer aanpassingen nodig hebt, kunt u declaratieve Pijplijnen van Lakeflow Spark of Structured Streaming gebruiken. Dankzij deze veelzijdigheid kan Lakeflow Connect uiteindelijk voldoen aan de specifieke behoeften van uw organisatie.

Eenwording met kernhulpprogramma's van Databricks

Lakeflow Connect maakt gebruik van de kernfuncties van Databricks om uitgebreid gegevensbeheer te bieden. Het biedt bijvoorbeeld governance met behulp van Unity Catalog, orkestratie van Lakeflow-banen en holistische bewaking van uw pijplijnen. Dit helpt uw organisatie bij het beheren van gegevensbeveiliging, -kwaliteit en -kosten, terwijl u uw opnameprocessen samenvoegt met uw andere hulpprogramma's voor data engineering. Lakeflow Connect is gebouwd op een open Data Intelligence Platform, met volledige flexibiliteit om uw favoriete hulpprogramma's van derden op te nemen. Dit zorgt voor een op maat gemaakte oplossing die overeenkomt met uw bestaande infrastructuur en toekomstige gegevensstrategieën.

Snelle, schaalbare opname

Lakeflow Connect maakt gebruik van incrementele lees- en schrijfbewerkingen om efficiënte opname mogelijk te maken. In combinatie met incrementele transformaties downstream kan dit de ETL-prestaties aanzienlijk verbeteren.

Veelvoorkomende gebruiksvoorbeelden

Klanten nemen gegevens op om de meest uitdagende problemen van hun organisatie op te lossen. Voorbeelden van gebruiksmogelijkheden zijn:

Gebruiksituatie Beschrijving
Klant 360 De prestaties van de campagne en het scoren van leads van klanten meten
Portfoliobeheer Roi maximaliseren met historische en prognosemodellen
Consumentenanalyse De aankoopervaringen van uw klanten aanpassen
Gecentraliseerd personeelszaken Het personeel van uw organisatie ondersteunen
Digital twins (Digitale tweelingen) Productie-efficiëntie verhogen
RAG-chatbots Chatbots bouwen om gebruikers inzicht te geven in beleid, producten en meer

Lagen van de ETL-stack

Sommige connectors werken op één niveau van de ETL-stack. Databricks biedt bijvoorbeeld volledig beheerde connectors voor bedrijfstoepassingen zoals Salesforce en databases zoals SQL Server. Andere connectors werken op een andere laag van de ETL-stack. U kunt bijvoorbeeld standaardconnectors gebruiken in Lakeflow Spark-declaratieve pijplijnen voor meer aanpassingsopties. Op dezelfde manier kunt u uw aanpassingsniveau kiezen voor streaminggegevens van Apache Kafka, Amazon Kinesis, Google Pub/Sub en Apache Pulsar.

Databricks raadt aan om te beginnen met de meest beheerde laag. Als deze niet voldoet aan uw vereisten (bijvoorbeeld als deze geen ondersteuning biedt voor uw gegevensbron), gaat u naar de volgende laag.

In de volgende tabel worden de lagen van opnameproducten beschreven:

Laag Beschrijving
Declaratieve Pijplijnen van Lakeflow Spark Lakeflow Spark-declaratieve pijplijnen biedt een declaratief framework voor het maken van gegevenspijplijnen. Definieer uw transformaties en declaratieve Pijplijnen van Lakeflow Spark beheert indeling, bewaking, gegevenskwaliteit, fouten en meer. Het bouwt voort op Structured Streaming voor streaming en ondersteunt de meeste structured streaming-functies. Voor een structured streaming-functie die nog niet beschikbaar is in Lakeflow Spark-declaratieve pijplijnen, kunt u Structured Streaming-API's rechtstreeks gebruiken.
Volledig beheerde connectors Volledig beheerde connectors bouwen voort op declaratieve Pijplijnen van Lakeflow Spark, wat nog meer automatisering biedt voor de populairste gegevensbronnen. Ze breiden de functionaliteit van Lakeflow Spark-declaratieve pijplijnen uit om ook bronspecifieke verificatie, CDC, verwerking van edge-cases, onderhoud van api's op lange termijn, geautomatiseerde pogingen, geautomatiseerde schemaontwikkeling, enzovoort, toe te voegen. Daarom bieden ze nog meer automatisering voor ondersteunde gegevensbronnen.

Beheerde connectors

U kunt volledig beheerde connectors gebruiken om gegevens op te nemen uit bedrijfstoepassingen en -databases. Zie Beheerde connectors in Lakeflow Connect voor een compleet overzicht van ondersteunde connectors.

Ondersteunde interfaces zijn:

  • Databricks-gebruikersinterface
  • Declaratieve automatiseringsbundels
  • Databricks API's
  • Databricks SDK's
  • Databricks-CLI

Standaardconnectors

Naast de beheerde connectors biedt Databricks aanpasbare connectors voor cloudobjectopslag en berichtenbussen. Zie standardconnectoren in Lakeflow Connect.

Een tabel maken of wijzigen vanuit het uploaden van bestanden (gebruikersinterface voor gegevens toevoegen)

U kunt bestanden opnemen die zich in uw lokale netwerk bevinden, bestanden die zijn geüpload naar een volume of bestanden die zijn gedownload van een internetlocatie. Zie Een tabel maken of wijzigen met behulp van het uploaden van bestanden.

integratie- of verwerkingspartners

Veel hulpprogramma's van derden ondersteunen batch- of streamingopname in Databricks. Databricks valideert verschillende integraties van derden, hoewel de stappen voor het configureren van toegang tot bronsystemen en opnamegegevens per hulpprogramma verschillen. Zie invoerpartners voor een lijst met gevalideerde tools. Sommige technologiepartners zijn ook beschikbaar in Databricks Partner Connect, met een gebruikersinterface die het verbinden van hulpprogramma's van derden met Lakehouse-gegevens vereenvoudigt.

DIY-Invoer

Databricks biedt een algemeen rekenplatform. Als gevolg hiervan kunt u uw eigen opnameconnectors maken met behulp van elke programmeertaal die wordt ondersteund door Databricks, zoals Python of Java. U kunt ook populaire opensource-connectorbibliotheken importeren en gebruiken, zoals het hulpprogramma voor het laden van gegevens, Airbyte en Debezium.

alternatieven voor inname

Databricks raadt de opname aan voor de meeste gebruiksvoorbeelden, omdat deze wordt geschaald voor grote gegevensvolumes, query's met lage latentie en API-limieten van derden. Het opnameproces kopieert gegevens van uw bronsystemen naar Azure Databricks, wat resulteert in dubbele gegevens die na verloop van tijd verouderd kunnen raken. Als u geen gegevens wilt kopiëren, kunt u de volgende hulpprogramma's gebruiken:

Werktuig Beschrijving
Lakehouse Federation Hiermee kunt u query's uitvoeren op externe gegevensbronnen zonder uw gegevens te verplaatsen.
Delta Delen Hiermee kunt u veilig gegevens delen tussen platforms, clouds en regio's.