Hurtig start: Flyt og transformér data med dataflow og datapipelines

I dette selvstudium finder du ud af, hvordan dataflow- og datapipelineoplevelsen kan skabe en effektiv og omfattende Data Factory-løsning.

Forudsætninger

Du skal have følgende forudsætninger for at komme i gang:

Dataflow sammenlignet med pipelines

Med Dataflow Gen2 kan du bruge en grænseflade med lav kode og mere end 300 data og AI-baserede transformationer til nemt at rense, forberede og transformere data med større fleksibilitet end noget andet værktøj. Datapipelines gør det muligt at oprette fleksible dataarbejdsprocesser, der opfylder virksomhedens behov, ved hjælp af avancerede orkestreringsfunktioner til dataorkestrering. I en pipeline kan du oprette logiske grupperinger af aktiviteter, der udfører en opgave, hvilket kan omfatte at kalde et dataflow for at rense og forberede dine data. Selvom der er nogle funktionalitetsoverlapninger mellem de to, afhænger valget af, hvilke der skal bruges til et bestemt scenarie, af, om du har brug for en komplet rigdom af pipelines eller kan bruge de enklere, men mere begrænsede funktioner i dataflows. Du kan finde flere oplysninger i Fabric-beslutningsvejledningen

Transformér data med dataflow

Følg disse trin for at konfigurere dit dataflow.

Trin 1: Opret et dataflow

  1. Vælg dit Fabric-aktiverede arbejdsområde, og vælg derefter Ny. Vælg derefter Dataflow Gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. Vinduet datafloweditor vises. Vælg kortet Importér fra SQL Server .

    Screenshot showing the dataflow editor window.

Trin 2: Hent data

  1. I dialogboksen Forbind til datakilde, der vises næste, skal du angive detaljerne for at oprette forbindelse til din Azure SQL-database og derefter vælge Næste. I dette eksempel skal du bruge eksempeldatabasen AdventureWorksLT , der er konfigureret, når du konfigurerer Azure SQL-databasen i forudsætningerne.

    Screenshot showing how to connect to an Azure SQL database.

  2. Vælg de data, du vil transformere, og vælg derefter Opret. Til denne hurtige introduktion skal du vælge SalesLT.Customer fra AdventureWorksLT-eksempeldataene, der er angivet for Azure SQL DB, og derefter knappen Vælg relaterede tabeller for automatisk at inkludere to andre relaterede tabeller.

    Screenshot showing where to choose from the available data.

Trin 3: Transformér dine data

  1. Hvis den ikke er markeret, skal du vælge knappen Diagramvisning langs statuslinjen nederst på siden eller vælge Diagramvisning i menuen Vis øverst i Power Query-editoren. En af disse indstillinger kan slå diagramvisningen til eller fra.

    Screenshot showing where to select diagram view.

  2. Højreklik på din SalesLT Customer-forespørgsel, eller vælg den lodrette ellipse til højre for forespørgslen, og vælg derefter Flet forespørgsler.

    Screenshot showing where to find the Merge queries option.

  3. Konfigurer fletningen ved at vælge tabellen SalesLTOrderHeader som den højre tabel til fletningen , kolonnen CustomerID fra hver tabel som joinkolonnen og Venstre ydre som joinforbindelsestype. Vælg derefter OK for at tilføje fletteforespørgslen.

    Screenshot of the Merge configuration screen.

  4. Vælg knappen Tilføj datadestination , der ligner et databasesymbol med en pil over den, fra den nye fletteforespørgsel, du lige har oprettet. Vælg derefter Azure SQL-database som destinationstype.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Angiv oplysninger om din Azure SQL-databaseforbindelse, hvor fletteforespørgslen skal publiceres. I dette eksempel kan du også bruge databasen AdventureWorksLT , som vi brugte som datakilde for destinationen.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Vælg en database til lagring af dataene, angiv et tabelnavn, og vælg derefter Næste.

    Screenshot showing the Choose destination target window.

  7. Du kan lade standardindstillingerne være i dialogboksen Vælg destinationsindstillinger og blot vælge Gem indstillinger uden at foretage ændringer her.

    Screenshot showing the Choose destination settings dialog.

  8. Vælg Publicer tilbage på siden med datafloweditoren for at publicere dataflowet.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Flyt data med datapipelines

Nu, hvor du har oprettet et Dataflow Gen2, kan du arbejde med det i en pipeline. I dette eksempel kopierer du de data, der er genereret fra dataflowet, til tekstformat på en Azure Blob Storage-konto.

Trin 1: Opret en ny datapipeline

  1. Vælg Ny i dit arbejdsområde, og vælg derefter Datapipeline.

    Screenshot showing where to start a new data pipeline.

  2. Navngiv din pipeline, og vælg derefter Opret.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Trin 2: Konfigurer dit dataflow

  1. Føj en ny dataflowaktivitet til din datapipeline ved at vælge Dataflow under fanen Aktiviteter .

    Screenshot showing where to select the Dataflow option.

  2. Vælg dataflowet på pipelinelærredet, og vælg derefter fanen Indstillinger. Vælg det dataflow, du oprettede tidligere, på rullelisten.

    Screenshot showing how to choose the dataflow you created.

  3. Vælg Gem, og kør derefterfor at køre dataflowet for først at udfylde den flettede forespørgselstabel, du designede i det foregående trin.

    Screenshot showing where to select Run.

Trin 3: Brug kopiassistenten til at tilføje en kopiaktivitet

  1. Vælg Kopiér data på lærredet for at åbne værktøjet Kopiér assistent for at komme i gang. Eller vælg Brug kopiassistentrullelisten Kopiér data under fanen Aktiviteter på båndet.

    Screenshot showing the two ways to access the copy assistant.

  2. Vælg din datakilde ved at vælge en datakildetype. I dette selvstudium skal du bruge den Azure SQL Database, der tidligere blev brugt, da du oprettede dataflowet, til at generere en ny fletteforespørgsel. Rul ned under eksempeldatatilbudene, og vælg fanen Azure og derefter Azure SQL Database. Vælg derefter Næste for at fortsætte.

    Screenshot showing where to choose a data source.

  3. Opret en forbindelse til datakilden ved at vælge Opret ny forbindelse. Udfyld de påkrævede forbindelsesoplysninger i panelet, og angiv AdventureWorksLT for databasen, hvor vi oprettede fletteforespørgslen i dataflowet. Vælg derefter Næste.

    Screenshot showing where to create a new connection.

  4. Vælg den tabel, du oprettede i dataflowtrinnet tidligere, og vælg derefter Næste.

    Screenshot showing how to select from available tables.

  5. Vælg Azure Blob Storage for din destination, og vælg derefter Næste.

    Screenshot showing the Azure Blob Storage data destination.

  6. Opret en forbindelse til destinationen ved at vælge Opret ny forbindelse. Angiv detaljerne for forbindelsen, og vælg derefter Næste.

    Screenshot showing how to create a connection.

  7. Vælg stien til mappen, angiv et filnavn, og vælg derefter Næste.

    Screenshot showing how to select folder path and file name.

  8. Vælg Næste igen for at acceptere standardfilformatet, kolonneafgrænseren, rækkeafgrænseren og komprimeringstypen, eventuelt inklusive en overskrift.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Afslut indstillingerne. Gennemse derefter, og vælg Gem + Kør for at afslutte processen.

    Screenshot showing how to review copy data settings.

Trin 5: Design din datapipeline, og gem for at køre og indlæse data

  1. Hvis du vil køre kopiaktiviteten efter dataflowaktiviteten, skal du trække fra Lykkedes på dataflowaktiviteten til aktiviteten Kopiér. Kopieringsaktiviteten kører kun, når dataflowaktiviteten er fuldført.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Vælg Gem for at gemme din datapipeline. Vælg derefter Kør for at køre din datapipeline og indlæse dataene.

    Screenshot showing where to select Save and Run.

Planlæg udførelse af pipeline

Når du er færdig med at udvikle og teste din pipeline, kan du planlægge, at den skal udføres automatisk.

  1. Vælg Planlæg under fanen Hjem i vinduet pipelineeditor.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Konfigurer tidsplanen efter behov. I eksemplet her planlægges pipelinen til at blive udført dagligt kl. 20:00 indtil slutningen af året.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

I dette eksempel kan du se, hvordan du opretter og konfigurerer en Dataflow Gen2 for at oprette en fletteforespørgsel og gemme den i en Azure SQL-database og derefter kopiere data fra databasen til en tekstfil i Azure Blob Storage. Du har lært, hvordan du:

  • Opret et dataflow.
  • Transformér data med dataflowet.
  • Opret en datapipeline ved hjælp af dataflowet.
  • Bestil udførelsen af trin i pipelinen.
  • Kopiér data med Kopiér assistent.
  • Kør og planlæg din datapipeline.

Gå derefter videre for at få mere at vide om overvågning af dine pipelinekørsler.