Hurtig start: Flyt og transformér data med dataflow og datapipelines

Artikel
12/14/2023

I dette selvstudium finder du ud af, hvordan dataflow- og datapipelineoplevelsen kan skabe en effektiv og omfattende Data Factory-løsning.

Forudsætninger

Du skal have følgende forudsætninger for at komme i gang:

En lejerkonto med et aktivt abonnement. Opret en gratis konto.
Sørg for, at du har et Arbejdsområde, der er aktiveret af Microsoft Fabric: Opret et arbejdsområde , der ikke er standard for Mit arbejdsområde.
En Azure SQL-database med tabeldata.
En Blob Storage-konto.

Dataflow sammenlignet med pipelines

Med Dataflow Gen2 kan du bruge en grænseflade med lav kode og mere end 300 data og AI-baserede transformationer til nemt at rense, forberede og transformere data med større fleksibilitet end noget andet værktøj. Datapipelines gør det muligt at oprette fleksible dataarbejdsprocesser, der opfylder virksomhedens behov, ved hjælp af avancerede orkestreringsfunktioner til dataorkestrering. I en pipeline kan du oprette logiske grupperinger af aktiviteter, der udfører en opgave, hvilket kan omfatte at kalde et dataflow for at rense og forberede dine data. Selvom der er nogle funktionalitetsoverlapninger mellem de to, afhænger valget af, hvilke der skal bruges til et bestemt scenarie, af, om du har brug for en komplet rigdom af pipelines eller kan bruge de enklere, men mere begrænsede funktioner i dataflows. Du kan finde flere oplysninger i Fabric-beslutningsvejledningen

Transformér data med dataflow

Følg disse trin for at konfigurere dit dataflow.

Trin 1: Opret et dataflow

Vælg dit Fabric-aktiverede arbejdsområde, og vælg derefter Ny. Vælg derefter Dataflow Gen2.
Vinduet datafloweditor vises. Vælg kortet Importér fra SQL Server .

Trin 2: Hent data

I dialogboksen Forbind til datakilde, der vises næste, skal du angive detaljerne for at oprette forbindelse til din Azure SQL-database og derefter vælge Næste. I dette eksempel skal du bruge eksempeldatabasen AdventureWorksLT , der er konfigureret, når du konfigurerer Azure SQL-databasen i forudsætningerne.
Vælg de data, du vil transformere, og vælg derefter Opret. Til denne hurtige introduktion skal du vælge SalesLT.Customer fra AdventureWorksLT-eksempeldataene, der er angivet for Azure SQL DB, og derefter knappen Vælg relaterede tabeller for automatisk at inkludere to andre relaterede tabeller.

Trin 3: Transformér dine data

Hvis den ikke er markeret, skal du vælge knappen Diagramvisning langs statuslinjen nederst på siden eller vælge Diagramvisning i menuen Vis øverst i Power Query-editoren. En af disse indstillinger kan slå diagramvisningen til eller fra.
Højreklik på din SalesLT Customer-forespørgsel, eller vælg den lodrette ellipse til højre for forespørgslen, og vælg derefter Flet forespørgsler.
Konfigurer fletningen ved at vælge tabellen SalesLTOrderHeader som den højre tabel til fletningen , kolonnen CustomerID fra hver tabel som joinkolonnen og Venstre ydre som joinforbindelsestype. Vælg derefter OK for at tilføje fletteforespørgslen.
Vælg knappen Tilføj datadestination , der ligner et databasesymbol med en pil over den, fra den nye fletteforespørgsel, du lige har oprettet. Vælg derefter Azure SQL-database som destinationstype.
Angiv oplysninger om din Azure SQL-databaseforbindelse, hvor fletteforespørgslen skal publiceres. I dette eksempel kan du også bruge databasen AdventureWorksLT , som vi brugte som datakilde for destinationen.
Vælg en database til lagring af dataene, angiv et tabelnavn, og vælg derefter Næste.
Du kan lade standardindstillingerne være i dialogboksen Vælg destinationsindstillinger og blot vælge Gem indstillinger uden at foretage ændringer her.
Vælg Publicer tilbage på siden med datafloweditoren for at publicere dataflowet.

Flyt data med datapipelines

Nu, hvor du har oprettet et Dataflow Gen2, kan du arbejde med det i en pipeline. I dette eksempel kopierer du de data, der er genereret fra dataflowet, til tekstformat på en Azure Blob Storage-konto.

Trin 1: Opret en ny datapipeline

Vælg Ny i dit arbejdsområde, og vælg derefter Datapipeline.
Navngiv din pipeline, og vælg derefter Opret.

Trin 2: Konfigurer dit dataflow

Føj en ny dataflowaktivitet til din datapipeline ved at vælge Dataflow under fanen Aktiviteter .
Vælg dataflowet på pipelinelærredet, og vælg derefter fanen Indstillinger. Vælg det dataflow, du oprettede tidligere, på rullelisten.
Vælg Gem, og kør derefterfor at køre dataflowet for først at udfylde den flettede forespørgselstabel, du designede i det foregående trin.

Trin 3: Brug kopiassistenten til at tilføje en kopiaktivitet

Vælg Kopiér data på lærredet for at åbne værktøjet Kopiér assistent for at komme i gang. Eller vælg Brug kopiassistent på rullelisten Kopiér data under fanen Aktiviteter på båndet.
Vælg din datakilde ved at vælge en datakildetype. I dette selvstudium skal du bruge den Azure SQL Database, der tidligere blev brugt, da du oprettede dataflowet, til at generere en ny fletteforespørgsel. Rul ned under eksempeldatatilbudene, og vælg fanen Azure og derefter Azure SQL Database. Vælg derefter Næste for at fortsætte.
Opret en forbindelse til datakilden ved at vælge Opret ny forbindelse. Udfyld de påkrævede forbindelsesoplysninger i panelet, og angiv AdventureWorksLT for databasen, hvor vi oprettede fletteforespørgslen i dataflowet. Vælg derefter Næste.
Vælg den tabel, du oprettede i dataflowtrinnet tidligere, og vælg derefter Næste.
Vælg Azure Blob Storage for din destination, og vælg derefter Næste.
Opret en forbindelse til destinationen ved at vælge Opret ny forbindelse. Angiv detaljerne for forbindelsen, og vælg derefter Næste.
Vælg stien til mappen, angiv et filnavn, og vælg derefter Næste.
Vælg Næste igen for at acceptere standardfilformatet, kolonneafgrænseren, rækkeafgrænseren og komprimeringstypen, eventuelt inklusive en overskrift.
Afslut indstillingerne. Gennemse derefter, og vælg Gem + Kør for at afslutte processen.

Trin 5: Design din datapipeline, og gem for at køre og indlæse data

Hvis du vil køre kopiaktiviteten efter dataflowaktiviteten, skal du trække fra Lykkedes på dataflowaktiviteten til aktiviteten Kopiér. Kopieringsaktiviteten kører kun, når dataflowaktiviteten er fuldført.
Vælg Gem for at gemme din datapipeline. Vælg derefter Kør for at køre din datapipeline og indlæse dataene.

Planlæg udførelse af pipeline

Når du er færdig med at udvikle og teste din pipeline, kan du planlægge, at den skal udføres automatisk.

Vælg Planlæg under fanen Hjem i vinduet pipelineeditor.
Konfigurer tidsplanen efter behov. I eksemplet her planlægges pipelinen til at blive udført dagligt kl. 20:00 indtil slutningen af året.

I dette eksempel kan du se, hvordan du opretter og konfigurerer en Dataflow Gen2 for at oprette en fletteforespørgsel og gemme den i en Azure SQL-database og derefter kopiere data fra databasen til en tekstfil i Azure Blob Storage. Du har lært, hvordan du:

Opret et dataflow.
Transformér data med dataflowet.
Opret en datapipeline ved hjælp af dataflowet.
Bestil udførelsen af trin i pipelinen.
Kopiér data med Kopiér assistent.
Kør og planlæg din datapipeline.

Gå derefter videre for at få mere at vide om overvågning af dine pipelinekørsler.

Sådan overvåger du pipelinekørsler i Microsoft Fabric

Hurtig start: Flyt og transformér data med dataflow og datapipelines

Forudsætninger

Dataflow sammenlignet med pipelines