Hurtig start: Opret dit første dataflow for at hente og transformere data

Dataflow er en selvbetjent, cloudbaseret teknologi til dataforberedelse. I denne artikel opretter du dit første dataflow, henter data til dit dataflow, transformerer derefter dataene og publicerer dataflowet.

Forudsætninger

Der kræves følgende forudsætninger, før du starter:

Oprette et dataflow

I dette afsnit opretter du dit første dataflow.

  1. Skift til datafabrikken.

    Screenshot with the data factory experience emphasized.

  2. Gå til dit Microsoft Fabric-arbejdsområde.

    Screenshot of the workspaces window where you navigate to your workspace.

  3. Vælg Ny, og vælg derefter Dataflow Gen2.

    Screenshot with the Dataflow Gen2 selection emphasized.

Hent data

Lad os hente nogle data! I dette eksempel henter du data fra en OData-tjeneste. Brug følgende trin til at hente data i dit dataflow.

  1. I datafloweditoren skal du vælge Hent data og derefter vælge Mere.

    Screenshot with the Get Data option selected and More emphasized in the drop-down box.

  2. Vælg Vis mere i Vælg datakilde.

    Screenshot of Get data source with View more emphasized.

  3. I Ny kilde skal du vælge Andre>OData som datakilde.

    Screenshot of Get data source with the Other category and the OData connector emphasized.

  4. Angiv URL-adressen https://services.odata.org/v4/northwind/northwind.svc/, og vælg derefter Næste.

    Screenshot of the OData data source where you enter the data URL.

  5. Vælg tabellerne Orders og Customers, og vælg derefter Opret.

    Screenshot of the Power Query navigator with the Customers and Orders tables emphasized.

Du kan få mere at vide om hent dataoplevelsen og -funktionaliteten under Oversigt over hentning af data.

Anvend transformationer, og publicer

Du har nu indlæst dine data i dit første dataflow. Tillykke! Nu er det tid til at anvende et par transformationer for at få disse data ind i den ønskede form.

Du skal udføre denne opgave fra Power Query-editoren. Du kan finde en detaljeret oversigt over Power Query-editoren på Brugergrænsefladen i Power Query.

Følg disse trin for at anvende transformationer og publicere:

  1. Sørg for, at værktøjerne til dataprofilering er aktiveret ved at gå til Indstillinger for>startside>globale indstillinger.

    Screenshot of Global options with the Column profile selections emphasized.

    Sørg også for, at du har aktiveret diagramvisningen ved hjælp af indstillingerne under fanen Vis på båndet i Power Query-editor eller ved at vælge ikonet diagramvisning nederst til højre i Power Query-vinduet.

    Screenshot of the overall look of Power Query diagram view.

  2. I tabellen Orders beregner du det samlede antal ordrer pr. kunde. For at nå dette mål skal du vælge kolonnen Kunde-id i dataeksemplet og derefter vælge Gruppér efter under fanen Transformér på båndet.

    Screenshot showing the Orders table selected, and Group by emphasized in the Transform tab.

  3. Du udfører en optælling af rækker som sammenlægningen i Gruppér efter. Du kan få mere at vide om Gruppér efter-funktioner under Gruppering eller opsummering af rækker.

    Screenshot of Group by, with the Count rows operation selected.

  4. Efter gruppering af data i tabellen Orders henter vi en tabel med to kolonner med CustomerID og Count som kolonnerne.

    Screenshot of the two column table.

  5. Derefter skal du kombinere data fra tabellen Kunder med Antal ordrer pr. kunde. Hvis du vil kombinere data, skal du vælge forespørgslen Kunder i diagramvisningen og bruge menuen "⋮" til at få adgang til Flet forespørgsler som ny transformation.

    Screenshot of the dataflow editor, with the vertical ellipsis of the Customers table and Merge queries as new emphasized.

  6. Konfigurer handlingen Flet som vist på følgende skærmbillede ved at vælge Kunde-id som den tilsvarende kolonne i begge tabeller. Vælg derefter OK.

    Screenshot of the Merge window.

    Skærmbillede af vinduet Flet, hvor venstre tabel til fletning er angivet til tabellen Kunder, og tabellen Højre til fletning er angivet til tabellen Orders. Kolonnen CustomerID vælges for tabellerne Customers og Orders. Join-typen er også indstillet til Venstre ydre. Alle andre markeringer er angivet til standardværdien.

  7. Når du udfører fletforespørgslerne som en ny handling, får du en ny forespørgsel med alle kolonner fra tabellen Kunder og én kolonne med indlejrede data fra tabellen Orders.

    Screenshot of the dataflows editor with the new Merge query added to the right of the Customers and Orders tables.

  8. I dette eksempel er du kun interesseret i et undersæt af kolonner i tabellen Kunder. Du vælger disse kolonner ved hjælp af skemavisningen. Aktivér skemavisningen i til/fra-knappen i nederste højre hjørne af datafloweditoren.

    Screenshot of the dataflows editor with the schema view button emphasized in the bottom-right corner.

  9. Skemavisningen giver en fokuseret visning i en tabels skemaoplysninger, herunder kolonnenavne og datatyper. Skemavisning har et sæt skemaværktøjer tilgængelige via en kontekstafhængig båndfane. I dette scenarie skal du vælge kolonnerne CustomerID, CompanyName og Orders (2), derefter vælge knappen Fjern kolonner og derefter vælge Fjern andre kolonner under fanen Skemaværktøjer.

    Screenshot of the schema view showing all of the available column names, with the CustomerID, CompanyName, and Orders (2) columns emphasized.

    Screenshot of the schema tools menu with Remove other columns emphasized.

  10. Kolonnen Orders (2) indeholder indlejrede oplysninger, der stammer fra den flettehandling, du udførte for et par trin siden. Skift nu tilbage til datavisningen ved at vælge knappen Vis datavisning ud for knappen Vis skemavisning i nederste højre hjørne af brugergrænsefladen. Brug derefter transformationen Udvid kolonne i kolonneoverskriften Orders (2) til at vælge kolonnen Count .

    Screenshot for using data view.

  11. Som den sidste handling vil du rangere dine kunder på baggrund af deres antal ordrer. Vælg kolonnen Antal , og vælg derefter knappen Rangeringskolonne under fanen Tilføj kolonne på båndet.

    Screenshot of the dataflows editor with the Count column selected.

  12. Bevar standardindstillingerne i Rangeringskolonne. Vælg derefter OK for at anvende denne transformation.

    Screenshot of the Rank window with all default settings displayed.

  13. Omdøb nu den resulterende forespørgsel til Rangerede kunder ved hjælp af ruden Forespørgselsindstillinger i højre side af skærmen.

    Screenshot of the dataflows editor with the Ranked Customers name emphasized under the query settings properties.

  14. Du er færdig med at transformere og kombinere dine data. Så nu kan du konfigurere indstillingerne for outputdestinationen. Vælg Vælg datadestination nederst i ruden Forespørgselsindstillinger .

    Screenshot of the dataflows editor with the location of the Data destination selection emphasized.

  15. I dette trin kan du konfigurere et output til dit lakehouse, hvis du har et tilgængeligt, eller springe dette trin over, hvis du ikke gør det. I denne oplevelse kan du konfigurere destinationssøhuset og -tabellen for dine forespørgselsresultater ud over opdateringsmetoden (Tilføj eller Erstat).

    Screenshot of the Connect to data destination window with lakehouse selected.

    Screenshot of the Choose destination settings window.

  16. Dit dataflow er nu klar til at blive publiceret. Gennemse forespørgslerne i diagramvisningen, og vælg derefter Publicer.

    Screenshot of the dataflows editor with the Publish button on the lower-right side emphasized.

    Du er nu vendt tilbage til arbejdsområdet. Et spinnerikon ud for navnet på dit dataflow angiver, at publiceringen er i gang. Når publiceringen er fuldført, er dit dataflow klar til opdatering!

    Vigtigt

    Når det første Dataflow Gen2 oprettes i et arbejdsområde, klargøres Lakehouse- og Warehouse-elementer sammen med deres relaterede SQL Analytics-slutpunkt og semantiske modeller. Disse elementer deles af alle dataflow i arbejdsområdet og er påkrævet, for at Dataflow Gen2 kan fungere, bør ikke slettes og er ikke beregnet til at blive brugt direkte af brugerne. Elementerne er en implementeringsdetaljer for Dataflow Gen2. Elementerne er ikke synlige i arbejdsområdet, men kan være tilgængelige i andre oplevelser, f.eks. Notebook, SQL Analytics-slutpunktet, Lakehouse og Warehouse. Du kan genkende elementerne med deres præfiks i navnet. Præfikset for elementerne er 'DataflowStaging'.

  17. Vælg ikonet Planlæg opdatering i dit arbejdsområde.

    Screenshot of the workspace with the schedule refresh icon emphasized.

  18. Slå den planlagte opdatering til, vælg Tilføj et andet tidspunkt, og konfigurer opdateringen som vist på følgende skærmbillede.

    Screenshot showing how to select another time.

    Skærmbillede af indstillingerne for planlagt opdatering, hvor planlagt opdatering er slået til, opdateringshyppigheden angivet til Dagligt, tidszonen er angivet til koordineret universel tid, og klokkeslættet er angivet til 4:00. Knappen Til, Tilføj en anden tidsvalg, ejeren af dataflowet og knappen Anvend fremhæves alle.

Fjerne ressourcer

Hvis du ikke vil fortsætte med at bruge dette dataflow, skal du slette dataflowet ved hjælp af følgende trin:

  1. Gå til dit Microsoft Fabric-arbejdsområde.

    Screenshot of the workspaces window where you navigate to your workspace.

  2. Vælg den lodrette ellipse ud for navnet på dit dataflow, og vælg derefter Slet.

    Screenshot with the three vertical dots and the delete option in the drop-down menu emphasized.

  3. Vælg Slet for at bekræfte sletningen af dit dataflow.

    Screenshot of the Delete dataflow window, with the Delete button emphasized.

Dataflowet i dette eksempel viser, hvordan du indlæser og transformerer data i Dataflow Gen2. Du har lært, hvordan du:

  • Opret en Dataflow Gen2.
  • Transformér data.
  • Konfigurer destinationsindstillinger for transformerede data.
  • Kør og planlæg din datapipeline.

Gå videre til næste artikel for at få mere at vide om, hvordan du opretter din første datapipeline.