Snabbstart: Skapa ditt första dataflöde för att hämta och transformera data
Dataflöden är en molnbaserad dataförberedelseteknik med självbetjäning. I den här artikeln skapar du ditt första dataflöde, hämtar data för ditt dataflöde och transformerar sedan data och publicerar dataflödet.
Förutsättningar
Följande krav krävs innan du börjar:
- Ett Microsoft Fabric-klientkonto med en aktiv prenumeration. Skapa ett kostnadsfritt konto.
- Kontrollera att du har en Microsoft Fabric-aktiverad arbetsyta: Skapa en arbetsyta.
Skapa ett dataflöde
I det här avsnittet skapar du ditt första dataflöde.
Växla till Data Factory-upplevelsen .
Gå till din Microsoft Fabric-arbetsyta.
Välj Ny och sedan Dataflöde Gen2.
Hämta data
Nu ska vi hämta lite data! I det här exemplet får du data från en OData-tjänst. Använd följande steg för att hämta data i ditt dataflöde.
I dataflödesredigeraren väljer du Hämta data och sedan Mer.
I Välj datakälla väljer du Visa mer.
I Ny källa väljer du Andra>OData som datakälla.
Ange URL:en
https://services.odata.org/v4/northwind/northwind.svc/
och välj sedan Nästa.Välj tabellerna Beställningar och Kunder och välj sedan Skapa.
Du kan lära dig mer om att hämta dataupplevelse och funktioner i Få dataöversikt.
Tillämpa transformeringar och publicera
Nu har du läst in dina data i ditt första dataflöde, grattis! Nu är det dags att tillämpa ett par transformeringar för att föra dessa data till önskad form.
Du kommer att utföra den här uppgiften från Power Query-redigeraren. Du hittar en detaljerad översikt över Power Query-redigeraren i Power Query-användargränssnittet.
Följ dessa steg för att tillämpa transformeringar och publicera:
Kontrollera att verktygen för dataprofilering är aktiverade genom att gå till Globala alternativ för startalternativ>>.
Kontrollera också att du har aktiverat diagramvyn med hjälp av alternativen under fliken Visa i menyfliksområdet i Power Query-redigeraren, eller genom att välja diagramvyikonen längst ned till höger i Power Query-fönstret.
I tabellen Beställningar beräknar du det totala antalet beställningar per kund. För att uppnå det här målet väljer du kolumnen CustomerID i dataförhandsgranskningen och väljer sedan Gruppera efter under fliken Transformera i menyfliksområdet.
Du utför antalet rader som aggregering i Gruppera efter. Du kan lära dig mer om group by-funktioner i Gruppera eller sammanfatta rader.
När vi har grupperat data i tabellen Beställningar hämtar vi en tabell med två kolumner med CustomerID och Count som kolumner.
Sedan vill du kombinera data från tabellen Kunder med antalet beställningar per kund. Om du vill kombinera data väljer du frågan Kunder i diagramvyn och använder menyn "⋮" för att komma åt sammanslagningsfrågorna som ny transformering.
Konfigurera sammanslagningsåtgärden enligt följande skärmbild genom att välja CustomerID som matchande kolumn i båda tabellerna. Välj sedan Ok.
Skärmbild av fönstret Slå samman med tabellen Vänster för sammanslagning inställd på tabellen Kunder och tabellen Höger för sammanslagning inställd på tabellen Beställningar. Kolumnen CustomerID har valts för tabellerna Kunder och Beställningar. Kopplingstyp är också inställd på Vänster yttre. Alla andra val är inställda på deras standardvärde.
När du utför sammanslagningsfrågorna som en ny åtgärd får du en ny fråga med alla kolumner från tabellen Kunder och en kolumn med kapslade data från tabellen Beställningar.
I det här exemplet är du bara intresserad av en delmängd kolumner i tabellen Kunder. Du väljer dessa kolumner med hjälp av schemavyn. Aktivera schemavyn i växlingsknappen i det nedre högra hörnet i dataflödesredigeraren.
Schemavyn ger en fokuserad vy i en tabells schemainformation, inklusive kolumnnamn och datatyper. Schemavyn har en uppsättning schemaverktyg som är tillgängliga via en sammanhangsberoende menyflik. I det här scenariot väljer du kolumnerna CustomerID, CompanyName och Orders (2) och sedan knappen Ta bort kolumner och väljer sedan Ta bort andra kolumner på fliken Schemaverktyg.
Kolumnen Beställningar (2) innehåller kapslad information som härrör från den sammanslagningsåtgärd som du utförde för några steg sedan. Växla nu tillbaka till datavyn genom att välja knappen Visa datavy bredvid knappen Visa schemavy i det nedre högra hörnet i användargränssnittet. Använd sedan kolumntransformeringen Expandera kolumn i kolumnrubriken Beställningar (2) för att välja kolumnen Antal .
Som den sista åtgärden vill du rangordna dina kunder baserat på deras antal beställningar. Välj kolumnen Antal och välj sedan knappen Ranka kolumn under fliken Lägg till kolumn i menyfliksområdet.
Behåll standardinställningarna i Rangordningskolumn. Välj sedan OK för att tillämpa den här omvandlingen.
Byt nu namn på den resulterande frågan till Rankade kunder med hjälp av fönstret Frågeinställningar till höger på skärmen.
Du har transformerat och kombinerat dina data. Nu konfigurerar du därför inställningarna för utdatamål. Välj Välj datamål längst ned i fönstret Frågeinställningar .
I det här steget kan du konfigurera utdata till lakehouse om du har en tillgänglig, eller hoppa över det här steget om du inte gör det. I den här upplevelsen kan du konfigurera målsjöhuset och tabellen för dina frågeresultat, utöver uppdateringsmetoden (Lägg till eller Ersätt).
Ditt dataflöde är nu redo att publiceras. Granska frågorna i diagramvyn och välj sedan Publicera.
Du har nu återvänt till arbetsytan. En rotationsikon bredvid ditt dataflödesnamn anger att publicering pågår. När publiceringen är klar är ditt dataflöde redo att uppdateras!
Viktigt!
När den första Dataflow Gen2 skapas på en arbetsyta etableras Lakehouse- och Warehouse-objekten tillsammans med deras relaterade SQL-analysslutpunkter och semantiska modeller. Dessa objekt delas av alla dataflöden på arbetsytan och krävs för att Dataflow Gen2 ska fungera, bör inte tas bort och är inte avsedda att användas direkt av användare. Objekten är en implementeringsinformation för Dataflow Gen2. Objekten visas inte på arbetsytan, men kan vara tillgängliga i andra funktioner som Notebook, SQL Analytics-slutpunkten, Lakehouse och Warehouse. Du kan känna igen objekten med deras prefix i namnet. Prefixet för objekten är "DataflowsStaging".
På arbetsytan väljer du ikonen Schemalägg uppdatering .
Aktivera den schemalagda uppdateringen, välj Lägg till en annan tid och konfigurera uppdateringen enligt följande skärmbild.
Skärmbild av alternativen för schemalagd uppdatering, med schemalagd uppdatering aktiverad, uppdateringsfrekvensen inställd på Daglig, Tidszon inställd på samordnad universell tid och Tid inställd på 04:00. På-knappen, lägg till ytterligare ett tidsval, dataflödesägaren och använd-knappen framhävs.
Rensa resurser
Om du inte kommer att fortsätta att använda det här dataflödet tar du bort dataflödet med hjälp av följande steg:
Gå till din Microsoft Fabric-arbetsyta.
Välj den lodräta ellipsen bredvid namnet på dataflödet och välj sedan Ta bort.
Välj Ta bort för att bekräfta borttagningen av dataflödet.
Relaterat innehåll
Dataflödet i det här exemplet visar hur du läser in och transformerar data i Dataflöde Gen2. Du har lärt dig att:
- Skapa ett Dataflöde Gen2.
- Transformera data.
- Konfigurera målinställningar för transformerade data.
- Kör och schemalägg din datapipeline.
Gå vidare till nästa artikel för att lära dig hur du skapar din första datapipeline.