Modul 2: Transformera data med ett dataflöde i Data Factory

Den här modulen tar cirka 25 minuter att skapa ett dataflöde, tillämpa transformeringar och flytta rådata från tabellen Brons till en Gold Lakehouse-tabell.

Viktigt

Microsoft Fabric är för närvarande i förhandsversion. Den här informationen gäller en förhandsversionsprodukt som kan ändras avsevärt innan den släpps. Microsoft lämnar inga garantier, uttryckta eller underförstådda, med avseende på den information som tillhandahålls här. Se Azure Data Factory dokumentation för tjänsten i Azure.

När rådata har lästs in i tabellen Bronze Lakehouse från den senaste modulen kan du nu förbereda dessa data och utöka dem genom att kombinera dem med en annan tabell som innehåller rabatter för varje leverantör och deras resor under en viss dag. Den här sista Gold Lakehouse-tabellen är laddad och redo för förbrukning.

Stegen på hög nivå i dataflödet är följande:

  • Hämta rådata från lakehouse-tabellen som skapats av aktiviteten Kopiera i modul 1: Skapa en pipeline med Data Factory.
  • Transformera data som importerats från lakehouse-tabellen.
  • Anslut till en CSV-fil som innehåller rabattdata.
  • Transformera rabattdata.
  • Kombinera resor och rabattdata.
  • Läs in utdatafrågan i Gold Lakehouse-tabellen.

Hämta data från en Lakehouse-tabell

  1. I sidofältet väljer du Skapa och sedan Dataflöde Gen2 (förhandsversion) för att skapa ett nytt dataflöde gen2. Skärmbild som visar sidan Skapa infrastrukturresurser med knappen Dataflöde Gen2 (förhandsversion) markerad.

  2. I den nya dataflödesmenyn väljer du Hämta data och sedan Mer....

    Skärmbild som visar menyn Dataflöde med knappen Hämta data markerad och mer... markerat från menyn.

  3. Sök efter och välj Lakehouse-anslutningsappen .

    Skärmbild som visar valet av Lakehouse-datakällan på menyn Välj datakälla.

  4. Dialogrutan Anslut till datakälla visas och en ny anslutning skapas automatiskt för dig baserat på den inloggade användaren. Välj Nästa.

    Skärmbild som visar konfigurationen av datakällinställningarna för din nya Lakehouse med den aktuella inloggade användaren och knappen Nästa markerad.

  5. Dialogrutan Välj data visas. Använd navigeringsfönstret för att hitta lakehouse som du skapade för målet i föregående modul och välj datatabellen nyc_taxi.

    Skärmbild som visar Lakehouse-webbläsaren med arbetsytan, lakehouse och tabellen som skapats med aktiviteten Kopiera i modul 1.

  6. (Valfritt) När arbetsytan har fyllts i med data kan du ange kolumnprofilinformation , eftersom detta är användbart för dataprofilering. Du kan använda rätt transformering och rikta rätt datavärden baserat på den.

    Det gör du genom att välja Alternativ i menyfliksområdet och sedan välja de tre första alternativen under Kolumnprofil och sedan välja OK.

    Skärmbild som visar valet av kolumnalternativ för dina data.

Transformera data som importerats från Lakehouse

  1. Välj ikonen för datatyp i kolumnrubriken i den andra kolumnen , IpepPickupDatetime, för att visa en nedrullningsbara meny och välj datatypen på menyn för att konvertera kolumnen från datum/tid till datumtyp . Skärmbild som visar valet av datatypen Datum för kolumnen IpepPickupDatetime.

  2. (Valfritt) På fliken Start i menyfliksområdet väljer du alternativet Välj kolumner i gruppen Hantera kolumner .

    Skärmbild som visar knappen Välj kolumner på fliken Start i dataflödesredigeraren.

  3. (Valfritt) I dialogrutan Välj kolumner avmarkerar du några kolumner som visas här och väljer sedan OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLongitude
    • pickupLatitude
    • dropoffLongitude
    • dropoffLatitude
    • rateCodeID

    Skärmbild som visar dialogrutan Välj kolumner med de identifierade kolumnerna avmarkerade.

  4. Välj kolumnen storeAndFwdFlags filter- och sorteringsmeny. (Om du ser att en varningslista kan vara ofullständig väljer du Läs in mer för att se alla data.)

    Skärmbild som visar dialogrutan filter och sortering för kolumnen.

  5. Välj "Y" om du bara vill visa rader där en rabatt tillämpades och välj sedan OK.

    Skärmbild som visar värdefiltret med endast

  6. Välj listrutan Ipep_Pickup_Datetime kolumnsortering och filter, välj sedan Datumfilter och välj filtret Mellan... som anges för datum- och datum/tid-typer.

    Skärmbild som visar valet av alternativet Datumfilter i listrutan kolumnsortering och format.

  7. I dialogrutan Filtrera rader väljer du datum mellan 1 januari 2015 och 31 januari 2015 och väljer sedan OK.

    Skärmbild som visar valet av datum i januari 2015.

Ansluta till en CSV-fil som innehåller rabattdata

Nu, med data från resorna på plats, vill vi läsa in de data som innehåller respektive rabatter för varje dag och VendorID, och förbereda data innan vi kombinerar dem med trips-data.

  1. På fliken Start i dataflödesredigerarens meny väljer du alternativet Hämta data och väljer sedan Text/CSV.

    Skärmbild som visar valet av menyn Hämta data från fliken Start med Text/CSV markerat.

  2. I dialogrutan Anslut till datakälla anger du följande information:

    Välj sedan Nästa.

    Skärmbild som visar inställningarna för Text/CSV för anslutningen.

  3. I dialogrutan Förhandsgranska fildata väljer du Skapa.

    Skärmbild som visar dialogrutan Förhandsgranskningsfildata med knappen Skapa markerad.

Transformera rabattdata

  1. När vi granskar data ser vi att rubrikerna verkar finnas på den första raden. Höj upp dem till rubriker genom att välja tabellens snabbmeny längst upp till vänster i rutnätsområdet för förhandsversionen för att välja Använd första raden som rubriker.

    Skärmbild som visar valet av alternativet Använd första raden som rubriker på snabbmenyn i tabellen.

    Anteckning

    När du har befordrat rubrikerna kan du se ett nytt steg som lagts till i fönstret Tillämpade steg längst upp i dataflödesredigeraren till datatyperna i dina kolumner.

  2. Högerklicka på kolumnen VendorID och välj alternativet Ta bort andra kolumner från snabbmenyn som visas. På så sätt kan du omvandla kolumner till attribut/värde-par, där kolumner blir rader.

    Skärmbild som visar snabbmenyn för kolumnen VendorID med markeringen Unpivot andra kolumner markerad.

  3. När tabellen är obevakad byter du namn på kolumnerna Attribut och Värde genom att dubbelklicka på dem och ändra Attribut till Datum och Värde till Rabatt.

    Skärmbild som visar tabellkolumnerna när du har bytt namn på Attribut till Datum och Värde till Rabatt.

  4. Ändra datatypen för kolumnen Datum genom att välja menyn datatyp till vänster om kolumnnamnet och välja Datum.

    Skärmbild som visar valet av datatypen Datum för kolumnen Datum.

  5. Välj kolumnen Rabatt och välj sedan fliken Transformera på menyn. Välj Kolumnen Tal och välj sedan Standard numeriska transformeringar från undermenyn och välj Dividera.

    Skärmbild som visar valet av alternativet Dividera för att transformera data i kolumnen Rabatt.

  6. I dialogrutan Dela anger du värdet 100.

    Skärmbild som visar dialogrutan Dividera med värdet 100 angivet och knappen OK markerad.

Kombinera resor och rabattdata

Nästa steg är att kombinera båda tabellerna till en enda tabell som har den rabatt som ska tillämpas på resan och den justerade summan.

  1. Växla först knappen Diagramvy så att du kan se båda dina frågor.

    Skärmbild som visar växlingsknappen Diagramvy med båda frågorna som skapats i den här självstudien.

  2. Välj den nyc_taxi frågan och på fliken Start väljer du menyn Kombinera och väljer Slå samman frågor och sedan Slå samman frågor som nya.

    Skärmbild som visar sammanslagningsfrågor som nytt val för nyc_taxi frågan.

  3. I dialogrutan Sammanfoga väljer du Generated-NYC-Taxi-Green-Discounts från den högra tabellen för sammanslagningslistrutan och väljer sedan ikonen "glödlampa" längst upp till höger i dialogrutan för att se den föreslagna mappningen av kolumner mellan de två tabellerna.

    Skärmbild som visar konfigurationen av dialogrutan Sammanfoga med föreslagna kolumnmappningar som visas.

    Välj var och en av de två föreslagna kolumnmappningarna, en i taget, som mappar kolumnerna VendorID och datum från båda tabellerna. När båda mappningarna läggs till markeras de matchade kolumnrubrikerna i varje tabell.

  4. Ett meddelande visas där du uppmanas att tillåta att du kombinerar data från flera datakällor för att visa resultatet. Välj OK i dialogrutan Sammanfoga .

    Skärmbild som visar begäran om att godkänna en kombination av data från flera datakällor med ok-knappen markerad.

  5. I tabellområdet visas inledningsvis en varning om att "Utvärderingen avbröts eftersom en kombination av data från flera källor kan avslöja data från en källa till en annan. Välj Fortsätt om möjligheten att avslöja data är okej." Välj Fortsätt för att visa kombinerade data.

    Skärmbild som visar varningen om att kombinera data från flera datakällor med knappen Fortsätt markerad.

  6. Observera hur en ny fråga skapades i diagramvyn som visar relationen mellan den nya sammanslagningsfrågan och de två frågor som du skapade tidigare. Om du tittar på tabellfönstret i redigeraren bläddrar du till höger om listan Sammanfoga frågekolumner för att se att det finns en ny kolumn med tabellvärden. Det här är kolumnen "Genererad NYC Taxi-Green-Discounts" och dess typ är [Tabell]. I kolumnrubriken finns det en ikon med två pilar som går i motsatt riktning, så att du kan välja kolumner från tabellen. Avmarkera alla kolumner utom Rabatt och välj sedan OK.

    Skärmbild som visar den sammanfogade frågan med den kolumnvalsmeny som visas för den nyligen genererade kolumnen Generated-NYC-Taxi-Green-Discounts.

  7. Med rabattvärdet nu på radnivå kan vi skapa en ny kolumn för att beräkna det totala beloppet efter rabatten. Det gör du genom att välja fliken Lägg till kolumn överst i redigeraren och välja Anpassad kolumn i gruppen Allmänt .

    Skärmbild som visar knappen Lägg till anpassad kolumn markerad i avsnittet Allmänt på fliken Lägg till kolumn.

  8. I dialogrutan Anpassad kolumn kan du använda Power Query formelspråk (kallas även M) för att definiera hur den nya kolumnen ska beräknas. Ange TotalAfterDiscount som nytt kolumnnamn, välj Valuta för datatypen och ange följande M-uttryck för formeln Anpassad kolumn:

    if [totalAmount] > 0 then [totalAmount] * ( 1 -[Discount] ) else [totalAmount]

    Välj sedan OK.

    Skärmbild som visar skärmen Konfiguration av anpassad kolumn med formeln Ny kolumn, Datatyp och Anpassad kolumn markerad.

  9. Välj den nyligen skapade kolumnen TotalAfterDiscount och välj sedan fliken Transformera överst i redigeringsfönstret. I kolumngruppen Tal väljer du listrutan Avrundning och väljer sedan Runda....

    Skärmbild som visar avrundningen... på fliken Transformera i redigeringsfönstret.

  10. I dialogrutan Runda anger du 2 för antalet decimaler och väljer sedan OK.

    Skärmbild som visar dialogrutan Runda med 2 för antalet decimaler och knappen OK markerad.

  11. Ändra datatypen för IpepPickupDatetime från Datum till Datum/tid.

    Skärmbild som visar valet av datatypen Datum/tid för kolumnen IpepPickupDatetime.

  12. Expandera slutligen fönstret Frågeinställningar till höger i redigeraren om det inte redan är expanderat och byt namn på frågan från Slå samman till Utdata.

    Skärmbild som visar frågans namnbyte från Slå samman till utdata.

Läs in utdatafrågan till en tabell i Lakehouse

När utdatafrågan nu är helt förberedd och med data redo för utdata kan vi definiera utdatamålet för frågan.

  1. Välj den kopplingsfråga för utdata som skapades tidigare. Välj sedan fliken Start i redigeraren och Lägg till datamål från frågegruppering för att välja ett Lakehouse-mål .

    Skärmbild som visar knappen Lägg till datamål med Lakehouse markerat.

  2. I dialogrutan Anslut till datamål bör anslutningen redan vara markerad. Fortsätt genom att välja Nästa.

  3. I dialogrutan Välj målmål bläddrar du till Lakehouse där du vill läsa in data och namnger den nya tabellen nyc_taxi_with_discounts och väljer sedan Nästa igen.

    Skärmbild som visar dialogrutan Välj målmål med Tabellnamn nyc_taxi_with_discounts.

  4. I dialogrutan Välj målinställningar lämnar du standardmetoden Ersätt uppdatering, dubbelkollar att kolumnerna är korrekt mappade och väljer Spara inställningar.

    Skärmbild som visar dialogrutan Välj målinställningar med knappen Spara inställningar markerad.

  5. I huvudredigerarens fönster bekräftar du att du ser utdatamålet i fönstret Frågeinställningar för tabellen Utdata och väljer sedan Publicera.

  6. (Valfritt) På arbetsytans sida kan du byta namn på ditt dataflöde genom att välja ellipsen till höger om det dataflödesnamn som visas när du har valt raden och välja Egenskaper.

    Skärmbild som visar alternativet Egenskaper som valts på menyn för ett dataflöde där det kan byta namn.

  7. Välj uppdateringsikonen för dataflödet när du har valt dess rad, och när du är klar bör du se att den nya Lakehouse-tabellen har skapats som konfigurerad i inställningarna för datamål .

    Skärmbild som visar valet av uppdateringsknappen för att uppdatera dataflödet.

  8. Kontrollera Lakehouse för att visa den nya tabellen som lästs in där.

Nästa steg

I den här andra modulen i vår självstudiekurs från slutpunkt till slutpunkt för din första dataintegrering med hjälp av Data Factory i Microsoft Fabric lärde du dig att:

  • Dränka ett nytt Dataflöde Gen2.
  • Importera och transformera exempeldata.
  • Importera och transformera text-/CSV-data.
  • Sammanfoga data från båda datakällorna till en ny fråga.
  • Transformera data och generera nya kolumner i en fråga.
  • Konfigurera en utdatamålkälla för en fråga.
  • Byt namn på och uppdatera ditt nya dataflöde.

Fortsätt till nästa avsnitt nu för att integrera din datapipeline.