Del via


Modul 2: Transformere data med en dataflyt i Data Factory

Denne modulen tar omtrent 25 minutter å opprette en dataflyt, bruke transformasjoner og flytte rådataene fra bronsetabellen til en Gold Lakehouse-tabell.

Med rådataene som er lastet inn i Bronze Lakehouse-tabellen fra den siste modulen, kan du nå klargjøre dataene og berike dem ved å kombinere dem med en annen tabell som inneholder rabatter for hver leverandør og deres turer i løpet av en bestemt dag. Dette siste Gold Lakehouse-bordet er lastet og klart til bruk.

Trinnene på høyt nivå i dataflyten er som følger:

  • Hent rådata fra Lakehouse-tabellen som er opprettet av Kopier-aktiviteten i modul 1: Opprett et datasamlebånd med Data Factory.
  • Transformer dataene som er importert fra Lakehouse-tabellen.
  • Koble til til en CSV-fil som inneholder rabattdata.
  • Transformer rabattdataene.
  • Kombiner reise- og rabattdata.
  • Last inn utdataspørringen i Gold Lakehouse-tabellen.

Hent data fra en Lakehouse-tabell

  1. Velg Opprett fra sidepanelet, og deretter Dataflyt gen2 for å opprette en ny dataflyt gen2. Screenshot showing the Fabric Create page with the Dataflow Gen2 button highlighted.

  2. Velg Hent data fra den nye dataflytmenyen, og deretter mer....

    Screenshot showing the Dataflow menu with Get data button highlighted and the More... option highlighted from its menu.

  3. Søk etter og velg Lakehouse-koblingen.

    Screenshot showing the selection of the Lakehouse data source from the Choose data source menu.

  4. Dialogboksen Koble til til datakilde vises, og en ny tilkobling opprettes automatisk for deg basert på den påloggede brukeren. Velg Neste.

    Screenshot showing the configuration of the data source settings for your new Lakehouse with your current signed in user, and the Next button selected.

  5. Dialogboksen Velg data vises. Bruk navigasjonsruten til å finne Lakehouse du opprettet for målet i den forrige modulen, og velg Tutorial_Lakehouse datatabell.

    Screenshot showing the Lakehouse browser with the workspace, lakehouse, and table created with the Copy activity in module 1.

  6. (Valgfritt) Når lerretet er fylt ut med dataene, kan du angi kolonneprofilinformasjon , da dette er nyttig for dataprofilering. Du kan bruke riktig transformasjon og målrette mot de riktige dataverdiene basert på den.

    Hvis du vil gjøre dette, velger du Alternativer fra båndruten, deretter velger du de tre første alternativene under Kolonneprofil, og deretter velger du OK.

    Screenshot showing the column options selection for your data.

Transformere dataene som er importert fra Lakehouse

  1. Velg datatypeikonet i kolonneoverskriften for den andre kolonnen, IpepPickupDatetime, for å vise en rullegardinmeny og velge datatypen fra menyen for å konvertere kolonnen fra dato/klokkeslett til datotype . Screenshot showing the selection of the Date data type for the IpepPickupDatetime column.

  2. (Valgfritt) Velg alternativet Velg kolonner fra Behandle kolonner-gruppen på Hjem-fanen på båndet.

    Screenshot showing the Choose columns button on the Home tab of the dataflow editor.

  3. (Valgfritt) Fjern merket for noen kolonner som er oppført her, i dialogboksen Velg kolonner , og velg deretter OK.

    • lpepDropoffDatetime
    • puLocationId
    • doLocationId
    • pickupLatitude
    • dropoffLongitude
    • rateCodeID

    Screenshot showing the Choose columns dialog with the identified columns deselected.

  4. Velg filteret for storeAndFwdFlag-kolonnen , og sorter rullegardinmenyen. (Hvis du ser en advarsel Listen kan være ufullstendig, og velg Last inn mer for å se alle dataene.)

    Screenshot showing the filter and sort dialog for the column.

  5. Velg Y for å vise bare rader der en rabatt ble brukt, og velg deretter OK.

    Screenshot showing the values filter with only 'Y' selected.

  6. Velg rullegardinmenyen IpepPickupDatetime-kolonnesortering og filter, velg deretter Datofiltre, og velg mellom...-filteret som er angitt for dato- og dato/klokkeslett-typer.

    Screenshot showing the selection of the Date filters option in the column sort and format dropdown.

  7. Velg datoer mellom 1. januar 2015 og 31. januar 2015 i dialogboksen Filtrer rader, og velg deretter OK.

    Screenshot showing the selection of the dates in January 2015.

Koble til til en CSV-fil som inneholder rabattdata

Nå, med dataene fra turene på plass, ønsker vi å laste inn dataene som inneholder de respektive rabattene for hver dag og VendorID, og klargjøre dataene før vi kombinerer dem med reisedataene.

  1. Velg Hent data-alternativet på Hjem-fanen i redigeringsprogrammet for dataflyt, og velg deretter Tekst/CSV.

    Screenshot showing the selection of the Get data menu from the Home tab, with Text/CSV highlighted.

  2. Angi følgende detaljer i dialogboksen Koble til til datakilde:

    • Filbane eller URL-adresse - https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv
    • Godkjenningstype – anonym

    Velg deretter Neste.

    Screenshot showing the Text/CSV settings for the connection.

  3. Velg Opprett i dialogboksen Forhåndsvis fildata.

    Screenshot showing the Preview file data dialog with the Create button highlighted.

Transformere rabattdataene

  1. Når vi ser gjennom dataene, ser vi at overskriftene ser ut til å være i den første raden. Hev dem til overskrifter ved å velge hurtigmenyen for tabellen øverst til venstre i forhåndsvisningsrutenettet for å velge Bruk første rad som overskrifter.

    Screenshot showing the selection of the Use first row as headers option from the table context menu.

    Merk

    Når du har forfremmet topptekstene, kan du se et nytt trinn lagt til i ruten Brukte trinn øverst i redigeringsprogrammet for dataflyt til datatypene i kolonnene.

  2. Høyreklikk VendorID-kolonnen, og velg alternativet Unpivot other columns fra hurtigmenyen som vises. Dette gjør at du kan transformere kolonner til attributtverdipar, der kolonner blir rader.

    Screenshot showing the context menu for the VendorID column with the Unpivot other columns selection highlighted.

  3. Når tabellen ikke er angitt, kan du gi nytt navn til kolonnene Attributt og Verdi ved å dobbeltklikke dem og endre attributtet til dato og verdi til rabatt.

    Screenshot showing the table columns after renaming Attribute to Date and Value to Discount.

  4. Endre datatypen for Dato-kolonnen ved å velge datatypemenyen til venstre for kolonnenavnet og velge Dato.

    Screenshot showing the selection of the Date data type for the Date column.

  5. Velg Rabatt-kolonnen, og velg deretter Transformer-fanen på menyen. Velg Tall-kolonnen, og velg deretter Standard numeriske transformasjoner fra undermenyen, og velg Del.

    Screenshot showing the selection of the Divide option to transform data in the Discount column.

  6. Skriv inn verdien 100 i dialogboksen Del.

    Screenshot showing the Divide dialog with the value 100 entered and the OK button highlighted.

Kombinere turer og rabattdata

Det neste trinnet er å kombinere begge tabellene i én enkelt tabell som har rabatten som skal brukes på turen, og den justerte summen.

  1. Først slår du diagramvisningsknappen slik at du kan se begge spørringene.

    Screenshot showing the Diagram view toggle button with both queries created in this tutorial displayed.

  2. Velg nyc_taxi spørringen, og velg Slå sammen spørringer på Hjem-fanen, velg Slå sammen spørringer og slå sammen spørringer som nye.

    Screenshot showing the Merge queries as new selection for the nyc_taxi query.

  3. Velg Genererte NYC-Taxi-Green-Discounts fra høyre tabell for rullegardinliste for fletting i dialogboksen Slå sammen, og velg deretter «lyspære»-ikonet øverst til høyre i dialogboksen for å se den foreslåtte tilordningen av kolonner mellom de to tabellene.

    Screenshot showing the configuration of the Merge dialog with suggested column mappings displayed.

    Velg hver av de to foreslåtte kolonnetilordningene, én om gangen, som tilordner VendorID- og datokolonnene fra begge tabellene. Når begge tilordningene legges til, utheves de samsvarende kolonneoverskriftene i hver tabell.

  4. En melding vises der du blir bedt om å tillate kombinasjon av data fra flere datakilder for å vise resultatene. Velg OK i dialogboksen Flett .

    Screenshot showing the request to approve combining data from multiple data sources, with the OK button highlighted.

  5. I tabellområdet ser du i utgangspunktet en advarsel om at evalueringen ble avbrutt fordi kombinasjon av data fra flere kilder kan vise data fra én kilde til en annen. Velg fortsett hvis muligheten for å avsløre data er ok.» Velg Fortsett for å vise de kombinerte dataene.

    Screenshot showing the warning about combining data from multiple data sources with the Continue button highlighted.

  6. Legg merke til hvordan en ny spørring ble opprettet i diagramvisning som viser relasjonen mellom den nye flettespørringen med de to spørringene du opprettet tidligere. Når du ser på tabellruten i redigeringsprogrammet, blar du til høyre for kolonnelisten flettingsspørring for å se en ny kolonne med tabellverdier. Dette er kolonnen "Generert NYC Taxi-Green-Discounts", og typen er [Tabell]. I kolonneoverskriften er det et ikon med to piler som går i motsatt retning, slik at du kan velge kolonner fra tabellen. Fjern merkingen for alle kolonnene unntatt Rabatt, og velg deretter OK.

    Screenshot showing the merged query with the column selection menu displayed for the newly generated column Generated-NYC-Taxi-Green-Discounts.

  7. Med rabattverdien nå på radnivå, kan vi opprette en ny kolonne for å beregne totalbeløpet etter rabatt. Hvis du vil gjøre dette, velger du fanen Legg til kolonne øverst i redigeringsprogrammet, og velger Egendefinert kolonne fra Generelt-gruppen .

    Screenshot showing the Add custom column button highlighted on the General section of the Add column tab.

  8. I dialogboksen Egendefinert kolonne kan du bruke power query-formelspråket (også kalt M) til å definere hvordan den nye kolonnen skal beregnes. Angi TotalAfterDiscount for nytt kolonnenavn, velg Valuta for datatypen, og angi følgende M-uttrykk for den egendefinerte kolonneformelen:

    if [totalAmount] > 0 then [totalAmount] * ( 1 -[Discount] ) else [totalAmount]

    Velg deretter OK.

    Screenshot showing the Custom column configuration screen with the New column name, Data type and Custom column formula highlighted.

  9. Velg den nylig opprettede TotalAfterDiscount-kolonnen , og velg deretter Transformer-fanen øverst i redigeringsvinduet. Velg rullegardinlisten Avrunding i kolonnegruppen Tall, og velg deretter Avrund....

    Screenshot showing the Round... option on the Transform tab of the editor window.

  10. Skriv inn 2 for antall desimaler i dialogboksen Runde av, og velg deretter OK.

    Screenshot showing the Round dialog with 2 for the number of decimal places and the OK button highlighted.

  11. Endre datatypen for IpepPickupDatetime fra Dato til Dato/klokkeslett.

    Screenshot showing the selection of the Date/Time data type for the IpepPickupDatetime column.

  12. Til slutt utvider du ruten for spørringsinnstillinger fra høyre side av redigeringsprogrammet hvis den ikke allerede er utvidet, og gir spørringen nytt navn fra Flett til Utdata.

    Screenshot showing the renaming of the query from Merge to Output.

Laste inn utdataspørringen til en tabell i Lakehouse

Med utdataspørringen nå fullstendig forberedt og med data klar til utdata, kan vi definere utdatamålet for spørringen.

  1. Velg spørringen for utskriftsfletting som ble opprettet tidligere. Velg deretter Hjem-fanen i redigeringsprogrammet, og legg til datamål fra spørringsgrupperingen for å velge et Lakehouse-mål.

    Screenshot showing the Add data destination button with Lakehouse highlighted.

  2. På Koble til til datamåldialogboksen skal tilkoblingen allerede være valgt. Klikk Neste for å fortsette.

  3. Bla til Lakehouse der du vil laste inn dataene i dialogboksen Velg målmål, og gi navn til den nye tabellen nyc_taxi_with_discounts, og velg deretter Neste på nytt.

    Screenshot showing the Choose destination target dialog with Table name nyc_taxi_with_discounts.

  4. I dialogboksen Velg målinnstillinger forlater du standard metode for erstatt oppdatering, dobbeltsjekker at kolonnene er tilordnet riktig, og velger Lagre innstillinger.

    Screenshot showing the Choose destination settings dialog with the Save settings button highlighted.

  5. Tilbake i hovedredigeringsprogrammet bekrefter du at du ser utdatamålet i spørringsinnstillingsruten for utdatatabellen, og deretter velger du Publiser.

    Viktig

    Når den første dataflyten Gen2 opprettes i et arbeidsområde, klargjøres Lakehouse- og Warehouse-elementer sammen med relaterte SQL Analytics-endepunkt og semantiske modeller. Disse elementene deles av alle dataflyter i arbeidsområdet og kreves for at Dataflyt gen2 skal fungere, bør ikke slettes, og er ikke ment å brukes direkte av brukere. Elementene er en implementeringsdetalj for Dataflyt gen2. Elementene er ikke synlige i arbeidsområdet, men kan være tilgjengelige i andre opplevelser, for eksempel notatblokken, SQL-endepunktet, Lakehouse og Warehouse. Du kan gjenkjenne elementene ved hjelp av prefikset i navnet. Prefikset for elementene er Dataflytsstaging.

  6. (Valgfritt) På arbeidsområdesiden kan du gi nytt navn til dataflyten ved å velge ellipsen til høyre for dataflytnavnet som vises etter at du har merket raden, og velge Egenskaper.

    Screenshot showing the Properties option selected on the menu for a dataflow where it can be renamed.

  7. Velg oppdateringsikonet for dataflyten når du har valgt raden, og når den er fullført, skal du se den nye Lakehouse-tabellen opprettet som konfigurert i innstillingene for datamål .

    Screenshot showing the selection of the refresh button to refresh the dataflow.

  8. Sjekk Lakehouse for å se det nye bordet lastet der.

I denne andre modulen til vår ende-til-ende-opplæring for din første dataintegrering ved hjelp av Data Factory i Microsoft Fabric, lærte du hvordan du gjør følgende:

  • Opprett en ny dataflyt gen2.
  • Importere og transformere eksempeldata.
  • Importere og transformere tekst-/CSV-data.
  • Slå sammen data fra begge datakildene til en ny spørring.
  • Transformer data og generer nye kolonner i en spørring.
  • Konfigurer en utdatamålkilde for en spørring.
  • Gi nytt navn til og oppdater den nye dataflyten.

Fortsett til neste del nå for å integrere datasamlebåndet.