Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
Dette modul tager ca. 25 minutter at gennemføre. Du opretter et dataflow, anvender transformationer og flytter rådataene fra bronzedatalagstabellen til en gulddatalagstabel.
Med de rå data indlæst i dit bronze Lakehouse-bord fra det sidste modul, kan du nu berige det. Du vil kombinere det med en anden tabel, der indeholder rabatter for hver leverandør og deres ture i løbet af en bestemt dag. Derefter er dette sidste guld Lakehouse-bord derefter fyldt og klar til forbrug.
De overordnede trin i dataflowet er:
- Hent rådata fra Lakehouse-tabellen, der er oprettet af Kopier-aktiviteten i modul 1: Opret en pipeline med Data Factory.
- Transformér de data, der er importeret fra Lakehouse-tabellen.
- Opret forbindelse til en CSV-fil, der indeholder rabatdata.
- Transformér rabatdataene.
- Kombiner data om ture og rabatter.
- Indlæs outputforespørgslen i Gold Lakehouse-tabellen.
Forudsætninger
Modul 1 i denne serie af selvstudier: Opret en pipeline med Data Factory
Hent data fra en Lakehouse-tabel
Vælg dit arbejdsområde på margenteksten, vælg Nyt element, og derefter Dataflow Gen2 for at oprette en ny Dataflow Gen2.
I menuen for det nye dataflow skal du vælge Hent dataog derefter Flere....
Søg efter og vælg connectoren Lakehouse.
Dialogboksen Opret forbindelse til datakilde vises, og der oprettes automatisk en ny forbindelse for dig baseret på den bruger, der i øjeblikket er logget på. Vælg Næste.
Dialogboksen Vælg data vises. Brug navigationsruden til at finde det Lakehouse, du oprettede for destinationen i det foregående modul, og vælg datatabellen Tutorial_Lakehouse. Vælg derefter Opret.
(valgfrit) Når lærredet er udfyldt med dataene, kan du angive kolonneprofil oplysninger, da dette er nyttigt til dataprofilering. Du kan anvende den rigtige transformation og målrette de rigtige dataværdier baseret på den.
Det gør du ved at vælge Indstillinger i båndruden, derefter vælge de første tre indstillinger under Kolonneprofilog derefter vælge OK.
Transformér de data, der er importeret fra Lakehouse
Vælg datatypeikonet i kolonneoverskriften for den anden kolonne IpepPickupDatetimefor at få vist en rullemenu og vælge datatypen i menuen for at konvertere kolonnen fra den Dato/klokkeslæt- til dato- type.
(valgfrit) På fanen Hjem på båndet skal du vælge indstillingen Vælg kolonner i gruppen Administrer kolonner.
(valgfrit) Fravælg nogle af de kolonner, der er angivet her, i dialogboksen Vælg kolonner, og vælg derefter OK .- lpepDropoffDatetime
- puLocationId
- doLocationId
- pickupLatitude
- dropoffLongitude
- rateCodeID
Vælg den storeAndFwdFlag kolonnes rullemenu til filtrering og sortering. Hvis du får vist en advarsel Listen kan være ufuldstændig, skal du vælge Indlæs flere for at se alle dataene.
Vælg 'Y' for kun at få vist rækker, hvor der blev anvendt en rabat, og vælg derefter OK.
Vælg rullemenuen IpepPickupDatetime rullemenu til sortering og filtrering af kolonner, og vælg derefter Datofiltre, og vælg Mellem... filter, der er angivet for dato- og dato-/klokkeslætstyper.
I dialogboksen filterrækker skal du vælge datoer mellem den 1. januar 2015 og den 31. januar 2015 og derefter vælge OK.
Opret forbindelse til en CSV-fil, der indeholder rabatdata
Med dataene fra turene på plads ønsker vi at indlæse de data, der indeholder de respektive rabatter for hver dag og VendorID, og forberede dataene, før vi kombinerer dem med turdataene.
Vælg indstillingen Hent data under fanen Hjem i menuen til redigering af dataflow, og vælg derefter Tekst/CSV-.
I dialogboksen Opret forbindelse til datakilde skal du angive følgende oplysninger:
-
Filsti eller URL-adresse -
https://raw.githubusercontent.com/ekote/azure-architect/master/Generated-NYC-Taxi-Green-Discounts.csv - godkendelsestype – anonym
Vælg derefter Næste.
-
Filsti eller URL-adresse -
Vælg Opreti dialogboksen eksempelfildata .
Transformér rabatdataene
Hvis du gennemser dataene, ser det ud til, at overskrifterne er i den første række. Hæv dem til overskrifter ved at vælge tabellens genvejsmenu øverst til venstre i eksempelgitterområdet for at vælge Brug den første række som overskrifter.
Seddel
Når du har fremhævet overskrifterne, kan du se et nyt trin, der er føjet til Anvendte trin, rude øverst i datafloweditoren til datatyperne i dine kolonner.
Højreklik på kolonnen VendorID, og vælg indstillingen Ophæv andre kolonneri den viste genvejsmenu. Det giver dig mulighed for at transformere kolonner til attributværdipar, hvor kolonner bliver til rækker.
Når tabellen ikke er åbnet, kan du omdøbe kolonnerne
Attribut og Value ved at dobbeltklikke på dem og ændreattribut tilDato ogVærdi til atDiscount .
Rediger datatypen for kolonnen Date ved at vælge menuen datatype til venstre for kolonnenavnet og vælge Dato.
Vælg kolonnen Discount, og vælg derefter fanen Transformér i menuen. Vælg kolonnen Tal, og vælg derefter Numeriske standardtransformationer i undermenuen, og vælg Divide.
I dialogboksen Divide skal du angive værdien 100.
Kombiner data om rejser og rabatter
Det næste trin er at kombinere begge tabeller i en enkelt tabel, der har den rabat, der skal anvendes på turen, og den justerede total.
Først skal du skifte til knappen Diagramvisning nederst til højre i vinduet, så du kan se begge dine forespørgsler.
Vælg din oprindelige dataforespørgsel (i vores eksempel hedder den Bronze), og vælg menuen Kombiner under fanen Startside, og vælg Flet forespørgslerog derefter Flet forespørgsler som nye.
I dialogboksen Flet skal du vælge en venstre ydre fletning og derefter vælge Generated-NYC-Taxi-Green-Discounts fra rullelisten Højre tabel til fletning og derefter vælge ikonet "pære" øverst til højre i dialogboksen for at se den foreslåede tilknytning af kolonner mellem de to tabeller.
Vælg foreslået tilknytning for at tilknytte kolonnerne Kreditor-id og dato fra begge tabeller. Når begge tilknytninger tilføjes, fremhæves de tilsvarende kolonneoverskrifter i hver tabel.
Der vises en meddelelse, hvor du bliver bedt om at tillade, at du kombinerer data fra flere datakilder for at få vist resultaterne. Vælg OK i dialogboksen Flet.
I tabelområdet vil du først se en advarsel om, at "Oplysninger er påkrævet om databeskyttelse". Vælg Fortsæt for at løse advarslen.
I dette selvstudium skal du vælge Ignorer kontrol af niveauer for beskyttelse af personlige oplysninger for dette dokument, da dette er eksempeldata, der ikke indeholder følsomme oplysninger. For dine egne datakilder skal du angive passende niveauer for beskyttelse af personlige oplysninger for at beskytte dine følsomme data.
Vælg Gem.
Bemærk, hvordan en ny forespørgsel blev oprettet i diagramvisning, der viser relationen mellem den nye fletforespørgsel og de to forespørgsler, du tidligere har oprettet. Når du ser på tabelruden i editoren, skal du rulle til højre for listen Flet forespørgselskolonne for at se en ny kolonne med tabelværdier. Dette er kolonnen "Generated NYC Taxi-Green-Discounts", og typen er [Table]. I kolonneoverskriften er der et ikon med to pile, der går i modsatte retninger, så du kan vælge kolonner fra tabellen. Fjern markeringen af alle kolonner undtagen Discount, og vælg derefter OK.
Når rabatværdien nu er på rækkeniveau, kan vi oprette en ny kolonne for at beregne det samlede beløb efter rabatten. Det gør du ved at vælge fanen Tilføj kolonne øverst i editoren og vælge brugerdefineret kolonne i gruppen Generelt.
I dialogboksen Brugerdefineret kolonne kan du bruge Power Query-formelsproget (også kaldet M) til at definere, hvordan den nye kolonne skal beregnes. Angiv TotalAfterDiscount- for Nyt kolonnenavn, vælg Valuta for Datatype, og angiv følgende M-udtryk for formlen for brugerdefineret kolonne:
hvis [totalAmount] > 0, så [totalAmount] * ( 1 -[Discount] ) ellers [totalAmount]
Vælg derefter OK.
Vælg den nyoprettede TotalAfterDiscount kolonne, og vælg derefter fanen Transformér øverst i editorvinduet. Vælg rullelisten Afrunding i gruppen Number, og vælg derefter Afrund....
Angiv 2 for antallet af decimaler i dialogboksen Afrund i, og vælg derefter OK.
Skift datatypen for IpepPickupDatetime fra Dato til Dato/klokkeslæt.
Udvid til sidst de forespørgselsindstillinger ruden fra højre side af editoren, hvis den ikke allerede er udvidet, og omdøb forespørgslen fra Flet til Output.
Indlæs outputforespørgslen i en tabel i Lakehouse
Når outputforespørgslen nu er fuldt forberedt og med data klar til output, kan vi definere outputdestinationen for forespørgslen.
Vælg den Output fletteforespørgsel, der er oprettet tidligere. Vælg derefter fanen Start i editoren, og Tilføj datadestination i gruppering af -forespørgsel for at vælge en Lakehouse destination.
I dialogboksen Opret forbindelse til datadestination skal forbindelsen allerede være valgt. Vælg Næste for at fortsætte.
I dialogboksen Vælg destinationsmål skal du gå til det Lakehouse, hvor du vil indlæse dataene, og navngive den nye tabel nyc_taxi_with_discountsog derefter vælge Næste igen.
I dialogboksen Vælg destinationsindstillinger kan du bruge de automatiske indstillinger eller fravælge de automatiske indstillinger og forlade standardmetoden Erstat opdatering, dobbelttjekke, at dine kolonner er knyttet korrekt, og vælge Gem indstillinger.
I hovededitorvinduet skal du bekræfte, at du kan se din outputdestination i ruden Forespørgselsindstillinger for outputtabellen under Datadestination, og derefter vælge Gem*.
Vigtig
Når det første Dataflow Gen2 oprettes i et arbejdsområde, klargøres Lakehouse- og Warehouse-elementer sammen med deres relaterede SQL Analytics-slutpunkt og semantiske modeller. Disse elementer deles af alle dataflow i arbejdsområdet og er påkrævet, for at Dataflow Gen2 kan fungere, bør ikke slettes og er ikke beregnet til at blive brugt direkte af brugerne. Elementerne er en implementeringsdetaljer for Dataflow Gen2. Elementerne er ikke synlige i arbejdsområdet, men kan være tilgængelige i andre oplevelser, f.eks. Notebook, SQL-endpoint, Lakehouse og Warehouse. Du kan genkende elementerne med deres præfiks i navnet. Præfikset for elementerne er 'DataflowStaging'.
(Valgfrit) På siden med arbejdsområdet kan du omdøbe dit dataflow ved at vælge ellipsen til højre for navnet på dataflowet, der vises, når du har markeret rækken, og vælge Indstillinger. I dette eksempel omdøber vi det til nyc_taxi_with_discounts.
Vælg opdateringsikonet for dataflowet under ellipsen Flere indstillinger , og når du er færdig, bør du kunne se din nye Lakehouse-tabel oprettet som konfigureret i indstillingerne for datadestination .
Tjek din Lakehouse for at se den nye tabel indlæst der.
Næste trin
Fortsæt til næste afsnit for at integrere din pipeline.