Hurtigstart: Flytte og transformere data med dataflyter og datasamlebånd

I denne opplæringen oppdager du hvordan dataflyten og datasamlebåndopplevelsen kan opprette en kraftig og omfattende datafabrikkløsning.

Forutsetning

Du må ha følgende forutsetninger for å komme i gang:

Dataflyter sammenlignet med datasamlebånd

Med dataflyter gen2 kan du dra nytte av et grensesnitt med lav kode og 300 + data og AI-baserte transformasjoner til deg enkelt å rengjøre, klargjøre og transformere data med mer fleksibilitet enn noe annet verktøy. Datasamlebånd gjør det mulig for rike ut-av-boksen-dataorkestreringsfunksjoner å skrive fleksible dataarbeidsflyter som oppfyller bedriftens behov. I et datasamlebånd kan du opprette logiske grupperinger av aktiviteter som utfører en oppgave, som kan omfatte å kalle en dataflyt for å rydde opp i og klargjøre dataene. Selv om det er noe funksjonalitetsoverlapping mellom de to, avhenger valget som skal brukes for et bestemt scenario, av om du krever full rikdom av datasamlebånd eller kan bruke de enklere, men mer begrensede egenskapene til dataflyter. Hvis du vil ha mer informasjon, kan du se stoffbeslutningsveiledningen

Transformere data med dataflyter

Følg disse trinnene for å konfigurere dataflyten.

Trinn 1: Opprette en dataflyt

  1. Velg stoffaktivert arbeidsområde, og velg deretter Ny. Velg deretter Dataflyt gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. Vinduet for redigeringsprogrammet for dataflyt vises. Velg Importer fra SQL Server-kortet.

    Screenshot showing the dataflow editor window.

Trinn 2: Hent data

  1. Skriv inn detaljene for å koble til Azure SQL-databasen i dialogboksen Koble til til datakilden som presenteres neste gang, og velg deretter Neste. I dette eksemplet bruker du eksempeldatabasen AdventureWorksLT som er konfigurert når du konfigurerer Azure SQL-databasen i forutsetningene.

    Screenshot showing how to connect to an Azure SQL database.

  2. Velg dataene du vil transformere, og velg deretter Opprett. For denne hurtigstarten velger du SalesLT.Customer fra eksempeldataene fra AdventureWorksLT for Azure SQL DB, og deretter velger du knappen Velg relaterte tabeller for automatisk å inkludere to andre relaterte tabeller.

    Screenshot showing where to choose from the available data.

Trinn 3: Transformere dataene

  1. Hvis det ikke er valgt, velger du Diagramvisning-knappen langs statuslinjen nederst på siden, eller velger Diagramvisning under Vis-menyen øverst i redigeringsprogrammet for Power Query. Ett av disse alternativene kan veksle diagramvisningen.

    Screenshot showing where to select diagram view.

  2. Høyreklikk SalesLT Customer-spørringen, eller velg den loddrette ellipsen til høyre for spørringen, og velg deretter Slå sammen spørringer.

    Screenshot showing where to find the Merge queries option.

  3. Konfigurer flettingen ved å velge SalesLTOrderHeader-tabellen som høyre tabell for flettingen , CustomerID-kolonnen fra hver tabell som sammenføyningskolonne og Venstre ytre som sammenføyningstype. Velg deretter OK for å legge til flettespørringen.

    Screenshot of the Merge configuration screen.

  4. Velg knappen Legg til datamål, som ser ut som et databasesymbol med en pil over, fra den nye flettespørringen du nettopp opprettet. Velg deretter Azure SQL-database som måltype.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Oppgi detaljene for Azure SQL-databasetilkoblingen der flettespørringen skal publiseres. I dette eksemplet kan du bruke AdventureWorksLT-databasen vi brukte som datakilde for målet også.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Velg en database for å lagre dataene, og angi et tabellnavn, og velg deretter Neste.

    Screenshot showing the Choose destination target window.

  7. Du kan la standardinnstillingene stå i dialogboksen Velg målinnstillinger , og bare velge Lagre innstillinger uten å gjøre noen endringer her.

    Screenshot showing the Choose destination settings dialog.

  8. Velg Publiser på dataflytredigeringssiden for å publisere dataflyten.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Flytte data med datasamlebånd

Nå som du har opprettet en dataflyt gen2, kan du operere på den i et datasamlebånd. I dette eksemplet kopierer du dataene som genereres fra dataflyten, til tekstformat i en Azure Blob Storage-konto.

Trinn 1: Opprette et nytt datasamlebånd

  1. Velg Ny fra arbeidsområdet, og velg deretter Datasamlebånd.

    Screenshot showing where to start a new data pipeline.

  2. Gi navn til datasamlebåndet, og velg deretter Opprett.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Trinn 2: Konfigurere dataflyten

  1. Legg til en ny dataflytaktivitet i datasamlebåndet ved å velge DataflytAktiviteter-fanen .

    Screenshot showing where to select the Dataflow option.

  2. Velg dataflyten på datasamlebåndlerretet, og velg deretter fanen Innstillinger. Velg dataflyten du opprettet tidligere fra rullegardinlisten.

    Screenshot showing how to choose the dataflow you created.

  3. Velg Lagre, og kjør deretter for å kjøre dataflyten for å fylle ut den sammenslåtte spørringstabellen du utformet i forrige trinn.

    Screenshot showing where to select Run.

Trinn 3: Bruke kopieringsassistenten til å legge til en kopiaktivitet

  1. Velg Kopier data på lerretet for å åpne kopier assistentverktøyet for å komme i gang. Eller velg Bruk kopier assistent fra rullegardinlisten Kopier data under Aktiviteter-fanen på båndet.

    Screenshot showing the two ways to access the copy assistant.

  2. Velg datakilden ved å velge en datakildetype. I denne opplæringen bruker du Azure SQL Database som ble brukt tidligere da du opprettet dataflyten for å generere en ny flettespørring. Rull ned under eksempeldatatilbudene, og velg Azure-fanen og deretter Azure SQL Database. Velg deretter Neste for å fortsette.

    Screenshot showing where to choose a data source.

  3. Opprett en tilkobling til datakilden ved å velge Opprett ny tilkobling. Fyll ut den nødvendige tilkoblingsinformasjonen i panelet, og skriv inn AdventureWorksLT for databasen, der vi genererte flettespørringen i dataflyten. Velg deretter Neste.

    Screenshot showing where to create a new connection.

  4. Velg tabellen du genererte i dataflyttrinnet tidligere, og velg deretter Neste.

    Screenshot showing how to select from available tables.

  5. Velg Azure Blob Storage for målet ditt, og velg deretter Neste.

    Screenshot showing the Azure Blob Storage data destination.

  6. Opprett en tilkobling til målet ved å velge Opprett ny tilkobling. Oppgi detaljene for tilkoblingen, og velg deretter Neste.

    Screenshot showing how to create a connection.

  7. Velg mappebanen, og angi et filnavn, og velg deretter Neste.

    Screenshot showing how to select folder path and file name.

  8. Velg Neste på nytt for å godta standard filformat, kolonneskilletegn, radskilletegn og komprimeringstype, eventuelt inkludert en topptekst.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Fullfør innstillingene. Deretter kan du se gjennom og velge Lagre + Kjør for å fullføre prosessen.

    Screenshot showing how to review copy data settings.

Trinn 5: Utforme datasamlebåndet og lagre for å kjøre og laste inn data

  1. Hvis du vil kjøre Kopier-aktiviteten etter dataflytaktiviteten, drar du fra Vellykket på dataflytaktivitetentil Kopier-aktiviteten. Kopier-aktiviteten kjøres bare etter at dataflytaktiviteten er fullført.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Velg Lagre for å lagre datasamlebåndet. Velg deretter Kjør for å kjøre datasamlebåndet og laste inn dataene.

    Screenshot showing where to select Save and Run.

Planlegg kjøring av datasamlebånd

Når du er ferdig med å utvikle og teste datasamlebåndet, kan du planlegge at det skal kjøres automatisk.

  1. Velg PlanleggHjem-faneni vinduet for datasamlebåndredigering.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Konfigurer tidsplanen etter behov. Eksemplet her planlegger at datasamlebåndet skal kjøre daglig klokken 20:00 frem til slutten av året.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

Dette eksemplet viser deg hvordan du oppretter og konfigurerer en Dataflyt gen2 til å opprette en flettespørring og lagre den i en Azure SQL-database, og deretter kopiere data fra databasen til en tekstfil i Azure Blob Storage. Du lærte hvordan du:

  • Opprett en dataflyt.
  • Transformer data med dataflyten.
  • Opprett et datasamlebånd ved hjelp av dataflyten.
  • Bestill utførelsen av trinnene i datasamlebåndet.
  • Kopier data med kopieringsassistenten.
  • Kjør og planlegg datasamlebåndet.

Deretter kan du gå videre for å lære mer om overvåking av datasamlebåndkjøringer.