Øvelse – Brug wrangling-data i Azure Data Factory

Fuldført

Funktionen Power Query i Azure Data Factory giver dig mulighed for at arbejde med og omarrangere data. Det er et objekt, der kan tilføjes til canvas designeren som en aktivitet i en Azure Data Factory-pipeline for at udføre kodefri dataforberedelse. Det gør det muligt for personer, der ikke er fortrolige med traditionelle dataforberedelsesteknologier som Spark eller SQL Server, samt sprog som Python og T-SQL, at forberede data iterativt i cloud-skala.

Power Query-funktionen bruger en grænseflade af gittertypen til grundlæggende dataforberedelse, der ligner Excels æstetik, der er kendt som en Online Mashup-editor. Editoren gør det også muligt for mere avancerede brugere at udføre mere kompleks dataforberedelse ved hjælp af formler. Du skal først oprette en linket tjeneste til en kilde til dataene, før du kan få adgang til dataene.

Skærmbillede, der viser Online Mashup Editor-grænsefladen for Power Query i Azure Data Factory.

Formlerne fungerer sammen med Power Query Online og gør M-funktioner i Power Query tilgængelige for brugere af datafabrikker. Power Query oversætter derefter det M-sprog, der genereres af Online Mashup Editor, til spark-kode til udførelse i skyen.

Denne funktion giver både datateknikere og dataanalytikere mulighed for interaktivt at udforske og forberede datasæt. Derudover kan de arbejde interaktivt med M-sproget og få vist resultatet, før de får det vist i forbindelse med en bredere pipeline.

For at tilføje en Power Query-aktivitet i Azure Data Factory, vælg plus-ikonet og vælg Power Query i Factory Resources-panelet.

Skærmbillede, der viser Power Query-muligheden fremhævet i fabriksressourcepanelet.

Tilføj et kildedatasæt til dit wrangling-dataflow, og vælg et sink-datasæt. Følgende datakilder understøttes.

Connector Dataformat Godkendelsestype
Azure Blob Storage CSV, Parquet, Excel Kontonøgle, Service Principal, MSI
Azure Data Lake Storage Gen1 CSV, Parquet, Excel Serviceleder, MSI
Azure Data Lake Storage Gen2 CSV, Parquet, Excel Kontonøgle, Service Principal, MSI
Azure SQL Database - SQL-autentificering, MSI, Service Principal
Azure Synapse Analytics - SQL-autentificering, MSI, Service Principal

Når du har valgt en kilde, vælger du Create.

Skærmbillede, der viser kildedatasæt tilføjes til Power Query wrangling dataflow.

Dette åbner Online-mikseditoren.

Skærmbillede, der viser Online Mashup Editor med dens hovedkomponenter mærket.

Den består af følgende komponenter:

  1. Datasætliste.

    Dette leverer de datasæt, der er defineret som kilden til Data Wrangling.

  2. Værktøjslinjen Wrangling Function.

    Værktøjslinjen indeholder forskellige datahåndteringsfunktioner, som brugeren kan få adgang til for at manipulere dataene, herunder:

    • Administration af kolonner.
    • Transformerer tabeller.
    • Reduktion af rækker.
    • Tilføjer kolonner.
    • Kombination af tabeller.

    Hvert element er kontekstafhængig og indeholder underfunktioner, der er specifikke for det.

  3. Kolonneoverskrifter.

    Ud over muligheden for at omdøbe kolonner, åbner højremarkering af kolonnen kontekstfølsomme elementer til håndtering af kolonner.

  4. Indstillinger.

    Dette gør det muligt for dig at tilføje eller redigere datakilder og datavaske og ændre indstillingen for den wrangling-dataopgave.

  5. Vinduet Trin.

    I dette vindue vises de trin, der er anvendt på wrangling-outputtet. I eksemplet i grafikken er trinnet kaldet "Source" blevet anvendt med wrangling-outputtet kaldet "UserQuery."

  6. Power Query-outputliste.

    Viser de data, der omarrangerer output, der er defineret.

  7. Knappen Publicer.

    Giver dig mulighed for at publicere det arbejde, der er oprettet.

En Power Query-opgave kan tilføjes i lærredsdesigneren på samme måde som en kopiaktivitetsopgave eller en tilknytning af dataflowopgave og kan administreres og overvåges på samme måde.

Skærmbillede, der viser den gennemførte Power Query-aktivitet tilføjet til pipeline-lærredet.