Omvandla data med Mappa dataflöden

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Om du inte har använt Azure Data Factory tidigare kan du läsa Introduktion till Azure Data Factory.

I den här självstudien använder du Azure Data Factory användargränssnitt (UX) för att skapa en pipeline som kopierar och transformerar data från en Azure Data Lake Storage (ADLS) Gen2-källa till en ADLS Gen2-mottagare med hjälp av mappningsdataflödet. Konfigurationsmönstret i den här självstudien kan utökas vid transformering av data med hjälp av dataflödesmappning

Anteckning

Den här självstudien är avsedd för att mappa dataflöden i allmänhet. Dataflöden är tillgängliga både i Azure Data Factory och Synapse Pipelines. Om du är nybörjare på dataflöden i Azure Synapse pipelines följer du Поток данных med Azure Synapse pipelines

I den här självstudien gör du följande:

  • Skapa en datafabrik.
  • Skapa en pipeline med en Поток данных aktivitet.
  • Skapa ett mappningsdataflöde med fyra transformeringar.
  • Testkör pipelinen.
  • Övervaka en Поток данных aktivitet

Krav

  • Azure-prenumeration. Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt Azure-konto innan du börjar.
  • Azure Storage-konto. Du använder ADLS-lagring som käll- och mottagardatalager . Om du inte har ett lagringskonto finns det anvisningar om hur du skapar ett i Skapa ett Azure Storage-konto.

Filen som vi transformerar i den här självstudien är MoviesDB.csv, som du hittar här. Om du vill hämta filen från GitHub kopierar du innehållet till valfri textredigerare för att spara lokalt som en .csv fil. Information om hur du laddar upp filen till ditt lagringskonto finns i Ladda upp blobar med Azure-Portal. Exemplen refererar till en container med namnet "sample-data".

Skapa en datafabrik

I det här steget skapar du en datafabrik och öppnar Data Factory UX för att skapa en pipeline i datafabriken.

  1. Öppna Microsoft Edge eller Google Chrome. Data Factory-användargränssnittet stöds för närvarande endast i webbläsaren Microsoft Edge och Google Chrome.

  2. På den vänstra menyn väljer du Skapa en resurs>Integration>Data Factory:

    Val av &datafabrik i quot; Nytt&citat; fönster

  3. I fönstret Ny datafabrik, under Namn anger du ADFTutorialDataFactory.

    Namnet på Azure-datafabriken måste vara globalt unikt. Ange ett annat namn för datafabriken om du får ett felmeddelande om namnvärdet. (till exempel yournameADFTutorialDataFactory). Se artikeln Namnregler för Data Factory för namnregler för Data Factory-artefakter.

    Nytt felmeddelande för datafabriken för dubblettnamn.

  4. Välj den Azure-prenumeration som du vill skapa den nya datafabriken i.

  5. Gör något av följande för Resursgrupp:

    a. Välj Använd befintlig och välj en befintlig resursgrupp i listrutan.

    b. Välj Skapa ny och ange namnet på en resursgrupp.

    Mer information om resursgrupper finns i Använda resursgrupper för att hantera Azure-resurser.

  6. Under Version väljer du V2.

  7. Under Plats väljer du en plats för datafabriken. Endast platser som stöds visas i listrutan. Datalager (till exempel Azure Storage och SQL Database) och beräkningar (till exempel Azure HDInsight) som används av datafabriken kan finnas i andra regioner.

  8. Välj Skapa.

  9. När skapandet är klart visas meddelandet i Meddelandecenter. Välj Gå till resurs för att gå till sidan Datafabrik.

  10. Välj Författare & övervakare för att starta Data Factory-användargränssnittet på en separat flik.

Skapa en pipeline med en Поток данных aktivitet

I det här steget skapar du en pipeline som innehåller en Поток данных aktivitet.

  1. På startsidan för Azure Data Factory väljer du Orchestrate.

    Skärmbild som visar startsidan för ADF.

  2. På fliken Allmänt för pipelinen anger du TransformMovies som Namn på pipelinen.

  3. I fönstret Aktiviteter expanderar du dragspelet Flytta och transformera . Dra och släpp Поток данных aktivitet från fönstret till pipelinearbetsytan.

    Skärmbild som visar pipelinearbetsytan där du kan ta bort Поток данных aktivitet.

  4. I popup-fönstret Lägg till Поток данных väljer du Skapa ny Поток данных och namnger sedan dataflödet TransformMovies. Klicka på Slutför när du är klar.

    Skärmbild som visar var du namnger ditt dataflöde när du skapar ett nytt dataflöde.

  5. I det övre fältet på pipelinearbetsytan skjuter du Поток данных felsökningsreglaget på. Felsökningsläget möjliggör interaktiv testning av transformeringslogik mot ett live Spark-kluster. Поток данных kluster tar 5–7 minuter att värma upp och användarna rekommenderas att aktivera felsökning först om de planerar att göra Поток данных utveckling. Mer information finns i Felsökningsläge.

    Поток данных aktivitet

Skapa transformeringslogik i dataflödesarbetsytan

När du har skapat din Поток данных skickas du automatiskt till dataflödesarbetsytan. I det här steget skapar du ett dataflöde som tar moviesDB.csv i ADLS-lagring och sammanställer den genomsnittliga klassificeringen av komedier från 1910 till 2000. Sedan skriver du tillbaka den här filen till ADLS-lagringen.

  1. Lägg till en källa i dataflödesarbetsytan genom att klicka på rutan Lägg till källa .

    Skärmbild som visar rutan Lägg till källa.

  2. Ge källan namnet MoviesDB. Klicka på Ny för att skapa en ny källdatauppsättning.

    Skärmbild som visar var du väljer Nytt när du har döpa källan till namnet.

  3. Välj Azure Data Lake Storage Gen2. Klicka på Fortsätt.

    Skärmbild som visar var är panelen Azure Data Lake Storage Gen2.

  4. Välj Avgränsadtext. Klicka på Fortsätt.

    Skärmbild som visar panelen Avgränsadtext.

  5. Ge datauppsättningen namnet MoviesDB. I listrutan länkad tjänst väljer du Ny.

    Skärmbild som visar listrutan Länkad tjänst.

  6. På skärmen för att skapa länkad tjänst namnger du den länkade ADLS gen2-tjänsten ADLSGen2 och anger din autentiseringsmetod. Ange sedan dina autentiseringsuppgifter för anslutningen. I den här självstudien använder vi kontonyckeln för att ansluta till vårt lagringskonto. Du kan klicka på Testa anslutning för att kontrollera att dina autentiseringsuppgifter har angetts korrekt. Klicka på Skapa när du är klar.

    Länkad tjänst

  7. När du är tillbaka på skärmen för att skapa datauppsättningen anger du var filen finns under fältet Filsökväg . I den här självstudien finns filen moviesDB.csv i containerexempeldata. Eftersom filen har rubriker markerar du Den första raden som rubrik. Välj Från anslutning/arkiv för att importera rubrikschemat direkt från filen i lagringen. Klicka på OK när du är klar.

    Datauppsättningar

  8. Om felsökningsklustret har startat går du till fliken Dataförhandsgranskning i källomvandlingen och klickar på Uppdatera för att få en ögonblicksbild av data. Du kan använda förhandsversionen av data för att kontrollera att omvandlingen är korrekt konfigurerad.

    Skärmbild som visar var du kan förhandsgranska dina data för att verifiera att omvandlingen är korrekt konfigurerad.

  9. Bredvid källnoden på dataflödesarbetsytan klickar du på plusikonen för att lägga till en ny transformering. Den första omvandlingen som du lägger till är ett filter.

    Поток данных arbetsyta

  10. Ge filtertransformeringen namnet FilterYears. Klicka på uttrycksrutan bredvid Filtrera på för att öppna uttrycksverktyget. Här anger du filtreringsvillkoret.

    Skärmbild som visar rutan Filtrera på uttryck.

  11. Med uttrycksverktyget för dataflöde kan du interaktivt skapa uttryck som ska användas i olika transformeringar. Uttryck kan innehålla inbyggda funktioner, kolumner från indataschemat och användardefinierade parametrar. Mer information om hur du skapar uttryck finns i Поток данных uttrycksverktyget.

    I den här självstudien vill du filtrera filmer med genrekomik som kom ut mellan åren 1910 och 2000. Eftersom år för närvarande är en sträng måste du konvertera den till ett heltal med hjälp av toInteger() funktionen. Använd operatorerna större än eller lika med (>=) och mindre än eller lika med (<=) för att jämföra med literalårsvärdena 1910 och 2000. Koppla dessa uttryck tillsammans med operatorn och (&&). Uttrycket visas som:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    För att hitta vilka filmer som är komedier kan du använda rlike() funktionen för att hitta mönstret "Comedy" i kolumngenren. Union uttrycket rlike med årsjämförelsen för att få:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Om du har ett aktivt felsökningskluster kan du verifiera logiken genom att klicka på Uppdatera för att se uttrycksutdata jämfört med de indata som används. Det finns mer än ett rätt svar på hur du kan åstadkomma den här logiken med hjälp av språket för dataflödesuttryck.

    Filtrera

    Klicka på Spara och slutför när du är klar med uttrycket.

  12. Hämta en dataförhandsgranskning för att kontrollera att filtret fungerar korrekt.

    Skärmbild som visar den dataförhandsgranskning som du hämtade.

  13. Nästa transformering som du lägger till är en aggregeringstransformering under Schemamodifierare.

    Skärmbild som visar schemamodifieraren Sammanställ.

  14. Ge din aggregerade omvandling namnet AggregateComedyRatings. På fliken Gruppera efter väljer du år i listrutan för att gruppera aggregeringarna efter året då filmen kom ut.

    Skärmbild som visar alternativet år på fliken Gruppera efter under Aggregerade inställningar.

  15. Gå till fliken Aggregat . I den vänstra textrutan namnger du den sammanställda kolumnen AverageComedyRating. Klicka på den högra uttrycksrutan för att ange samlingsuttrycket via uttrycksverktyget.

    Skärmbild som visar alternativet år på fliken Aggregat under Aggregerade inställningar.

  16. Använd aggregeringsfunktionen för avg() att hämta medelvärdet av kolumnklassificering. Eftersom Rating är en sträng och avg() tar in numeriska indata måste vi konvertera värdet till ett tal via toInteger() funktionen. Det här är ett uttryck som ser ut så här:

    avg(toInteger(Rating))

    Klicka på Spara och slutför när du är klar.

    Skärmbild som visar det sparade uttrycket.

  17. Gå till fliken Dataförhandsgranskning om du vill visa transformeringsutdata. Observera att endast två kolumner finns där, year och AverageComedyRating.

    Aggregera

  18. Sedan vill du lägga till en mottagaretransformering under Mål.

    Skärmbild som visar var du lägger till en mottagaromvandling under Mål.

  19. Ge mottagaren namnet Sink. Klicka på Ny för att skapa datauppsättningen för mottagare.

    Skärmbild som visar var du kan namnge mottagaren och skapa en ny datauppsättning för mottagare.

  20. Välj Azure Data Lake Storage Gen2. Klicka på Fortsätt.

    Skärmbild som visar den Azure Data Lake Storage Gen2 panel som du kan välja.

  21. Välj Avgränsadtext. Klicka på Fortsätt.

    Datamängd

  22. Ge mottagaren namnet moviesset MoviesSink. För länkad tjänst väljer du den länkade ADLS gen2-tjänst som du skapade i steg 6. Ange en utdatamapp att skriva dina data till. I den här självstudien skriver vi till mappen "output" i containern "sample-data". Mappen behöver inte finnas i förväg och kan skapas dynamiskt. Ange Första raden som rubrik som true och välj Ingen för Importschema. Klicka på Slutför.

    Kanalmottagare

Nu har du skapat dataflödet. Du är redo att köra den i pipelinen.

Köra och övervaka Поток данных

Du kan felsöka en pipeline innan du publicerar den. I det här steget ska du utlösa en felsökningskörning av dataflödespipelinen. Även om dataförhandsgranskningen inte skriver data, kommer en felsökningskörning att skriva data till målmottagaren.

  1. Gå till pipelinearbetsytan. Klicka på Felsök för att utlösa en felsökningskörning.

    Skärmbild som visar pipelinearbetsytan med Felsökning markerad.

  2. Pipeline-felsökning av Поток данных aktiviteter använder det aktiva felsökningsklustret, men det tar ändå minst en minut att initiera. Du kan spåra förloppet via fliken Utdata . När körningen är klar klickar du på glasögonikonen för att öppna övervakningsfönstret.

    Pipeline

  3. I övervakningsfönstret kan du se antalet rader och den tid som spenderas i varje transformeringssteg.

    Skärmbild som visar övervakningsfönstret där du kan se antalet rader och den tid som spenderas i varje transformeringssteg.

  4. Klicka på en transformering för att få detaljerad information om kolumner och partitionering av data.

    Övervakning

Om du har följt den här självstudien korrekt bör du ha skrivit 83 rader och 2 kolumner i mottagarmappen. Du kan kontrollera att data är korrekta genom att kontrollera bloblagringen.

Nästa steg

Pipelinen i den här självstudien kör ett dataflöde som aggregerar den genomsnittliga klassificeringen av komedier från 1910 till 2000 och skriver data till ADLS. Du har lärt dig att:

  • Skapa en datafabrik.
  • Skapa en pipeline med en Поток данных aktivitet.
  • Skapa ett mappningsdataflöde med fyra transformeringar.
  • Testkör pipelinen.
  • Övervaka en Поток данных aktivitet

Mer informasjon om språket för dataflödesuttryck.