Transformera data på ett säkert sätt med hjälp av dataflödesmappning

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Om du inte har använt Azure Data Factory tidigare kan du läsa Introduktion till Azure Data Factory.

I den här självstudien använder du Användargränssnittet för Data Factory för att skapa en pipeline som kopierar och transformerar data från en Azure Data Lake Storage Gen2 källa till en Data Lake Storage Gen2 mottagare (båda tillåter åtkomst till endast valda nätverk) med hjälp av dataflödesmappning i Data Factory Managed Virtual Network. Du kan expandera konfigurationsmönstret i den här självstudien när du transformerar data med hjälp av mappning av dataflöde.

I den här självstudien gör du följande:

  • Skapa en datafabrik.
  • Skapa en pipeline med en dataflödesaktivitet.
  • Skapa ett mappningsdataflöde med fyra transformeringar.
  • Testkör pipelinen.
  • Övervaka en dataflödesaktivitet.

Förutsättningar

  • Azure-prenumeration. Om du inte har en Azure-prenumeration skapar du ett kostnadsfritt Azure-konto innan du börjar.
  • Azure Storage-konto. Du använder Data Lake Storage som käll- och mottagardatalager. Om du inte har ett lagringskonto finns det anvisningar om hur du skapar ett i Skapa ett Azure Storage-konto. Kontrollera att lagringskontot endast tillåter åtkomst från valda nätverk.

Filen som vi ska transformera i den här självstudien är moviesDB.csv, som finns på den här GitHub innehållswebbplatsen. Om du vill hämta filen från GitHub kopierar du innehållet till valfri textredigerare för att spara den lokalt som en .csv fil. Information om hur du laddar upp filen till ditt lagringskonto finns i Upload blobbar med Azure Portal. Exemplen refererar till en container med namnet sample-data.

Skapa en datafabrik

I det här steget skapar du en datafabrik och öppnar användargränssnittet för Data Factory för att skapa en pipeline i datafabriken.

  1. Öppna Microsoft Edge eller Google Chrome. För närvarande stöder endast Microsoft Edge- och Google Chrome-webbläsare Data Factory-användargränssnittet.

  2. På den vänstra menyn väljer du Skapa enresursAnalyticsData>>Factory.

  3. I fönstret Ny datafabrik, under Namn anger du ADFTutorialDataFactory.

    Namnet på datafabriken måste vara globalt unikt. Om du får ett felmeddelande om namnvärdet anger du ett annat namn för datafabriken (till exempel dittnamnADFTutorialDataFactory). Se artikeln Namnregler för Data Factory för namnregler för Data Factory-artefakter.

  4. Välj den Azure-prenumeration som du vill skapa den nya datafabriken i.

  5. Gör något av följande för Resursgrupp:

    • Välj Använd befintlig och välj en befintlig resursgrupp i listrutan.
    • Välj Skapa ny och ange namnet på en resursgrupp.

    Mer information om resursgrupper finns i Använda resursgrupper för att hantera Azure-resurser.

  6. Under Version väljer du V2.

  7. Under Plats väljer du en plats för datafabriken. Endast platser som stöds visas i listrutan. Datalager (till exempel Azure Storage och Azure SQL Database) och beräkningar (till exempel Azure HDInsight) som används av datafabriken kan finnas i andra regioner.

  8. Välj Skapa.

  9. När skapandet är klart visas meddelandet i meddelandecentret. Välj Gå till resurs för att gå till sidan DataFabrik .

  10. Välj Författare & övervakare för att starta Data Factory-användargränssnittet på en separat flik.

Skapa en Azure IR i Data Factory Managed Virtual Network

I det här steget skapar du en Azure IR och aktiverar Data Factory Managed Virtual Network.

  1. I Data Factory-portalen går du till Hantera och väljer Nytt för att skapa en ny Azure IR.

    Screenshot that shows creating a new Azure IR.

  2. På sidan Integration Runtime-konfiguration väljer du vilken integrationskörning som ska skapas baserat på de funktioner som krävs. I den här självstudien väljer du Azure, Lokalt installerad och klickar sedan på Fortsätt.

  3. Välj Azure och klicka sedan på Fortsätt för att skapa en Azure Integration-körning.

    Screenshot that shows a new Azure IR.

  4. Under Konfiguration av virtuellt nätverk (förhandsversion)väljer du Aktivera.

    Screenshot that shows enabling a new Azure IR.

  5. Välj Skapa.

Skapa en pipeline med en dataflödesaktivitet

I det här steget skapar du en pipeline som innehåller en dataflödesaktivitet.

  1. På startsidan för Azure Data Factory väljer du Orchestrate.

    Screenshot that shows creating a pipeline.

  2. I egenskapsfönstret för pipelinen anger du TransformMovies som pipelinenamn.

  3. I fönstret Aktiviteter expanderar du Flytta och transformera. Dra Dataflöde aktivitet från fönstret till pipelinearbetsytan.

  4. I popup-fönstret Lägg till dataflöde väljer du Skapa nytt dataflöde och sedan Mappa Dataflöde. Välj OK när du är klar.

    Screenshot that shows Mapping Data Flow.

  5. Ge dataflödet namnet TransformMovies i egenskapsfönstret .

  6. I det övre fältet på pipelinearbetsytan skjuter du Dataflöde skjutreglaget för felsökning på. Felsökningsläget möjliggör interaktiv testning av transformeringslogik mot ett live Spark-kluster. Dataflöde kluster tar 5–7 minuter att värma upp och användarna rekommenderas att aktivera felsökning först om de planerar att utföra Dataflöde utveckling. Mer information finns i Felsökningsläge.

    Screenshot that shows the Data flow debug slider.

Skapa transformeringslogik i dataflödesarbetsytan

När du har skapat dataflödet skickas du automatiskt till dataflödesarbetsytan. I det här steget skapar du ett dataflöde som tar moviesDB.csv-filen i Data Lake Storage och aggregerar den genomsnittliga klassificeringen av komedier från 1910 till 2000. Sedan skriver du tillbaka den här filen till Data Lake Storage.

Lägg till källtransformeringen

I det här steget konfigurerar du Data Lake Storage Gen2 som källa.

  1. Lägg till en källa i dataflödesarbetsytan genom att välja rutan Lägg till källa .

  2. Ge källan namnet MoviesDB. Välj Ny för att skapa en ny källdatauppsättning.

  3. Välj Azure Data Lake Storage Gen2 och välj sedan Fortsätt.

  4. Välj Avgränsadtext och välj sedan Fortsätt.

  5. Ge datauppsättningen namnet MoviesDB. I listrutan länkad tjänst väljer du Nytt.

  6. På skärmen för att skapa länkad tjänst namnger du din Data Lake Storage Gen2 länkade tjänsten ADLSGen2 och anger din autentiseringsmetod. Ange sedan dina autentiseringsuppgifter för anslutningen. I den här självstudien använder vi kontonyckeln för att ansluta till vårt lagringskonto.

  7. Se till att du aktiverar interaktiv redigering. Det kan ta en minut att aktivera.

    Screenshot that shows Interactive authoring.

  8. Välj Testanslutning. Det bör misslyckas eftersom lagringskontot inte aktiverar åtkomst till det utan att skapa och godkänna en privat slutpunkt. I felmeddelandet bör du se en länk för att skapa en privat slutpunkt som du kan följa för att skapa en hanterad privat slutpunkt. Ett alternativ är att gå direkt till fliken Hantera och följa anvisningarna i det här avsnittet för att skapa en hanterad privat slutpunkt.

  9. Håll dialogrutan öppen och gå sedan till ditt lagringskonto.

  10. Följ anvisningarna i det här avsnittet för att godkänna den privata länken.

  11. Gå tillbaka till dialogrutan. Välj Testa anslutningen igen och välj Skapa för att distribuera den länkade tjänsten.

  12. På skärmen för att skapa datauppsättning anger du var filen finns under fältet Filsökväg . I den här självstudien finns filen moviesDB.csv i containern sample-data. Eftersom filen har rubriker markerar du kryssrutan Första raden som rubrik . Välj Från anslutning/arkiv för att importera rubrikschemat direkt från filen i lagringen. Välj OK när du är klar.

    Screenshot that shows the source path.

  13. Om felsökningsklustret har startat går du till fliken Dataförhandsgranskning i källomvandlingen och väljer Uppdatera för att få en ögonblicksbild av data. Du kan använda dataförhandsgranskningen för att kontrollera att omvandlingen är korrekt konfigurerad.

    Screenshot that shows the Data Preview tab.

Skapa en hanterad privat slutpunkt

Om du inte använde hyperlänken när du testade den föregående anslutningen följer du sökvägen. Nu måste du skapa en hanterad privat slutpunkt som du ska ansluta till den länkade tjänst som du skapade.

  1. Gå till fliken Hantera .

    Anteckning

    Fliken Hantera kanske inte är tillgänglig för alla Data Factory-instanser. Om du inte ser den kan du komma åt privata slutpunkter genom att välja AuthorConnectionsPrivate-slutpunkt>>.

  2. Gå till avsnittet Hanterade privata slutpunkter .

  3. Välj + Ny under Hanterade privata slutpunkter.

    Screenshot that shows the Managed private endpoints New button.

  4. Välj panelen Azure Data Lake Storage Gen2 i listan och välj Fortsätt.

  5. Ange namnet på lagringskontot som du skapade.

  6. Välj Skapa.

  7. Efter några sekunder bör du se att den privata länken som skapats behöver ett godkännande.

  8. Välj den privata slutpunkt som du skapade. Du kan se en hyperlänk som gör att du godkänner den privata slutpunkten på lagringskontonivå.

    Screenshot that shows the Manage private endpoint pane.

  1. I lagringskontot går du till Privata slutpunktsanslutningar under avsnittet Inställningar.

  2. Markera kryssrutan för den privata slutpunkten som du skapade och välj Godkänn.

    Screenshot that shows the private endpoint Approve button.

  3. Lägg till en beskrivning och välj Ja.

  4. Gå tillbaka till avsnittet Hanterade privata slutpunkter på fliken Hantera i Data Factory.

  5. Efter ungefär en minut bör godkännandet visas för din privata slutpunkt.

Lägga till filtertransformeringen

  1. Bredvid källnoden på dataflödesarbetsytan väljer du plusikonen för att lägga till en ny transformering. Den första omvandlingen som du lägger till är ett filter.

    Screenshot that shows adding a filter.

  2. Ge filtertransformeringen namnet FilterYears. Välj uttrycksrutan bredvid Filtrera på för att öppna uttrycksverktyget. Här anger du filtreringsvillkoret.

    Screenshot that shows FilterYears.

  3. Med uttrycksverktyget för dataflöde kan du interaktivt skapa uttryck som ska användas i olika transformeringar. Uttryck kan innehålla inbyggda funktioner, kolumner från indataschemat och användardefinierade parametrar. Mer information om hur du skapar uttryck finns i Uttrycksverktyget för dataflöde.

    • I den här självstudien vill du filtrera filmer i komedigenren som kom ut mellan åren 1910 och 2000. Eftersom året för närvarande är en sträng måste du konvertera det till ett heltal med hjälp toInteger() av funktionen . Använd operatorerna större än eller lika med (>=) och mindre än eller lika med (<=) för att jämföra med literala årsvärdena 1910 och 2000. Förena dessa uttryck med operatorn och (&&). Uttrycket kommer ut som:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Om du vill ta reda på vilka filmer som är komedier kan du använda rlike() funktionen för att hitta mönstret "Komedi" i kolumngenrerna. Unionen uttrycket rlike med årsjämförelsen för att få:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Om du har ett aktivt felsökningskluster kan du verifiera logiken genom att välja Uppdatera för att se uttryckets utdata jämfört med de indata som används. Det finns mer än ett rätt svar på hur du kan åstadkomma den här logiken med hjälp av språket för dataflödesuttryck.

      Screenshot that shows the filter expression.

    • Välj Spara och slutför när du är klar med uttrycket.

  4. Hämta en dataförhandsgranskning för att kontrollera att filtret fungerar korrekt.

    Screenshot that shows the filtered Data Preview.

Lägg till aggregeringstransformeringen

  1. Nästa transformering som du lägger till är en mängdtransformering under Schemamodifierare.

    Screenshot that shows adding the aggregate.

  2. Ge aggregatet namnet AggregateComedyRating. På fliken Gruppera efter väljer du år i listrutan för att gruppera aggregeringarna efter det år filmen kom ut.

    Screenshot that shows the aggregate group.

  3. Gå till fliken Aggregat . I den vänstra textrutan namnger du aggregeringskolumnen AverageComedyRating. Välj rätt uttrycksruta för att ange mängduttrycket via uttrycksverktyget.

    Screenshot that shows the aggregate column name.

  4. Om du vill få medelvärdet av kolumnklassificeringen använder du avg() mängdfunktionen. Eftersom Rating är en sträng och avg() tar in numeriska indata måste vi konvertera värdet till ett tal via toInteger() funktionen . Det här uttrycket ser ut så här:

    avg(toInteger(Rating))

  5. Välj Spara och slutför när du är klar.

    Screenshot that shows saving the aggregate.

  6. Gå till fliken Dataförhandsgranskning för att visa transformeringsutdata. Observera att endast två kolumner finns där, year och AverageComedyRating.

Lägg till kanalmottagarens transformering

  1. Nu ska du lägga till en sink-transformering under Mål.

    Screenshot that shows adding a sink.

  2. Ge mottagaren namnet Sink. Välj Ny för att skapa datauppsättningen för mottagare.

    Screenshot that shows creating a sink.

  3. På sidan Ny datauppsättning väljer du Azure Data Lake Storage Gen2 och sedan Fortsätt.

  4. På sidan Välj format väljer du AvgränsadText och sedan Fortsätt.

  5. Ge mottagaren namnet moviesset MoviesSink. För länkad tjänst väljer du samma länkade ADLSGen2-tjänst som du skapade för källtransformering. Ange en utdatamapp att skriva dina data till. I den här självstudien skriver vi till mapputdata i containern sample-data. Mappen behöver inte finnas i förväg och kan skapas dynamiskt. Markera kryssrutan Första raden som rubrik och välj Ingen för Importschema. Välj OK.

    Screenshot that shows the sink path.

Nu har du skapat ditt dataflöde. Du är redo att köra den i din pipeline.

Köra och övervaka dataflödet

Du kan felsöka en pipeline innan du publicerar den. I det här steget utlöser du en felsökningskörning av dataflödespipelinen. Även om dataförhandsgranskningen inte skriver data skriver en felsökningskörning data till målmottagaren.

  1. Gå till pipelinearbetsytan. Välj Felsök för att utlösa en felsökningskörning.

  2. Pipeline-felsökning av dataflödesaktiviteter använder det aktiva felsökningsklustret, men det tar fortfarande minst en minut att initiera. Du kan spåra förloppet via fliken Utdata . När körningen är klar väljer du glasögonikonen för körningsinformation.

  3. På informationssidan kan du se antalet rader och den tid som ägnas åt varje transformeringssteg.

    Screenshot that shows a monitoring run.

  4. Välj en transformering för att få detaljerad information om kolumnerna och partitioneringen av data.

Om du har följt den här självstudien korrekt bör du ha skrivit 83 rader och 2 kolumner i mottagarmappen. Du kan kontrollera att data är korrekta genom att kontrollera bloblagringen.

Sammanfattning

I den här självstudien använde du användargränssnittet för Data Factory för att skapa en pipeline som kopierar och transformerar data från en Data Lake Storage Gen2 källa till en Data Lake Storage Gen2 mottagare (båda tillåter åtkomst till endast valda nätverk) med hjälp av dataflödesmappning i Data Factory Managed Virtual Network.