Transformera data på ett säkert sätt med hjälp av mappning av dataflöde

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Om du inte har använt Azure Data Factory tidigare kan du läsa Introduktion till Azure Data Factory.

I den här självstudien använder du Användargränssnittet för Data Factory för att skapa en pipeline som kopierar och transformerar data från en Azure Data Lake Storage Gen2-källa till en Data Lake Storage Gen2-mottagare (båda ger åtkomst till endast valda nätverk) med hjälp av mappning av dataflödet i Data Factory Managed Virtual Network. Du kan expandera konfigurationsmönstret i den här självstudien när du transformerar data med hjälp av mappning av dataflöde.

I den här självstudien gör du följande:

  • Skapa en datafabrik.
  • Skapa en pipeline med en dataflödesaktivitet.
  • Skapa ett mappningsdataflöde med fyra transformeringar.
  • Testkör pipelinen.
  • Övervaka en dataflödesaktivitet.

Förutsättningar

  • Azure-prenumeration. Om du inte har en Azure-prenumeration kan du skapa ett kostnadsfritt Azure-konto innan du börjar.
  • Azure Storage-konto. Du använder Data Lake Storage som käll- och mottagardatalager . Om du inte har ett lagringskonto finns det anvisningar om hur du skapar ett i Skapa ett Azure Storage-konto. Kontrollera att lagringskontot endast tillåter åtkomst från valda nätverk.

Filen som vi ska transformera i den här självstudien är moviesDB.csv, som finns på den här GitHub-innehållswebbplatsen. Om du vill hämta filen från GitHub kopierar du innehållet till valfri textredigerare för att spara den lokalt som en .csv-fil. Information om hur du laddar upp filen till ditt lagringskonto finns i Ladda upp blobar med Azure-portalen. Exemplen refererar till en container med namnet sample-data.

Skapa en datafabrik

I det här steget skapar du en datafabrik och öppnar användargränssnittet för Data Factory för att skapa en pipeline i datafabriken.

  1. Öppna Microsoft Edge eller Google Chrome. För närvarande stöder endast Microsoft Edge- och Google Chrome-webbläsare Data Factory-användargränssnittet.

  2. Välj Skapa en resurs>Analys>Data Factory i menyn till vänster.

  3. I fönstret Ny datafabrik, under Namn anger du ADFTutorialDataFactory.

    Namnet på datafabriken måste vara globalt unikt. Om du får ett felmeddelande om namnvärdet anger du ett annat namn för datafabriken (till exempel dittnamnADFTutorialDataFactory). Se artikeln om namnregler för datafabriker för namnregler för datafabriksartefakter.

  4. Välj den Azure-prenumeration som du vill skapa den nya datafabriken i.

  5. Gör något av följande för Resursgrupp:

    • Välj Använd befintlig och välj en befintlig resursgrupp i listrutan.
    • Välj Skapa ny och ange namnet på en resursgrupp.

    Mer information om resursgrupper finns i Använda resursgrupper för att hantera Azure-resurser.

  6. Under Version väljer du V2.

  7. Under Plats väljer du en plats för datafabriken. Endast platser som stöds visas i listrutan. Datalager (till exempel Azure Storage och Azure SQL Database) och beräkningar (till exempel Azure HDInsight) som används av datafabriken kan finnas i andra regioner.

  8. Välj Skapa.

  9. När skapandet är klart visas meddelandet i meddelandecentret. Välj Gå till resurs för att gå till sidan DataFabrik .

  10. Välj Öppna Azure Data Factory Studio för att starta Data Factory-användargränssnittet på en separat flik.

Skapa en Azure IR i Data Factory Managed Virtual Network

I det här steget skapar du en Azure IR och aktiverar Data Factory Managed Virtual Network.

  1. I Data Factory-portalen går du till Hantera och väljer Ny för att skapa en ny Azure IR.

    Screenshot that shows creating a new Azure IR.

  2. På sidan Installation av integrationskörning väljer du vilken integrationskörning som ska skapas baserat på de funktioner som krävs. I den här självstudien väljer du Azure, Lokalt installerad och klickar sedan på Fortsätt.

  3. Välj Azure och klicka sedan på Fortsätt för att skapa en Azure Integration-körning.

    Screenshot that shows a new Azure IR.

  4. Under Konfiguration av virtuellt nätverk (förhandsversion) väljer du Aktivera.

    Screenshot that shows enabling a new Azure IR.

  5. Välj Skapa.

Skapa en pipeline med en dataflödesaktivitet

I det här steget skapar du en pipeline som innehåller en dataflödesaktivitet.

  1. På startsidan för Azure Data Factory väljer du Orchestrate.

    Screenshot that shows the data factory home page with the Orchestrate button highlighted.

  2. I egenskapsfönstret för pipelinen anger du TransformMovies som pipelinenamn.

  3. I fönstret Aktiviteter expanderar du Flytta och transformera. Dra aktiviteten Dataflöde från fönstret till pipelinearbetsytan.

  4. I popup-fönstret Lägg till dataflöde väljer du Skapa nytt dataflöde och sedan Mappa Dataflöde. Välj OK när du är klar.

    Screenshot that shows Mapping Data Flow.

  5. Ge dataflödet namnet TransformMovies i egenskapsfönstret .

  6. I det övre fältet på pipelinearbetsytan skjuter du Dataflöde felsökningsreglaget på. Felsökningsläget möjliggör interaktiv testning av omvandlingslogik mot ett Live Spark-kluster. Dataflöde kluster tar 5–7 minuter att värma upp och användarna rekommenderas att aktivera felsökning först om de planerar att utföra Dataflöde utveckling. Mer information finns i Felsökningsläge.

    Screenshot that shows the Data flow debug slider.

Skapa transformeringslogik på dataflödesarbetsytan

När du har skapat dataflödet skickas du automatiskt till dataflödesarbetsytan. I det här steget skapar du ett dataflöde som tar filen moviesDB.csv i Data Lake Storage och sammanställer det genomsnittliga omdömet för komedier från 1910 till 2000. Sedan skriver du tillbaka den här filen till Data Lake Storage.

Lägg till källtransformeringen

I det här steget konfigurerar du Data Lake Storage Gen2 som källa.

  1. I dataflödesarbetsytan lägger du till en källa genom att välja rutan Lägg till källa .

  2. Ge källan namnet MoviesDB. Välj Ny för att skapa en ny källdatauppsättning.

  3. Välj Azure Data Lake Storage Gen2 och välj sedan Fortsätt.

  4. Välj AvgränsadText och välj sedan Fortsätt.

  5. Ge datauppsättningen namnet MoviesDB. I listrutan länkad tjänst väljer du Nytt.

  6. På skärmen för att skapa länkad tjänst namnger du den länkade tjänsten ADLSGen2 för Data Lake Storage Gen2 och anger din autentiseringsmetod. Ange sedan dina autentiseringsuppgifter för anslutningen. I den här självstudien använder vi kontonyckeln för att ansluta till vårt lagringskonto.

  7. Se till att du aktiverar interaktiv redigering. Det kan ta en minut att aktivera.

    Screenshot that shows Interactive authoring.

  8. Välj Testanslutning. Det bör misslyckas eftersom lagringskontot inte aktiverar åtkomst till det utan att en privat slutpunkt skapas och godkänns. I felmeddelandet bör du se en länk för att skapa en privat slutpunkt som du kan följa för att skapa en hanterad privat slutpunkt. Ett alternativ är att gå direkt till fliken Hantera och följa anvisningarna i det här avsnittet för att skapa en hanterad privat slutpunkt.

  9. Håll dialogrutan öppen och gå sedan till ditt lagringskonto.

  10. Följ anvisningarna i det här avsnittet för att godkänna den privata länken.

  11. Gå tillbaka till dialogrutan. Välj Testa anslutning igen och välj Skapa för att distribuera den länkade tjänsten.

  12. På skärmen för att skapa datauppsättning anger du var filen finns under fältet Filsökväg . I den här självstudien finns filen moviesDB.csv i containern sample-data. Eftersom filen har rubriker markerar du kryssrutan Första raden som rubrik . Välj Från anslutning/arkiv för att importera rubrikschemat direkt från filen i lagringen. Välj OK när du är klar.

    Screenshot that shows the source path.

  13. Om felsökningsklustret har startat går du till fliken Förhandsgranskning av data i källomvandlingen och väljer Uppdatera för att få en ögonblicksbild av data. Du kan använda dataförhandsgranskningen för att kontrollera att omvandlingen är korrekt konfigurerad.

    Screenshot that shows the Data Preview tab.

Skapa en hanterad privat slutpunkt

Om du inte använde hyperlänken när du testade den föregående anslutningen följer du sökvägen. Nu måste du skapa en hanterad privat slutpunkt som du ska ansluta till den länkade tjänst som du skapade.

  1. Gå till fliken Hantera .

    Kommentar

    Fliken Hantera kanske inte är tillgänglig för alla Data Factory-instanser. Om du inte ser den kan du komma åt privata slutpunkter genom att välja Privat slutpunkt för författare> Anslut ions.>

  2. Gå till avsnittet Hanterade privata slutpunkter .

  3. Välj + Ny under Hanterade privata slutpunkter.

    Screenshot that shows the Managed private endpoints New button.

  4. Välj panelen Azure Data Lake Storage Gen2 i listan och välj Fortsätt.

  5. Ange namnet på lagringskontot som du skapade.

  6. Välj Skapa.

  7. Efter några sekunder bör du se att den privata länken som skapats behöver ett godkännande.

  8. Välj den privata slutpunkt som du skapade. Du kan se en hyperlänk som gör att du godkänner den privata slutpunkten på lagringskontonivå.

    Screenshot that shows the Manage private endpoint pane.

  1. I lagringskontot går du till Privata slutpunktsanslutningar under avsnittet Inställningar.

  2. Markera kryssrutan för den privata slutpunkt som du skapade och välj Godkänn.

    Screenshot that shows the private endpoint Approve button.

  3. Lägg till en beskrivning och välj Ja.

  4. Gå tillbaka till avsnittet Hanterade privata slutpunkterfliken Hantera i Data Factory.

  5. Efter ungefär en minut bör godkännandet visas för din privata slutpunkt.

Lägg till filtertransformeringen

  1. Bredvid källnoden på dataflödesarbetsytan väljer du plusikonen för att lägga till en ny transformering. Den första omvandlingen som du lägger till är ett filter.

    Screenshot that shows adding a filter.

  2. Ge filtertransformeringen namnet FilterYears. Välj uttrycksrutan bredvid Filtrera på för att öppna uttrycksverktyget. Här anger du filtreringsvillkoret.

    Screenshot that shows FilterYears.

  3. Med dataflödesuttrycksverktyget kan du interaktivt skapa uttryck som ska användas i olika transformeringar. Uttryck kan innehålla inbyggda funktioner, kolumner från indataschemat och användardefinierade parametrar. Mer information om hur du skapar uttryck finns i byggare för dataflödesuttryck.

    • I den här självstudien vill du filtrera filmer i komedigenren som kom ut mellan åren 1910 och 2000. Eftersom året för närvarande är en sträng måste du konvertera det till ett heltal med hjälp toInteger() av funktionen. Använd operatorerna större än eller lika med (>=) och mindre än eller lika med (<=) för att jämföra med läsårsvärdena 1910 och 2000. Koppla dessa uttryck tillsammans med operatorn och (&&). Uttrycket kommer ut som:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Om du vill ta reda på vilka filmer som är komedier kan du använda rlike() funktionen för att hitta mönstret "Comedy" i kolumngenren. Union uttrycket rlike med årsjämförelsen för att få:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Om du har ett felsökningskluster aktivt kan du verifiera logiken genom att välja Uppdatera för att se uttryckets utdata jämfört med de indata som används. Det finns mer än ett rätt svar på hur du kan åstadkomma den här logiken med hjälp av dataflödesuttrycksspråket.

      Screenshot that shows the filter expression.

    • Välj Spara och slutför när du är klar med uttrycket.

  4. Hämta en dataförhandsgranskning för att kontrollera att filtret fungerar korrekt.

    Screenshot that shows the filtered Data Preview.

Lägg till den aggregerade omvandlingen

  1. Nästa transformering som du lägger till är en aggregeringstransformering under Schemamodifierare.

    Screenshot that shows adding the aggregate.

  2. Ge din aggregerade omvandling namnet AggregateComedyRating. På fliken Gruppera efter väljer du år i listrutan för att gruppera aggregeringarna efter året då filmen kom ut.

    Screenshot that shows the aggregate group.

  3. Gå till fliken Aggregeringar . I den vänstra textrutan namnger du samlingskolumnen AverageComedyRating. Välj den högra uttrycksrutan för att ange samlingsuttrycket via uttrycksverktyget.

    Screenshot that shows the aggregate column name.

  4. Om du vill få medelvärdet av kolumnklassificering använder du aggregeringsfunktionenavg(). Eftersom Klassificering är en sträng och avg() tar in numeriska indata måste vi konvertera värdet till ett tal via toInteger() funktionen. Det här uttrycket ser ut så här:

    avg(toInteger(Rating))

  5. Välj Spara och slutför när du är klar.

    Screenshot that shows saving the aggregate.

  6. Gå till fliken Dataförhandsgranskning för att visa transformeringsutdata. Observera att endast två kolumner finns där, year och AverageComedyRating.

Lägg till mottagartransformeringen

  1. Sedan vill du lägga till en sink-transformering under Mål.

    Screenshot that shows adding a sink.

  2. Ge mottagaren namnet Sink. Välj Ny för att skapa datauppsättningen för mottagare.

    Screenshot that shows creating a sink.

  3. På sidan Ny datauppsättning väljer du Azure Data Lake Storage Gen2 och sedan Fortsätt.

  4. På sidan Välj format väljer du AvgränsadText och väljer sedan Fortsätt.

  5. Ge mottagarens datauppsättning namnet MoviesSink. För länkad tjänst väljer du samma länkade ADLSGen2-tjänst som du skapade för källtransformering. Ange en utdatamapp att skriva dina data till. I den här självstudien skriver vi till mapputdata i containern sample-data. Mappen behöver inte finnas i förväg och kan skapas dynamiskt. Markera kryssrutan Första raden som rubrik och välj Ingen för importschema. Välj OK.

    Screenshot that shows the sink path.

Nu har du skapat dataflödet. Du är redo att köra den i pipelinen.

Köra och övervaka dataflödet

Du kan felsöka en pipeline innan du publicerar den. I det här steget utlöser du en felsökningskörning av dataflödespipelinen. Även om dataförhandsgranskningen inte skriver data, skriver en felsökningskörning data till målmottagaren.

  1. Gå till pipelinearbetsytan. Välj Felsök för att utlösa en felsökningskörning.

  2. Pipeline-felsökning av dataflödesaktiviteter använder det aktiva felsökningsklustret, men det tar fortfarande minst en minut att initiera. Du kan spåra förloppet via fliken Utdata . När körningen är klar väljer du glasögonikonen för körningsinformation.

  3. På informationssidan kan du se antalet rader och den tid som ägnas åt varje transformeringssteg.

    Screenshot that shows a monitoring run.

  4. Välj en transformering för att få detaljerad information om kolumnerna och partitioneringen av data.

Om du har följt den här självstudien korrekt bör du ha skrivit 83 rader och 2 kolumner i din mottagarmapp. Du kan kontrollera att data är korrekta genom att kontrollera bloblagringen.

Sammanfattning

I den här självstudien använde du användargränssnittet för Data Factory för att skapa en pipeline som kopierar och transformerar data från en Data Lake Storage Gen2-källa till en Data Lake Storage Gen2-mottagare (båda tillåter åtkomst till endast valda nätverk) med hjälp av mappning av dataflödet i Data Factory Managed Virtual Network.