Gegevens veilig transformeren met behulp van toewijzingsgegevensstroom
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
Zie Inleiding tot Azure Data Factory als u niet bekend bent met Azure Data Factory.
In deze zelfstudie gebruikt u de Gebruikersinterface (UI) van Data Factory om een pijplijn te maken waarmee gegevens worden gekopieerd en getransformeerd van een Azure Data Lake Storage Gen2-bron naar een Data Lake Storage Gen2-sink (beide toegang tot alleen geselecteerde netwerken) met behulp van toewijzingsgegevensstroom in het beheerde virtuele netwerk van Data Factory. U kunt het configuratiepatroon in deze zelfstudie uitbreiden wanneer u gegevens transformeert met behulp van de toewijzingsgegevensstroom.
In deze zelfstudie voert u de volgende stappen uit:
- Een data factory maken.
- Maak een pijplijn met een gegevensstroomactiviteit.
- Bouw een toewijzingsgegevensstroom met vier transformaties.
- De uitvoering van de pijplijn testen.
- Een gegevensstroomactiviteit bewaken.
Vereisten
- Azure-abonnement. Als u nog geen abonnement op Azure hebt, maakt u een gratis Azure-account voordat u begint.
- Azure-opslagaccount. U gebruikt Data Lake Storage als bron - en sinkgegevensarchieven . Als u geen opslagaccount hebt, raadpleegt u het artikel Een opslagaccount maken om een account te maken. Zorg ervoor dat het opslagaccount alleen toegang toestaat vanuit geselecteerde netwerken.
Het bestand dat we in deze zelfstudie gaan transformeren, is moviesDB.csv, die te vinden is op deze GitHub-inhoudssite. Als u het bestand wilt ophalen uit GitHub, kopieert u de inhoud naar een teksteditor van uw keuze om het lokaal op te slaan als een .csv bestand. Zie Blobs uploaden met Azure Portal om het bestand te uploaden naar uw opslagaccount. De voorbeelden verwijzen naar een container met de naam sample-data.
Een data factory maken
In deze stap maakt u een data factory en opent u de Data Factory-gebruikersinterface om een pijplijn in de data factory te maken.
Open Microsoft Edge of Google Chrome. Op dit moment wordt de Data Factory-gebruikersinterface alleen ondersteund in de webbrowsers Microsoft Edge en Google Chrome.
Selecteer in het linkermenu Een resource maken>Analyse>Data Factory.
Voer op de pagina Nieuwe data factoryADFTutorialDataFactory in bij Naam.
De naam van de data factory moet wereldwijd uniek zijn. Als u een foutbericht ontvangt over de naamwaarde, voert u een andere naam in voor de data factory (bijvoorbeeld uwnaamADFTutorialDataFactory). Zie Data Factory naming rules (Naamgevingsregels Data Factory) voor meer informatie over naamgevingsregels voor Data Factory-artefacten.
Selecteer het Azure-abonnement waarin u de data factory wilt maken.
Voer een van de volgende stappen uit voor Resourcegroep:
- Selecteer Bestaande gebruiken en selecteer een bestaande resourcegroep in de vervolgkeuzelijst.
- Selecteer Nieuwe maken en voer de naam van een resourcegroep in.
Zie Resourcegroepen gebruiken om Azure-resources te beheren voor meer informatie.
Selecteer V2 onder Versie.
Selecteer onder Locatie een locatie voor de data factory. In de vervolgkeuzelijst worden alleen ondersteunde locaties weergegeven. Gegevensarchieven (bijvoorbeeld Azure Storage en Azure SQL Database) en berekeningen (bijvoorbeeld Azure HDInsight) die door de data factory worden gebruikt, kunnen zich in andere regio's bevinden.
Selecteer Maken.
Als het maken is voltooid, ziet u de melding in het meldingencentrum. Selecteer Naar de resource gaan om naar de pagina Data Factory te gaan.
Selecteer Open Azure Data Factory Studio om de Data Factory-gebruikersinterface op een afzonderlijk tabblad te starten.
Een Azure IR maken in het beheerde virtuele netwerk van Data Factory
In deze stap maakt u een Azure IR en schakelt u Data Factory Managed Virtual Network in.
Ga in de Data Factory-portal naar Beheren en selecteer Nieuw om een nieuwe Azure IR te maken.
Kies op de installatiepagina van Integration Runtime welke Integration Runtime moet worden gemaakt op basis van de vereiste mogelijkheden. In deze zelfstudie selecteert u Azure, zelf-hostend en klikt u op Doorgaan.
Selecteer Azure en klik vervolgens op Doorgaan om een Azure Integration Runtime te maken.
Selecteer onder Configuratie van virtueel netwerk (preview) de optie Inschakelen.
Selecteer Maken.
Een pijplijn maken met een gegevensstroomactiviteit
In deze stap maakt u een pijplijn die een gegevensstroomactiviteit bevat.
Selecteer Orchestrate op de startpagina van Azure Data Factory.
Voer in het deelvenster Eigenschappen voor de pijplijn TransformMovies in als naam van de pijplijn.
Vouw verplaatsen en transformeren uit in het deelvenster Activiteiten. Sleep de Gegevensstroom-activiteit van het deelvenster naar het pijplijncanvas.
Selecteer in het pop-upvenster Gegevensstroom toevoegen de optie Nieuwe gegevensstroom maken en selecteer vervolgens Toewijzing Gegevensstroom. Selecteer OK wanneer u klaar bent.
Geef uw gegevensstroom TransformMovies een naam in het eigenschappenvenster.
Schuif in de bovenste balk van het pijplijncanvas de schuifregelaar Gegevensstroom foutopsporing aan. Met de foutopsporingsmodus kunt u interactieve transformatielogica testen op een live Spark-cluster. Gegevensstroom clusters 5-7 minuten duren en gebruikers worden aangeraden eerst foutopsporing in te schakelen als ze van plan zijn Gegevensstroom ontwikkeling uit te voeren. Zie De foutopsporingsmodus voor meer informatie.
Transformatielogica bouwen in het gegevensstroomcanvas
Nadat u de gegevensstroom hebt gemaakt, wordt u automatisch naar het gegevensstroomcanvas verzonden. In deze stap bouwt u een gegevensstroom die het moviesDB.csv bestand in Data Lake Storage gebruikt en de gemiddelde classificatie van comedies van 1910 tot 2000 samenvoegt. Vervolgens schrijft u dit bestand terug naar Data Lake Storage.
De brontransformatie toevoegen
In deze stap stelt u Data Lake Storage Gen2 in als bron.
Voeg in het gegevensstroomcanvas een bron toe door het vak Bron toevoegen te selecteren.
Noem uw bron MoviesDB. Selecteer Nieuw om een nieuwe brongegevensset te maken.
Selecteer Azure Data Lake Storage Gen2 en selecteer vervolgens Doorgaan.
Selecteer DelimitedText en selecteer Vervolgens Doorgaan.
Noem uw gegevensset MoviesDB. Selecteer Nieuw in de vervolgkeuzelijst gekoppelde service.
Geef in het scherm voor het maken van de gekoppelde service uw Data Lake Storage Gen2-gekoppelde service ADLSGen2 een naam en geef uw verificatiemethode op. Voer vervolgens uw verbindingsreferenties in. In deze zelfstudie gebruiken we accountsleutel om verbinding te maken met ons opslagaccount.
Zorg ervoor dat u Interactieve creatie inschakelt. Het kan even duren voordat deze is ingeschakeld.
Selecteer Verbinding testen. Dit mislukt omdat het opslagaccount geen toegang tot het account inschakelt zonder het maken en goedkeuren van een privé-eindpunt. In het foutbericht wordt een koppeling weergegeven om een privé-eindpunt te maken dat u kunt volgen om een beheerd privé-eindpunt te maken. U kunt ook rechtstreeks naar het tabblad Beheren gaan en instructies in deze sectie volgen om een beheerd privé-eindpunt te maken.
Houd het dialoogvenster geopend en ga vervolgens naar uw opslagaccount.
Volg de instructies in deze sectie om de persoonlijke koppeling goed te keuren.
Ga terug naar het dialoogvenster. Selecteer Test de verbinding opnieuw en selecteer vervolgens Maken om de gekoppelde service te implementeren.
Voer in het scherm voor het maken van de gegevensset in waar het bestand zich bevindt onder het veld Bestandspad . In deze zelfstudie bevindt het bestand moviesDB.csv zich in de containervoorbeeldgegevens. Omdat het bestand kopteksten bevat, schakelt u het selectievakje Eerste rij als koptekst in. Selecteer Uit verbinding/archief om het headerschema rechtstreeks vanuit het bestand in de opslag te importeren. Selecteer OK wanneer u klaar bent.
Als uw foutopsporingscluster is gestart, gaat u naar het tabblad Gegevensvoorbeeld van de brontransformatie en selecteert u Vernieuwen om een momentopname van de gegevens op te halen. U kunt de voorbeeldweergave van de gegevens gebruiken om te controleren of uw transformatie juist is geconfigureerd.
Een beheerd privé-eindpunt maken
Als u de hyperlink niet hebt gebruikt toen u de voorgaande verbinding hebt getest, volgt u het pad. Nu moet u een beheerd privé-eindpunt maken dat u verbindt met de gekoppelde service die u hebt gemaakt.
Ga naar het tabblad Beheren.
Notitie
Het tabblad Beheren is mogelijk niet beschikbaar voor alle exemplaren van Data Factory. Als u het niet ziet, kunt u toegang krijgen tot privé-eindpunten door Auteur>Verbindingen>Privé-eindpunt te selecteren.
Ga naar het gedeelte Beheerde privé-eindpunten.
Selecteer + Nieuwe onder Beheerde privé-eindpunten.
Selecteer de tegel Azure Data Lake Storage Gen2 in de lijst en selecteer Doorgaan.
Voer de naam in van het opslagaccount dat u hebt gemaakt.
Selecteer Maken.
Na enkele seconden wordt voor de privékoppeling een goedkeuring vereist.
Selecteer het privé-eindpunt dat u hebt gemaakt. U ziet een hyperlink waarmee u het privé-eindpunt kunt goedkeuren op het niveau van het opslagaccount.
Goedkeuring van een privékoppeling in een opslagaccount
Ga in het opslagaccount naar Privé-eindpuntverbindingen in het gedeelte Instellingen.
Schakel het selectievakje in door het privé-eindpunt dat u hebt gemaakt en selecteer Goedkeuren.
Voeg een beschrijving toe en selecteer ja.
Ga terug naar het gedeelte Beheerde privé-eindpunten van het tabblad Beheren in Data Factory.
Na ongeveer een minuut ziet u dat de goedkeuring voor uw privé-eindpunt wordt weergegeven.
De filtertransformatie toevoegen
Selecteer naast het bronknooppunt op het canvas van de gegevensstroom het pluspictogram om een nieuwe transformatie toe te voegen. De eerste transformatie die u gaat toevoegen, is een filter.
Geef de filtertransformatie de naam FilterYears. Schakel het expressievak naast Filteren in om de opbouwfunctie voor expressies te openen. Hier geeft u de filtervoorwaarde op.
Met de opbouwfunctie voor expressies voor gegevensstromen kunt u interactief expressies bouwen die u in verschillende transformaties kunt gebruiken. Expressies kunnen ingebouwde functies, kolommen uit het invoerschema en door de gebruiker gedefinieerde parameters bevatten. Zie de opbouwfunctie voor expressies voor gegevensstromen voor meer informatie over het bouwen van expressies.
In deze zelfstudie wilt u films filteren in het komediegenre dat tussen de jaren 1910 en 2000 uitkwam. Omdat het jaar momenteel een tekenreeks is, moet u het converteren naar een geheel getal met behulp van de
toInteger()
functie. Gebruik de operatoren groter dan of gelijk aan (>=) en kleiner dan of gelijk aan (<=) om de letterlijke jaarwaarden 1910 en 2000 te vergelijken. Deze expressies samenvoegen met de operator (&&). De expressie komt als volgt te werk:toInteger(year) >= 1910 && toInteger(year) <= 2000
Als u wilt zoeken welke films komedies zijn, kunt u de
rlike()
functie gebruiken om het patroon 'Komedie' te vinden in de kolomgenres.rlike
De expressie samenvoegen met de jaarvergelijking om het volgende te verkrijgen:toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
Als u een foutopsporingscluster actief hebt, kunt u de logica controleren door Vernieuwen te selecteren om de expressie-uitvoer te zien in vergelijking met de gebruikte invoer. Er is meer dan één juiste antwoord op hoe u deze logica kunt uitvoeren met behulp van de expressietaal voor de gegevensstroom.
Selecteer Opslaan en voltooien nadat u klaar bent met de expressie.
Haal een voorbeeld van gegevens op om te controleren of het filter correct werkt.
De samengevoegde transformatie toevoegen
De volgende transformatie die u toevoegt, is een statistische transformatie onder Schema-modifier.
Geef uw geaggregeerde transformatie de naam AggregateComedyRating. Selecteer op het tabblad Groeperen op jaar in de vervolgkeuzelijst om de aggregaties te groeperen op het jaar dat de film uitkwam.
Ga naar het tabblad Aggregaties . Geef in het linkertekstvak de statistische kolom AverageComedyRating een naam. Selecteer het juiste expressievak om de statistische expressie in te voeren via de opbouwfunctie voor expressies.
Gebruik de
avg()
statistische functie om het gemiddelde van kolomclassificatie op te halen. Omdat Classificatie een tekenreeks is enavg()
een numerieke invoer inneemt, moeten we de waarde via detoInteger()
functie converteren naar een getal. Deze expressie ziet er als volgt uit:avg(toInteger(Rating))
Selecteer Opslaan en voltooien nadat u klaar bent.
Ga naar het tabblad Gegevensvoorbeeld om de transformatie-uitvoer weer te geven. U ziet dat er slechts twee kolommen zijn, jaar en AverageComedyRating.
De sinktransformatie toevoegen
Vervolgens wilt u een Sink-transformatie toevoegen onder Bestemming.
Geef uw sink een naam. Selecteer Nieuw om uw sinkgegevensset te maken.
Selecteer Op de pagina Nieuwe gegevensset Azure Data Lake Storage Gen2 en selecteert u Doorgaan.
Selecteer Op de pagina Opmaak selecteren delimitedText en selecteer vervolgens Doorgaan.
Noem uw sinkgegevensset MoviesSink. Kies voor de gekoppelde service dezelfde gekoppelde ADLSGen2-service die u hebt gemaakt voor brontransformatie. Voer een uitvoermap in waarnaar u uw gegevens wilt schrijven. In deze zelfstudie schrijven we naar de mapuitvoer in de containervoorbeeldgegevens. De map hoeft niet van tevoren te bestaan en kan dynamisch worden gemaakt. Schakel het selectievakje Eerste rij als koptekst in en selecteer Geen voor importschema. Selecteer OK.
Nu u klaar bent met het bouwen van uw gegevensstroom. U bent klaar om deze uit te voeren in uw pijplijn.
De gegevensstroom uitvoeren en bewaken
U kunt fouten in een pijplijn opsporen voordat u deze publiceert. In deze stap activeert u een foutopsporingsuitvoering van de gegevensstroompijplijn. Hoewel de voorbeeldweergave van gegevens geen gegevens schrijft, schrijft een foutopsporingsuitvoering gegevens naar uw sink-bestemming.
Ga naar het pijplijncanvas. Selecteer Foutopsporing om een foutopsporingsuitvoering te activeren.
Pijplijnopsporing van gegevensstroomactiviteiten maakt gebruik van het actieve foutopsporingscluster, maar het duurt nog steeds minstens een minuut om te initialiseren. U kunt de voortgang bijhouden via het tabblad Uitvoer . Nadat de uitvoering is voltooid, selecteert u het brilpictogram voor details van de uitvoering.
Op de detailpagina ziet u het aantal rijen en de tijd die is besteed aan elke transformatiestap.
Selecteer een transformatie om gedetailleerde informatie over de kolommen en partitionering van de gegevens op te halen.
Als u deze zelfstudie correct hebt gevolgd, moet u 83 rijen en 2 kolommen in uw sinkmap hebben geschreven. U kunt controleren of de gegevens juist zijn door uw blobopslag te controleren.
Samenvatting
In deze zelfstudie hebt u de Data Factory-gebruikersinterface gebruikt om een pijplijn te maken waarmee gegevens worden gekopieerd en getransformeerd van een Data Lake Storage Gen2-bron naar een Data Lake Storage Gen2-sink (beide die toegang tot alleen geselecteerde netwerken toestaan) met behulp van toewijzingsgegevensstroom in het beheerde virtuele netwerk van Data Factory.