Gegevens transformeren met toewijzingsgegevensstromen
VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics
Tip
Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .
Zie Inleiding tot Azure Data Factory als u niet bekend bent met Azure Data Factory.
In deze zelfstudie gebruikt u de Azure Data Factory-gebruikersinterface (UX) om een pijplijn te maken waarmee gegevens worden gekopieerd en getransformeerd van een Azure Data Lake Storage Gen2-bron (ADLS) Gen2 naar een ADLS Gen2-sink met behulp van de toewijzingsgegevensstroom. Het configuratiepatroon in deze zelfstudie kan worden uitgebreid bij het transformeren van gegevens met behulp van de toewijzingsgegevensstroom
Notitie
Deze zelfstudie is bedoeld voor het toewijzen van gegevensstromen in het algemeen. Gegevensstromen zijn beschikbaar in Zowel Azure Data Factory als Synapse Pipelines. Als u geen verbinding hebt met gegevensstromen in Azure Synapse Pipelines, volgt u Gegevensstroom met behulp van Azure Synapse Pipelines
In deze zelfstudie voert u de volgende stappen uit:
- Een data factory maken.
- Maak een pijplijn met een Gegevensstroom-activiteit.
- Bouw een toewijzingsgegevensstroom met vier transformaties.
- De uitvoering van de pijplijn testen.
- Een Gegevensstroom-activiteit bewaken
Vereisten
- Azure-abonnement. Als u nog geen abonnement op Azure hebt, maakt u een gratis Azure-account voordat u begint.
- Azure-opslagaccount. U gebruikt ADLS-opslag als bron- en sinkgegevensopslag. Als u geen opslagaccount hebt, raadpleegt u het artikel Een opslagaccount maken om een account te maken.
Het bestand dat we in deze zelfstudie transformeren, is MoviesDB.csv, die hier te vinden is. Als u het bestand wilt ophalen uit GitHub, kopieert u de inhoud naar een teksteditor van uw keuze om lokaal op te slaan als een .csv-bestand. Zie Blobs uploaden met Azure Portal om het bestand te uploaden naar uw opslagaccount. De voorbeelden verwijzen naar een container met de naam sample-data.
Een data factory maken
In deze stap maakt u een data factory en opent u de Data Factory UX om een pijplijn in de data factory te maken.
Open Microsoft Edge of Google Chrome. Momenteel wordt de Data Factory-gebruikersinterface alleen ondersteund in de webbrowsers Microsoft Edge en Google Chrome.
Selecteer in het linkermenu Een resource maken>Integratie>Data Factory:
Voer op de pagina Nieuwe data factoryADFTutorialDataFactory in bij Naam.
De naam van de Azure-gegevensfactory moet wereldwijd uniek zijn. Als u een foutbericht ontvangt dat betrekking heeft op de waarde die bij de naam is ingevuld, voert u een andere naam in voor de data factory. (Gebruik dan bijvoorbeeld uwnaamADFTutorialDataFactory). Zie Data Factory naming rules (Naamgevingsregels Data Factory) voor meer informatie over naamgevingsregels voor Data Factory-artefacten.
Selecteer het Azure-abonnement waarin u de data factory wilt maken.
Voer een van de volgende stappen uit voor Resourcegroep:
a. Selecteer Bestaande gebruiken en selecteer een bestaande resourcegroep in de vervolgkeuzelijst.
b. Selecteer Nieuwe maken en voer de naam van een resourcegroep in.
Zie Resourcegroepen gebruiken om Azure-resources te beheren voor meer informatie.
Selecteer V2 onder Versie.
Selecteer onder Locatie een locatie voor de data factory. In de vervolgkeuzelijst worden alleen ondersteunde locaties weergegeven. Gegevensarchieven (bijvoorbeeld Azure Storage en SQL Database) en berekeningen (bijvoorbeeld Azure HDInsight) die door de data factory worden gebruikt, kunnen zich in andere regio's bevinden.
Selecteer Maken.
Als het maken is voltooid, ziet u de melding in het meldingencentrum. Selecteer Naar resource gaan om naar de pagina Data factory te gaan.
Selecteer de tegel Maken en controleren om de Data Factory-gebruikersinterface te openen op een afzonderlijk tabblad.
Een pijplijn maken met een Gegevensstroom-activiteit
In deze stap maakt u een pijplijn die een Gegevensstroom activiteit bevat.
Selecteer Orchestrate op de startpagina van Azure Data Factory.
Voer op het tabblad Algemeen voor de pijplijn TransformMovies in als naam van de pijplijn.
Vouw in het deelvenster Activiteiten de accordeon Verplaatsen en Transformeren uit. Sleep de Gegevensstroom activiteit van het deelvenster naar het pijplijncanvas en zet deze neer.
Selecteer in het pop-upvenster Toevoegen Gegevensstroom nieuwe Gegevensstroom maken en geef uw gegevensstroom TransformMovies een naam. Klik op Voltooien wanneer u klaar bent.
Schuif in de bovenste balk van het pijplijncanvas de schuifregelaar Gegevensstroom foutopsporing aan. Met de foutopsporingsmodus kunt u interactieve transformatielogica testen op een live Spark-cluster. Gegevensstroom clusters 5-7 minuten duren en gebruikers worden aangeraden eerst foutopsporing in te schakelen als ze van plan zijn Gegevensstroom ontwikkeling uit te voeren. Zie De foutopsporingsmodus voor meer informatie.
Transformatielogica bouwen in het gegevensstroomcanvas
Zodra u uw Gegevensstroom hebt gemaakt, wordt u automatisch naar het gegevensstroomcanvas verzonden. Als u niet wordt omgeleid naar het gegevensstroomcanvas, gaat u in het deelvenster onder het canvas naar Instellingen en selecteert u Openen naast het gegevensstroomveld. Hiermee opent u het gegevensstroomcanvas.
In deze stap bouwt u een gegevensstroom die de moviesDB.csv in ADLS-opslag gebruikt en de gemiddelde classificatie van comedies van 1910 tot 2000 samenvoegt. Vervolgens schrijft u dit bestand terug naar de ADLS-opslag.
Voeg in het gegevensstroomcanvas een bron toe door op het vak Bron toevoegen te klikken.
Noem uw bron MoviesDB. Klik op Nieuw om een nieuwe brongegevensset te maken.
Kies Azure Data Lake Storage Gen2. Klik op Continue.
Kies DelimitedText. Klik op Continue.
Noem uw gegevensset MoviesDB. Kies Nieuw in de vervolgkeuzelijst gekoppelde service.
Geef in het scherm voor het maken van de gekoppelde service uw ADLS Gen2-gekoppelde service de naam ADLSGen2 en geef uw verificatiemethode op. Voer vervolgens uw verbindingsreferenties in. In deze zelfstudie gebruiken we accountsleutel om verbinding te maken met ons opslagaccount. U kunt op Verbinding testen klikken om te controleren of uw referenties correct zijn ingevoerd. Klik op Maken als u klaar bent.
Wanneer u terug bent op het scherm voor het maken van de gegevensset, voert u in waar het bestand zich bevindt onder het veld Bestandspad . In deze zelfstudie bevindt het bestand moviesDB.csv zich in containervoorbeeldgegevens. Als het bestand kopteksten bevat, controleert u de eerste rij als koptekst. Selecteer Uit verbinding/archief om het headerschema rechtstreeks vanuit het bestand in de opslag te importeren. Klik op OK als u klaar bent.
Als uw foutopsporingscluster is gestart, gaat u naar het tabblad Gegevensvoorbeeld van de brontransformatie en klikt u op Vernieuwen om een momentopname van de gegevens op te halen. U kunt de voorbeeldweergave van gegevens gebruiken om te controleren of uw transformatie juist is geconfigureerd.
Klik naast het bronknooppunt op het canvas van de gegevensstroom op het pluspictogram om een nieuwe transformatie toe te voegen. De eerste transformatie die u toevoegt, is een filter.
Geef de filtertransformatie de naam FilterYears. Klik op het expressievak naast Filteren om de opbouwfunctie voor expressies te openen. Hier geeft u de filtervoorwaarde op.
Met de opbouwfunctie voor expressies voor gegevensstromen kunt u interactief expressies bouwen die u in verschillende transformaties kunt gebruiken. Expressies kunnen ingebouwde functies, kolommen uit het invoerschema en door de gebruiker gedefinieerde parameters bevatten. Zie Gegevensstroom opbouwfunctie voor expressies voor meer informatie over het bouwen van expressies.
In deze zelfstudie wilt u films filteren van genrekomedie die tussen de jaren 1910 en 2000 uitkwam. Naarmate het jaar momenteel een tekenreeks is, moet u deze converteren naar een geheel getal met behulp van de
toInteger()
functie. Gebruik de operatoren groter dan of gelijk aan (>=) en kleiner dan of gelijk aan (<=) om te vergelijken met letterlijke jaarwaarden 1910 en 2000. Deze expressies samenvoegen met de operator (&&). De expressie komt als volgt te werk:toInteger(year) >= 1910 && toInteger(year) <= 2000
Als u wilt zoeken welke films komedies zijn, kunt u de
rlike()
functie gebruiken om patroon 'Komedie' te vinden in de kolomgenres.rlike
De expressie samenvoegen met de jaarvergelijking om het volgende te verkrijgen:toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')
Als u een foutopsporingscluster actief hebt, kunt u de logica controleren door op Vernieuwen te klikken om expressie-uitvoer te zien in vergelijking met de gebruikte invoer. Er is meer dan één juist antwoord op hoe u deze logica kunt uitvoeren met behulp van de expressietaal voor gegevensstromen.
Klik op Opslaan en Voltooien zodra u klaar bent met de expressie.
Haal een voorbeeld van gegevens op om te controleren of het filter correct werkt.
De volgende transformatie die u toevoegt, is een statistische transformatie onder Schema-modifier.
Geef uw statistische transformatie de naam AggregateComedyRatings. Selecteer op het tabblad Groeperen op jaar in de vervolgkeuzelijst om de aggregaties te groeperen op het jaar dat de film uitkwam.
Ga naar het tabblad Aggregaties . Geef in het linkertekstvak de statistische kolom AverageComedyRating een naam. Klik op het rechterexpressievak om de statistische expressie in te voeren via de opbouwfunctie voor expressies.
Gebruik de
avg()
statistische functie om het gemiddelde van kolomclassificatie op te halen. Omdat Waardering een tekenreeks is enavg()
een numerieke invoer inneemt, moeten we de waarde via detoInteger()
functie converteren naar een getal. Dit is een expressie die er als volgt uitziet:avg(toInteger(Rating))
Klik op Opslaan en Voltooien wanneer u klaar bent.
Ga naar het tabblad Gegevensvoorbeeld om de transformatie-uitvoer weer te geven. U ziet dat er slechts twee kolommen zijn, jaar en AverageComedyRating.
Vervolgens wilt u een Sink-transformatie toevoegen onder Bestemming.
Geef uw sink een naam. Klik op Nieuw om uw sinkgegevensset te maken.
Kies Azure Data Lake Storage Gen2. Klik op Continue.
Kies DelimitedText. Klik op Continue.
Noem uw sinkgegevensset MoviesSink. Kies voor gekoppelde service de gekoppelde ADLS Gen2-service die u in stap 6 hebt gemaakt. Voer een uitvoermap in waarnaar u uw gegevens wilt schrijven. In deze zelfstudie schrijven we naar de map 'output' in container 'sample-data'. De map hoeft niet van tevoren te bestaan en kan dynamisch worden gemaakt. Stel eerste rij in als kop waar en selecteer Geen voor importschema. Klik op Voltooien.
Nu u klaar bent met het bouwen van uw gegevensstroom. U bent klaar om deze uit te voeren in uw pijplijn.
De Gegevensstroom uitvoeren en bewaken
U kunt fouten in een pijplijn opsporen voordat u deze publiceert. In deze stap gaat u een foutopsporingsuitvoering van de gegevensstroompijplijn activeren. Hoewel gegevensvoorbeeld geen gegevens schrijft, schrijft een foutopsporingsuitvoering gegevens naar uw sinkbestemming.
Ga naar het pijplijncanvas. Klik op Fouten opsporen om een foutopsporingsuitvoering te activeren.
Pijplijnopsporing van Gegevensstroom activiteiten maakt gebruik van het actieve foutopsporingscluster, maar het duurt nog minstens een minuut om te initialiseren. U kunt de voortgang bijhouden via het tabblad Uitvoer . Zodra de uitvoering is geslaagd, klikt u op het brilpictogram om het bewakingsvenster te openen.
In het bewakingsvenster ziet u het aantal rijen en de tijd die in elke transformatiestap is besteed.
Klik op een transformatie om gedetailleerde informatie over de kolommen en partitionering van de gegevens op te halen.
Als u deze zelfstudie correct hebt gevolgd, moet u 83 rijen en 2 kolommen in uw sinkmap hebben geschreven. U kunt controleren of de gegevens juist zijn door uw blobopslag te controleren.
Gerelateerde inhoud
De pijplijn in deze zelfstudie voert een gegevensstroom uit waarmee de gemiddelde classificatie van komedies tussen 1910 en 2000 wordt samengevoegd en de gegevens naar ADLS worden geschreven. U hebt geleerd hoe u:
- Een data factory maken.
- Maak een pijplijn met een Gegevensstroom-activiteit.
- Bouw een toewijzingsgegevensstroom met vier transformaties.
- De uitvoering van de pijplijn testen.
- Een Gegevensstroom-activiteit bewaken
Meer informatie over de expressietaal voor gegevensstromen.