Gegevens transformeren met toewijzingsgegevensstromen

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Zie Inleiding tot Azure Data Factory als u niet bekend bent met Azure Data Factory.

In deze zelfstudie gebruikt u de Azure Data Factory-gebruikersinterface (UX) om een pijplijn te maken waarmee gegevens worden gekopieerd en getransformeerd van een Azure Data Lake Storage Gen2-bron (ADLS) Gen2 naar een ADLS Gen2-sink met behulp van de toewijzingsgegevensstroom. Het configuratiepatroon in deze zelfstudie kan worden uitgebreid bij het transformeren van gegevens met behulp van de toewijzingsgegevensstroom

Notitie

Deze zelfstudie is bedoeld voor het toewijzen van gegevensstromen in het algemeen. Gegevensstromen zijn beschikbaar in Zowel Azure Data Factory als Synapse Pipelines. Als u geen verbinding hebt met gegevensstromen in Azure Synapse Pipelines, volgt u Gegevensstroom met behulp van Azure Synapse Pipelines

In deze zelfstudie voert u de volgende stappen uit:

  • Een data factory maken.
  • Maak een pijplijn met een Gegevensstroom-activiteit.
  • Bouw een toewijzingsgegevensstroom met vier transformaties.
  • De uitvoering van de pijplijn testen.
  • Een Gegevensstroom-activiteit bewaken

Vereisten

  • Azure-abonnement. Als u nog geen abonnement op Azure hebt, maakt u een gratis Azure-account voordat u begint.
  • Azure-opslagaccount. U gebruikt ADLS-opslag als bron- en sinkgegevensopslag. Als u geen opslagaccount hebt, raadpleegt u het artikel Een opslagaccount maken om een account te maken.

Het bestand dat we in deze zelfstudie transformeren, is MoviesDB.csv, die hier te vinden is. Als u het bestand wilt ophalen uit GitHub, kopieert u de inhoud naar een teksteditor van uw keuze om lokaal op te slaan als een CSV-bestand. Zie Blobs uploaden met Azure Portal om het bestand te uploaden naar uw opslagaccount. De voorbeelden verwijzen naar een container met de naam sample-data.

Een data factory maken

In deze stap maakt u een data factory en opent u de Data Factory UX om een pijplijn in de data factory te maken.

  1. Open Microsoft Edge of Google Chrome. Momenteel wordt de Data Factory-gebruikersinterface alleen ondersteund in de webbrowsers Microsoft Edge en Google Chrome.

  2. Selecteer in het linkermenu Een resource maken>Integratie>Data Factory:

    Data Factory selection in the "New" pane

  3. Voer op de pagina Nieuwe data factoryADFTutorialDataFactory in bij Naam.

    De naam van de Azure-gegevensfactory moet wereldwijd uniek zijn. Als u een foutbericht ontvangt dat betrekking heeft op de waarde die bij de naam is ingevuld, voert u een andere naam in voor de data factory. (Gebruik dan bijvoorbeeld uwnaamADFTutorialDataFactory). Zie Data Factory naming rules (Naamgevingsregels Data Factory) voor meer informatie over naamgevingsregels voor Data Factory-artefacten.

    New data factory error message for duplicate name.

  4. Selecteer het Azure-abonnement waarin u de data factory wilt maken.

  5. Voer een van de volgende stappen uit voor Resourcegroep:

    a. Selecteer Bestaande gebruiken en selecteer een bestaande resourcegroep in de vervolgkeuzelijst.

    b. Selecteer Nieuwe maken en voer de naam van een resourcegroep in.

    Zie Resourcegroepen gebruiken om Azure-resources te beheren voor meer informatie.

  6. Selecteer V2 onder Versie.

  7. Selecteer onder Locatie een locatie voor de data factory. In de vervolgkeuzelijst worden alleen ondersteunde locaties weergegeven. Gegevensarchieven (bijvoorbeeld Azure Storage en SQL Database) en berekeningen (bijvoorbeeld Azure HDInsight) die door de data factory worden gebruikt, kunnen zich in andere regio's bevinden.

  8. Selecteer Maken.

  9. Als het maken is voltooid, ziet u de melding in het meldingencentrum. Selecteer Naar resource gaan om naar de pagina Data factory te gaan.

  10. Selecteer de tegel Maken en controleren om de Data Factory-gebruikersinterface te openen op een afzonderlijk tabblad.

Een pijplijn maken met een Gegevensstroom-activiteit

In deze stap maakt u een pijplijn die een Gegevensstroom activiteit bevat.

  1. Selecteer Orchestrate op de startpagina van Azure Data Factory.

    Screenshot that shows the ADF home page.

  2. Voer op het tabblad Algemeen voor de pijplijn TransformMovies in als naam van de pijplijn.

  3. Vouw in het deelvenster Activiteiten de accordeon Verplaatsen en Transformeren uit. Sleep de Gegevensstroom activiteit van het deelvenster naar het pijplijncanvas en zet deze neer.

    Screenshot that shows the pipeline canvas where you can drop the Data Flow activity.

  4. Selecteer in het pop-upvenster Toevoegen Gegevensstroom nieuwe Gegevensstroom maken en geef uw gegevensstroom TransformMovies een naam. Klik op Voltooien wanneer u klaar bent.

    Screenshot that shows where you name your data flow when you create a new data flow.

  5. Schuif in de bovenste balk van het pijplijncanvas de schuifregelaar Gegevensstroom foutopsporing aan. Met de foutopsporingsmodus kunt u interactieve transformatielogica testen op een live Spark-cluster. Gegevensstroom clusters 5-7 minuten duren en gebruikers worden aangeraden eerst foutopsporing in te schakelen als ze van plan zijn Gegevensstroom ontwikkeling uit te voeren. Zie De foutopsporingsmodus voor meer informatie.

    Data Flow Activity

Transformatielogica bouwen in het gegevensstroomcanvas

Zodra u uw Gegevensstroom hebt gemaakt, wordt u automatisch naar het gegevensstroomcanvas verzonden. Als u niet wordt omgeleid naar het gegevensstroomcanvas, gaat u in het deelvenster onder het canvas naar Instellingen en selecteert u Openen, naast het gegevensstroomveld. Hiermee opent u het gegevensstroomcanvas.

Screenshot showing how to open the data flow editor from the pipeline editor.

In deze stap bouwt u een gegevensstroom die de moviesDB.csv in ADLS-opslag gebruikt en de gemiddelde classificatie van comedies van 1910 tot 2000 samenvoegt. Vervolgens schrijft u dit bestand terug naar de ADLS-opslag.

  1. Voeg in het gegevensstroomcanvas een bron toe door op het vak Bron toevoegen te klikken.

    Screenshot that shows the Add Source box.

  2. Noem uw bron MoviesDB. Klik op Nieuw om een nieuwe brongegevensset te maken.

    Screenshot that shows where you select New after you name your source.

  3. Kies Azure Data Lake Storage Gen2. Klik op Doorgaan.

    Screenshot that shows where is the Azure Data Lake Storage Gen2 tile.

  4. Kies DelimitedText. Klik op Doorgaan.

    Screenshot that shows the DelimitedText tile.

  5. Noem uw gegevensset MoviesDB. Kies Nieuw in de vervolgkeuzelijst gekoppelde service.

    Screenshot that shows the Linked service dropdown list.

  6. Geef in het scherm voor het maken van de gekoppelde service uw ADLS Gen2-gekoppelde service de naam ADLSGen2 en geef uw verificatiemethode op. Voer vervolgens uw verbindingsreferenties in. In deze zelfstudie gebruiken we accountsleutel om verbinding te maken met ons opslagaccount. U kunt op Verbinding testen klikken om te controleren of uw referenties correct zijn ingevoerd. Klik op Maken als u klaar bent.

    Linked Service

  7. Wanneer u terug bent op het scherm voor het maken van de gegevensset, voert u in waar het bestand zich bevindt onder het veld Bestandspad . In deze zelfstudie bevindt het bestand moviesDB.csv zich in container sample-data. Als het bestand kopteksten bevat, controleert u de eerste rij als koptekst. Selecteer Uit verbinding/archief om het headerschema rechtstreeks vanuit het bestand in de opslag te importeren. Klik op OK als u klaar bent.

    Datasets

  8. Als uw foutopsporingscluster is gestart, gaat u naar het tabblad Gegevensvoorbeeld van de brontransformatie en klikt u op Vernieuwen om een momentopname van de gegevens op te halen. U kunt de voorbeeldweergave van gegevens gebruiken om te controleren of uw transformatie juist is geconfigureerd.

    Screenshot that shows where you can preview your data to verify your transformation is configured correctly.

  9. Klik naast het bronknooppunt op het canvas van de gegevensstroom op het pluspictogram om een nieuwe transformatie toe te voegen. De eerste transformatie die u toevoegt, is een filter.

    Data Flow Canvas

  10. Geef de filtertransformatie de naam FilterYears. Klik op het expressievak naast Filteren om de opbouwfunctie voor expressies te openen. Hier geeft u de filtervoorwaarde op.

    Screenshot that shows the Filter on expression box.

  11. Met de opbouwfunctie voor expressies voor gegevensstromen kunt u interactief expressies bouwen die u in verschillende transformaties kunt gebruiken. Expressies kunnen ingebouwde functies, kolommen uit het invoerschema en door de gebruiker gedefinieerde parameters bevatten. Zie Gegevensstroom opbouwfunctie voor expressies voor meer informatie over het bouwen van expressies.

    In deze zelfstudie wilt u films filteren van genrekomedie die tussen de jaren 1910 en 2000 uitkwam. Naarmate het jaar momenteel een tekenreeks is, moet u deze converteren naar een geheel getal met behulp van de toInteger() functie. Gebruik de operatoren groter dan of gelijk aan (>=) en kleiner dan of gelijk aan (<=) om te vergelijken met letterlijke jaarwaarden 1910 en 2000. Deze expressies samenvoegen met de operator (&&). De expressie komt als volgt te werk:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Als u wilt zoeken welke films komedies zijn, kunt u de rlike() functie gebruiken om patroon 'Komedie' te vinden in de kolomgenres. rlike De expressie samenvoegen met de jaarvergelijking om het volgende te verkrijgen:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Als u een foutopsporingscluster actief hebt, kunt u de logica controleren door op Vernieuwen te klikken om expressie-uitvoer te zien in vergelijking met de gebruikte invoer. Er is meer dan één juist antwoord op hoe u deze logica kunt uitvoeren met behulp van de expressietaal voor gegevensstromen.

    Filter

    Klik op Opslaan en Voltooien zodra u klaar bent met de expressie.

  12. Haal een voorbeeld van gegevens op om te controleren of het filter correct werkt.

    Screenshot that shows the Data Preview that you fetched.

  13. De volgende transformatie die u toevoegt, is een statistische transformatie onder Schema-modifier.

    Screenshot that shows the Aggregate schema modifier.

  14. Geef uw statistische transformatie de naam AggregateComedyRatings. Selecteer op het tabblad Groeperen op jaar in de vervolgkeuzelijst om de aggregaties te groeperen op het jaar dat de film uitkwam.

    Screenshot that shows the year option in the Group by tab under Aggregate Settings.

  15. Ga naar het tabblad Aggregaties . Geef in het linkertekstvak de statistische kolom AverageComedyRating een naam. Klik op het rechterexpressievak om de statistische expressie in te voeren via de opbouwfunctie voor expressies.

    Screenshot that shows the year option in the Aggregates tab under Aggregate Settings.

  16. Gebruik de avg() statistische functie om het gemiddelde van kolomclassificatie op te halen. Omdat Waardering een tekenreeks is en avg() een numerieke invoer inneemt, moeten we de waarde via de toInteger() functie converteren naar een getal. Dit is een expressie die er als volgt uitziet:

    avg(toInteger(Rating))

    Klik op Opslaan en Voltooien wanneer u klaar bent.

    Screenshot that shows the saved expression.

  17. Ga naar het tabblad Gegevensvoorbeeld om de transformatie-uitvoer weer te geven. U ziet dat er slechts twee kolommen zijn, jaar en AverageComedyRating.

    Aggregate

  18. Vervolgens wilt u een Sink-transformatie toevoegen onder Bestemming.

    Screenshot that shows where to add a sink transformation under Destination.

  19. Geef uw sink een naam. Klik op Nieuw om uw sinkgegevensset te maken.

    Screenshot that shows where you can name your sink and create a new sink dataset.

  20. Kies Azure Data Lake Storage Gen2. Klik op Doorgaan.

    Screenshot that shows the Azure Data Lake Storage Gen2 tile you can choose.

  21. Kies DelimitedText. Klik op Doorgaan.

    Dataset

  22. Noem uw sinkgegevensset MoviesSink. Kies voor gekoppelde service de gekoppelde ADLS Gen2-service die u in stap 6 hebt gemaakt. Voer een uitvoermap in waarnaar u uw gegevens wilt schrijven. In deze zelfstudie schrijven we naar de map 'output' in container 'sample-data'. De map hoeft niet van tevoren te bestaan en kan dynamisch worden gemaakt. Stel eerste rij in als kop waar en selecteer Geen voor importschema. Klik op Voltooien.

    Sink

Nu u klaar bent met het bouwen van uw gegevensstroom. U bent klaar om deze uit te voeren in uw pijplijn.

De Gegevensstroom uitvoeren en bewaken

U kunt fouten in een pijplijn opsporen voordat u deze publiceert. In deze stap gaat u een foutopsporingsuitvoering van de gegevensstroompijplijn activeren. Hoewel gegevensvoorbeeld geen gegevens schrijft, schrijft een foutopsporingsuitvoering gegevens naar uw sinkbestemming.

  1. Ga naar het pijplijncanvas. Klik op Fouten opsporen om een foutopsporingsuitvoering te activeren.

    Screenshot that shows the pipeline canvas with Debug highlighted.

  2. Pijplijnopsporing van Gegevensstroom activiteiten maakt gebruik van het actieve foutopsporingscluster, maar het duurt nog minstens een minuut om te initialiseren. U kunt de voortgang bijhouden via het tabblad Uitvoer . Zodra de uitvoering is geslaagd, klikt u op het brilpictogram om het bewakingsvenster te openen.

    Pipeline

  3. In het bewakingsvenster ziet u het aantal rijen en de tijd die in elke transformatiestap is besteed.

    Screenshot that shows the monitoring pane where you can see the number of rows and time spent in each transformation step.

  4. Klik op een transformatie om gedetailleerde informatie over de kolommen en partitionering van de gegevens op te halen.

    Monitoring

Als u deze zelfstudie correct hebt gevolgd, moet u 83 rijen en 2 kolommen in uw sinkmap hebben geschreven. U kunt controleren of de gegevens juist zijn door uw blobopslag te controleren.

De pijplijn in deze zelfstudie voert een gegevensstroom uit waarmee de gemiddelde classificatie van komedies tussen 1910 en 2000 wordt samengevoegd en de gegevens naar ADLS worden geschreven. U hebt geleerd hoe u:

  • Een data factory maken.
  • Maak een pijplijn met een Gegevensstroom-activiteit.
  • Bouw een toewijzingsgegevensstroom met vier transformaties.
  • De uitvoering van de pijplijn testen.
  • Een Gegevensstroom-activiteit bewaken

Meer informatie over de expressietaal voor gegevensstromen.