Share via


Gegevensintegratie met behulp van Azure Data Factory en Azure Data Share

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Als klanten hun moderne datawarehouse- en analyseprojecten starten, hebben ze niet alleen meer gegevens nodig, maar ook meer inzicht in hun gegevens. Deze workshop gaat dieper in op hoe verbeteringen aan Azure Data Factory en Azure Data Share gegevensintegratie en -beheer in Azure vereenvoudigen.

Van het inschakelen van codevrije ETL/ELT tot het creëren van een uitgebreide weergave van uw gegevens, verbeteringen in Azure Data Factory stellen uw data engineers in staat om meer gegevens en dus meer waarde toe te voegen aan uw onderneming. Met Azure Data Share kunt u zaken doen met zakelijke delen op een beheerde manier.

In deze workshop gebruikt u Azure Data Factory (ADF) om gegevens van Azure SQL Database op te nemen in Azure Data Lake Storage Gen2 (ADLS Gen2). Zodra u de gegevens in het lake hebt opgenomen, kunt u deze transformeren via toewijzingsgegevensstroom, de systeemeigen transformatieservice van Data Dactory, en deze opvangen in Azure Synapse Analytics. Vervolgens deelt u de tabel met getransformeerde gegevens, samen met enkele aanvullende gegevens met behulp van de Azure Data Share.

De gegevens die in dit lab worden gebruikt, zijn gegevens van New York City-taxi. Als u deze wilt importeren in uw database in SQL Database, moet u het taxi-data bacpac-bestand downloaden. Selecteer de optie Onbewerkt bestand downloaden in GitHub.

Vereisten

Uw Azure Data Factory-omgeving instellen

In deze sectie leert u hoe u toegang krijgt tot de Azure Data Factory-gebruikerservaring (ADF UX) vanuit Azure Portal. Eenmaal in de ADF UX configureert u drie gekoppelde service voor elk van de gegevensarchieven die we gebruiken: Azure SQL Database, ADLS Gen2 en Azure Synapse Analytics.

Definieer in gekoppelde Azure Data Factory-services de verbindingsgegevens met externe resources. Azure Data Factory ondersteunt momenteel meer dan 85 connectors.

Open de Azure Data Factory UX

  1. Open de Azure-portal in Microsoft Edge of Google Chrome.

  2. Zoek met behulp van de zoekbalk boven aan de pagina naar 'Data Factory's'.

  3. Selecteer uw data factory-resource om de resources in het linkerdeelvenster te openen.

    Screenshot from the Azure portal of a data factories overview page.

  4. Selecteer Azure Data Factory Studio openen. De Data Factory Studio is ook rechtstreeks toegankelijk op adf.azure.com.

    Screenshot of the Azure Data Factory home page in the Azure portal.

  5. U wordt omgeleid naar de startpagina van ADF in Azure Portal. Deze pagina bevat quickstarts, instructievideo's en koppelingen naar zelfstudies voor meer informatie over data factory-concepten. Als u wilt beginnen met ontwerpen, selecteert u het potloodpictogram in de linkerzijbalk.

    Screenshot from the Azure portal of Portal configure.

Een gekoppelde Azure SQL Database-service maken

  1. Als u een gekoppelde service wilt maken, selecteert u Hub beheren in de linkerzijbalk in het deelvenster Verbinding maken ions, selecteert u Gekoppelde services en selecteert u Vervolgens Nieuw om een nieuwe gekoppelde service toe te voegen.

    Screenshot from the Azure portal of creating a new linked service.

  2. De eerste gekoppelde service die u configureert, is een Azure SQL Database. U kunt de zoekbalk gebruiken om de lijst met gegevensarchieven te filteren. Selecteer op de tegel Azure SQL Database en selecteer Doorgaan.

    Screenshot from the Azure portal of creating a new Azure SQL Database linked service.

  3. Voer in het deelvenster SQL Database-configuratie 'SQLDB' in als de naam van de gekoppelde service. Voer uw aanmeldingsgegevens in om data factory verbinding te laten maken met uw database. Als u SQL-verificatie gebruikt, voert u de servernaam, de database, uw gebruikersnaam en wachtwoord in. U kunt controleren of uw verbindingsgegevens juist zijn door De verbinding testen te selecteren. Selecteer Maken nadat dit is voltooid.

    Screenshot from the Azure portal of configuring a new Azure SQL Database linked service, with a successfully tested connection.

Een gekoppelde Azure Synapse Analytics-service maken

  1. Herhaal hetzelfde proces om een gekoppelde Azure Synapse Analytics-service toe te voegen. Selecteer Nieuw op het tabblad Verbindingen. Selecteer de tegel Azure Synapse Analytics en selecteer Doorgaan.

    Screenshot from the Azure portal of creating a new Azure Synapse Analytics linked service.

  2. Voer in het deelvenster voor de configuratie van de gekoppelde service 'SQLDW' in als de naam van uw gekoppelde service. Voer uw aanmeldingsgegevens in om data factory verbinding te laten maken met uw database. Als u SQL-verificatie gebruikt, voert u de servernaam, de database, uw gebruikersnaam en wachtwoord in. U kunt controleren of uw verbindingsgegevens juist zijn door De verbinding testen te selecteren. Selecteer Maken nadat dit is voltooid.

    Screenshot from the Azure portal of configuring a new Azure Synapse Analytics linked service named SQLDW.

Een gekoppelde Azure Data Lake Storage Gen2-service maken

  1. De laatste gekoppelde service die nodig is voor dit lab is een Azure Data Lake Storage Gen2. Selecteer Nieuw op het tabblad Verbindingen. Selecteer de tegel Azure Data Lake Storage Gen2 en selecteer Doorgaan.

    Screenshot from the Azure portal of creating a new ADLS Gen2 linked service.

  2. Voer in het deelvenster Configuratie van gekoppelde service 'ADLSGen2' in als de naam van de gekoppelde service. Als u accountsleutelverificatie gebruikt, selecteert u uw ADLS Gen2-opslagaccount in de vervolgkeuzelijst Opslagaccountnaam . U kunt controleren of uw verbindingsgegevens juist zijn door De verbinding testen te selecteren. Selecteer Maken nadat dit is voltooid.

    Screenshot from the Azure portal of configuring a new ADLS Gen2 linked service.

Foutopsporingsmodus voor gegevensstromen inschakelen

In de sectie Gegevens transformeren met behulp van toewijzingsgegevensstroom bouwt u toewijzingsgegevensstromen. Een best practice voordat u toewijzingsgegevensstromen bouwt, is het inschakelen van de foutopsporingsmodus, waarmee u de transformatielogica in een paar seconden kunt testen op een actief Spark-cluster.

Als u foutopsporing wilt inschakelen, selecteert u de schuifregelaar voor foutopsporing in de bovenste balk van het gegevensstroomcanvas of pijplijncanvas wanneer u gegevensstroomactiviteiten hebt. Selecteer OK wanneer het bevestigingsdialoogvenster wordt weergegeven. Het cluster wordt in ongeveer 5 tot 7 minuten gestart. Ga verder met het opnemen van gegevens uit Azure SQL Database in ADLS Gen2 met behulp van de kopieeractiviteit terwijl deze wordt geïnitialiseerd.

Screenshot from the Azure portal of the Factory Resources pages, with the data flow debug button enabled.

Screenshot that shows where the Data flow debug slider is after an object is created.

Gegevens opnemen met behulp van de kopieeractiviteit

In deze sectie maakt u een pijplijn met een kopieeractiviteit die één tabel uit een Azure SQL Database opneemt in een ADLS Gen2-opslagaccount. U leert hoe u een pijplijn toevoegt, een gegevensset configureert en fouten in een pijplijn opstakt via de ADF UX. Het configuratiepatroon dat wordt gebruikt in deze zelfstudie, kan worden toegepast op het kopiëren van een relationeel gegevensarchief naar een gegevensarchief op basis van bestanden.

In Azure Data Factory is een pijplijn een logische groep activiteiten die samen een taak uitvoeren. Een activiteit definieert een bewerking die op uw gegevens moet worden uitgevoerd. Een gegevensset wijst naar de gegevens die u wilt gebruiken in een gekoppelde service.

Een pijplijn met kopieeractiviteit maken

  1. Selecteer in het deelvenster Factory-resources het pluspictogram om het nieuwe resourcemenu te openen. Selecteer Pijplijn.

    Screenshot from the Azure portal of creating a new pipeline.

  2. Geef op het tabblad Algemeen van het pijplijncanvas een beschrijvende naam op voor de pijplijn, zoals 'IngestAndTransformTaxiData'.

    Screenshot from the Azure portal of new Ingest and Transform Taxi data object.

  3. Open in het deelvenster Activiteiten van het pijplijncanvas de accordion Verplaatsen en transformeren en sleep de activiteit Gegevens kopiëren naar het canvas. Geef de kopieeractiviteit een beschrijvende naam zoals 'IngestIntoADLS'.

    Screenshot from the Azure portal of adding a copy data step.

Azure SQL DB-brongegevensset configureren

  1. Selecteer op het tabblad Bron van de kopieeractiviteit. Als u een nieuwe gegevensset wilt maken, selecteert u Nieuw. Uw bron is de tabel dbo.TripData in de gekoppelde service SQLDB die eerder is geconfigureerd.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data source option.

  2. Zoek naar Azure SQL Database en selecteer Doorgaan.

    Screenshot from the Azure portal of creating a new dataset in Azure SQL Database.

  3. Roep de gegevensset 'TripData' aan. Selecteer 'SQLDB' als uw gekoppelde service. Selecteer de tabelnaam in de vervolgkeuzelijst tabelnaam dbo.TripData . Importeer het schema Uit verbinding/archief. Wanneer u klaar bent, selecteert u OK.

    Screenshot from the Azure portal of the properties page of creating a new dataset in Azure SQL Database.

U hebt uw eerste brongegevensset gemaakt. Zorg ervoor dat in de broninstellingen de standaardwaarde Tabel is geselecteerd in het veld Query gebruiken.

ADLS Gen 2-sinkgegevensset configureren

  1. Selecteer op het tabblad Sink van de kopieeractiviteit. Als u een nieuwe gegevensset wilt maken, selecteert u Nieuw.

    Screenshot from the Azure portal of creating a new dataset in the Copy Data sink option.

  2. Zoek naar Azure Data Lake Storage Gen2 en selecteer Doorgaan.

    Screenshot from the Azure portal of creating a new data in ADLS Gen2.

  3. Selecteer in het deelvenster Opmaak selecteren de optie DelimitedText terwijl u naar een CSV-bestand schrijft. Selecteer Doorgaan.

    Screenshot from the Azure portal of the format page when creating a new data in ADLS Gen2.

  4. Noem uw sinkgegevensset 'TripDataCSV'. Selecteer 'ADLSGen2' als uw gekoppelde service. Voer in waar u uw CSV-bestand wilt schrijven. U kunt bijvoorbeeld uw gegevens schrijven naar het bestand trip-data.csv in container staging-container. Stel Eerste rij als header in op waar als u wilt dat uw uitvoergegevens headers bevatten. Omdat er nog geen bestand in de bestemming bestaat, stelt u Importschema in op Geen. Wanneer u klaar bent, selecteert u OK.

    Screenshot from the Azure portal of the properties page of creating a new data in ADLS Gen2.

De kopieeractiviteit testen met het uitvoeren van een pijplijnfoutopsporing

  1. Als u wilt controleren of uw kopieeractiviteit correct werkt, selecteert u Fouten opsporen boven aan het pijplijncanvas om een foutopsporingsuitvoering uit te voeren. Met een foutopsporingsuitvoering kunt u de pijplijn end-to-end testen of tot een onderbrekingspunt voordat u deze naar de data factory-service publiceert.

    Screenshot from the Azure portal of the debug button.

  2. Als u de foutopsporingsuitvoering wilt controleren, gaat u naar het tabblad Uitvoer van het pijplijncanvas. Het bewakingsscherm wordt elke 20 seconden automatisch vernieuwd of wanneer u de knop Vernieuwen handmatig selecteert. De kopieeractiviteit heeft een speciale bewakingsweergave die toegankelijk is door het brilpictogram in de kolom Acties te selecteren.

    Screenshot from the Azure portal of the monitoring button.

  3. De controleweergave voor kopiëren bevat de uitvoeringsdetails en prestatiekenmerken van de activiteit. U kunt informatie bekijken zoals gelezen/geschreven gegevens, gelezen/geschreven rijen, gelezen/geschreven bestanden en doorvoer. Als u alles correct hebt geconfigureerd, ziet u 49.999 rijen die in één bestand in uw ADLS-sink zijn geschreven.

    Screenshot from the Azure portal of the performance details of the copy monitoring view.

  4. Voordat u verdergaat met de volgende sectie, wordt u aangeraden uw wijzigingen naar de data factory-service te publiceren door Alles publiceren te selecteren in de bovenste balk van de fabriek. Hoewel dit niet wordt besproken in dit lab, ondersteunt Azure Data Factory volledige git-integratie. Git-integratie biedt versiebeheer, iteratief opslaan in een opslagplaats en samenwerking op een data factory. Zie voor meer informatie broncodebeheer in Azure Data Factory.

    Screenshot from the Azure portal of the publish all button.

Gegevens transformeren met toewijzingsgegevensstroom

Nu u gegevens naar Azure Data Lake Storage hebt gekopieerd, is het tijd om die gegevens samen te voegen en te aggregeren in een datawarehouse. We gebruiken de toewijzingsgegevensstroom, de visueel ontworpen transformatieservice van Azure Data Factory. Met toewijzingsgegevensstromen kunnen gebruikers transformatielogica codevrij ontwikkelen en uitvoeren op Spark-clusters die worden beheerd door de ADF-service.

De gegevensstroom die in deze stap is gemaakt, voegt de gegevensset TripDataCSV die in de vorige sectie is gemaakt samen met een tabel dbo.TripFares die is opgeslagen in SQLDB op basis van vier sleutelkolommen. Vervolgens worden de gegevens geaggregeerd op basis van kolom payment_type om het gemiddelde van bepaalde velden te berekenen en worden ze geschreven naar een Azure Synapse Analytics-tabel.

Een gegevensstroomactiviteit toevoegen aan uw pijplijn

  1. Open in het deelvenster Activiteiten van het pijplijncanvas de accordion Verplaatsen en transformeren en sleep de activiteit Gegevensstroom naar het canvas.

    Screenshot from the Azure portal of the data flow option in the Move & Transform menu.

  2. Selecteer in het zijdeelvenster dat wordt geopend Nieuwe gegevensstroom maken en kies Toewijzingsgegevensstroom. Selecteer OK.

    Screenshot from the Azure portal of adding a new mapping data flow.

  3. U wordt omgeleid naar het gegevensstroomcanvas waar u uw transformatielogica gaat bouwen. Geef op het tabblad Algemeen uw gegevensstroom de naam 'JoinAndAggregateData'.

    Screenshot from the Azure portal of the Join And Aggregate Data flow.

CSV-bron voor reisgegevens configureren

  1. Het eerste wat u moet doen is uw twee brontransformaties configureren. De eerste bron verwijst naar de gegevensset 'TripDataCSV' DelimitedText. Als u een brontransformatie wilt toevoegen, selecteert u het vak Bron toevoegen op het canvas.

    Screenshot from the Azure portal of the add source button in a new data flow.

  2. Geef uw bron de naam TripDataCSV en selecteer de gegevensset TripDataCSV in de vervolgkeuzelijst bron. U hebt in eerste instantie geen schema geïmporteerd bij het maken van deze gegevensset omdat er geen gegevens waren. Aangezien trip-data.csv dit nu bestaat, selecteert u Bewerken om naar het tabblad Instellingen van de gegevensset te gaan.

    Screenshot from the Azure portal of the edit source dataset button in the data flow options.

  3. Ga naar het tabblad Schema en selecteer Schema importeren. Selecteer Uit verbinding/archief om rechtstreeks vanuit het bestandsarchief te importeren. Er moeten 14 kolommen van het type tekenreeks worden weergegeven.

    Screenshot from the Azure portal of the schema source selection.

  4. Ga terug naar de gegevensstroom 'JoinAndAggregateData'. Als uw foutopsporingscluster is gestart (aangegeven met een groene cirkel naast de schuifregelaar voor foutopsporing), kunt u een momentopname van de gegevens op het tabblad Gegevensvoorbeeld ophalen. Selecteer Vernieuwen om een voorbeeld van gegevens op te halen.

    Screenshot from the Azure portal of the data flow preview.

Notitie

De gegevenspreview schrijft geen gegevens.

Uw rittarieven configureren voor SQL Database-bron

  1. De tweede bron die u toevoegt aan punten in de SQL Database-tabel dbo.TripFares. Onder de bron 'TripDataCSV' bevindt zich nog een vak Bron toevoegen. Selecteer deze om een nieuwe brontransformatie toe te voegen.

    Screenshot from the Azure portal of adding another data source to a data flow.

  2. Geef deze bron de naam 'TripFaresSQL'. Selecteer Nieuw naast het veld brongegevensset om een nieuwe SQL Database-gegevensset te maken.

    Screenshot from the Azure portal of the new source dataset on another copy data step in the data flow.

  3. Selecteer de tegel Azure SQL Database en selecteer Doorgaan. Mogelijk ziet u dat veel van de connectors in data factory niet worden ondersteund in de toewijzingsgegevensstroom. Als u gegevens uit een van deze bronnen wilt transformeren, neemt u deze op in een ondersteunde bron met behulp van de kopieeractiviteit.

    Screenshot from the Azure portal of adding a new Azure SQL Database dataset to the data flow.

  4. Roep de gegevensset 'TripFares' aan. Selecteer 'SQLDB' als uw gekoppelde service. Selecteer de tabelnaam in de vervolgkeuzelijst tabelnaam dbo.TripFares . Importeer het schema Uit verbinding/archief. Wanneer u klaar bent, selecteert u OK.

    Screenshot from the Azure portal of the properties of adding a new Azure SQL Database dataset to the data flow.

  5. Als u uw gegevens wilt controleren, haalt u een gegevenspreview op in het tabblad Gegevenspreview.

    Screenshot from the Azure portal of the data preview of another data source in the data flow.

Inner join TripDataCSV en TripFaresSQL

  1. Als u een nieuwe transformatie wilt toevoegen, selecteert u het pluspictogram in de rechterbenedenhoek van TripDataCSV. Onder Meerdere invoeren/uitvoeren selecteert u Samenvoegen.

    Screenshot from the Azure portal of the join button in data sources in a data flow.

  2. Geef uw join-transformatie de naam 'InnerJoinWithTripFares'. Selecteer TripFaresSQL in de vervolgkeuzelijst voor de juiste stroom. Selecteer Inner als join-type. Raadpleegt Join-typen voor meer informatie over de verschillende join-typen in toewijzingsgegevensstroom.

    Selecteer in de vervolgkeuzelijst Joinvoorwaarden welke kolommen u wilt vergelijken vanuit elke stream. Als u een extra joinvoorwaarde wilt toevoegen, selecteert u het pluspictogram naast een bestaande voorwaarde. Standaard worden alle join-voorwaarden gecombineerd met een AND-operator, wat betekent dat aan alle voorwaarden moet worden voldaan voor een overeenkomst. In dit lab willen we overeenkomsten met kolommen medallion, hack_license, vendor_id en pickup_datetime

    Screenshot from the Azure portal of data flow join settings.

  3. Controleer of u 25 kolommen hebt samengevoegd met een gegevenspreview.

    Screenshot from the Azure portal of the data preview of a data flow with joined data sources.

Aggregatie per payment_type

  1. Nadat u de jointransformatie hebt voltooid, voegt u een statistische transformatie toe door het pluspictogram naast InnerJoinWithTripFares te selecteren. Kies Aggregeren onder Schemawijzigingsfunctie.

    Screenshot from the Azure portal of the new aggregate button.

  2. Geef uw geaggregeerde transformatie de naam 'AggregateByPaymentType'. Selecteer payment_type als de kolom Groeperen op.

    Screenshot from the Azure portal of aggregate settings.

  3. Ga naar het tabblad Aggregaties . Geef twee aggregaties op:

    • De gemiddelde tarief gegroepeerd op betalingstype
    • De totale reisafstand gegroepeerd op betalingstype

    Eerst maakt u de expressie voor gemiddeld tarief. Voer 'average_fare' in het tekstvak Een kolom toevoegen of selecteren in.

    Screenshot from the Azure portal of the Grouped by option in aggregate settings.

  4. Als u een aggregatie-expressie wilt invoeren, selecteert u het blauwe vak met het label Enter-expressie, waarmee de opbouwfunctie voor gegevensstroomexpressies wordt geopend, een hulpprogramma dat wordt gebruikt om expressies voor gegevensstromen visueel te maken met behulp van invoerschema, ingebouwde functies en bewerkingen en door de gebruiker gedefinieerde parameters. Zie de Documentatie voor opbouwfunctie van expressies voor meer informatie over de mogelijkheden van de opbouwfunctie voor expressies.

    Als u het gemiddelde tarief wilt ophalen, gebruikt u de avg() aggregatiefunctie om de kolom total_amount te aggregeren met een geheel getal met toInteger(). In de taal van de gegevensstroomexpressie wordt dit gedefinieerd als avg(toInteger(total_amount)). Selecteer Opslaan en voltooien wanneer u klaar bent.

    Screenshot from the Azure portal of the Visual Expression Builder showing an aggregate function avg(toInteger(total_amount)).

  5. Als u een extra aggregatie-expressie wilt toevoegen, selecteert u het pluspictogram naast average_fare. Selecteer Kolom toevoegen.

    Screenshot from the Azure portal of the add column button in the aggregate settings grouped by option.

  6. Voer 'total_trip_distance' in het tekstvak Een kolom toevoegen of selecteren in. Open zoals in de laatste stap de opbouwfunctie voor expressies om de expressie in te voeren.

    Als u de totale reisafstand wilt ophalen, gebruikt u de sum() aggregatiefunctie om de kolom trip_distance te aggregeren met een geheel getal met toInteger(). In de taal van de gegevensstroomexpressie wordt dit gedefinieerd als sum(toInteger(trip_distance)). Selecteer Opslaan en voltooien wanneer u klaar bent.

    Screenshot from the Azure portal of two columns in the aggregate settings grouped by option.

  7. Test uw transformatielogica op het tabblad Gegevensvoorbeeld . Zoals u kunt zien, zijn er aanzienlijk minder rijen en kolommen dan eerder. Alleen de drie kolommen voor groeperen op en aggregatie die in deze transformatie zijn gedefinieerd, gaan verder. Aangezien het voorbeeld slechts vijf groepen betalingstypen bevat, worden er slechts vijf rijen gegenereerd.

    Screenshot from the Azure portal of aggregate data preview.

Uw Azure Synapse Analytics-sink configureren

  1. Nu we onze transformatielogica hebben voltooid, kunnen we onze gegevens in een Azure Synapse Analytics-tabel opvangen. Voeg een sink-transformatie toe in het gedeelte Bestemming.

    Screenshot from the Azure portal of the add sink button in the data flow.

  2. Geef uw sink de naam 'SQLDWSink'. Selecteer Nieuw naast het veld sinkgegevensset om een nieuwe Azure Synapse Analytics-gegevensset te maken.

    Screenshot from the Azure portal of a new sink dataset button in the sink settings.

  3. Selecteer de tegel Azure Synapse Analytics en selecteer Doorgaan.

    Screenshot from the Azure portal of a new Azure Synapse Analytics dataset for a new data sink.

  4. Roep de gegevensset 'AggregatedTaxiData' aan. Selecteer 'SQLDW' als uw gekoppelde service. Selecteer Nieuwe tabel maken en geef de nieuwe tabel dbo.AggregateTaxiDataeen naam. Wanneer u klaar bent, selecteert u OK.

    Screenshot from the Azure portal of creating a new table for the data sink.

  5. Ga naar het tabblad Instellingen van de sink. Omdat we een nieuwe tabel maken, moeten we Tabel opnieuw maken selecteren onder tabelactie. Schakel het selectievakje Fasering inschakelen uit om te schakelen tussen rij per rij of in batch invoeren.

    Screenshot from the Azure portal of data sink settings, the recreate table option.

U hebt uw gegevensstroom gemaakt. Nu is het tijd om deze uit te voeren in een pijplijnactiviteit.

End-to-end-foutopsporing voor uw pijplijn

  1. Ga terug naar het tabblad voor de pijplijn IngestAndTransformData. U ziet een groen vakje op de kopieeractiviteit 'IngestIntoADLS'. Sleep het naar de gegevensstroomactiviteit 'JoinAndAggregateData'. Hiermee maakt u een 'bij gelukt', waardoor de gegevensstroomactiviteit alleen wordt uitgevoerd als de kopie is geslaagd.

    Screenshot from the Azure portal of a green success pipeline.

  2. Net als voor de kopieeractiviteit selecteert u Debug om een foutopsporingsuitvoering uit te voeren. Voor foutopsporingsuitvoeringen gebruikt de gegevensstroomactiviteit het actieve foutopsporingscluster in plaats van een nieuw cluster in te stellen. Het uitvoeren van deze pijplijn duurt iets langer dan een minuut.

    Screenshot from the Azure portal of the data flow debug button for the on success pipeline.

  3. Net als bij de kopieeractiviteit heeft de gegevensstroom een speciale controleweergave die na voltooiing van de activiteit via het brilpictogram kan worden geopend.

    Screenshot from the Azure portal of the output monitor on a pipeline.

  4. In de controleweergave kunt u een vereenvoudigde gegevensstroomgrafiek bekijken, samen met de uitvoeringstijden en rijen bij elke uitvoeringsfase. Als alles goed is uitgevoerd, hebt u 49.999 rijen samengevoegd tot vijf rijen in deze activiteit.

    Screenshot from the Azure portal of the output monitor details on a pipeline.

  5. U kunt een transformatie selecteren om aanvullende informatie te krijgen over de uitvoering, zoals partitioneringsgegevens en nieuwe/bijgewerkte/verwijderde kolommen.

    Screenshot from the Azure portal of stream information on the pipeline output monitor.

U hebt nu het gedeelte data factory van dit lab voltooid. Publiceer uw resources als u deze wilt uitvoeren met triggers. U hebt een pijplijn uitgevoerd die gegevens van Azure SQL Database heeft opgenomen naar Azure Data Lake Storage met behulp van de kopieeractiviteit en vervolgens hebt u deze gegevens samengevoegd in een Azure Synapse Analytics. U kunt controleren of de gegevens zijn geschreven door de SQL Server zelf te bekijken.

Gegevens delen met Azure Data Share

In deze sectie leert u hoe u een nieuwe gegevensshare instelt met behulp van Azure Portal. Dit omvat het maken van een nieuwe gegevensshare die gegevenssets uit Azure Data Lake Storage Gen2 en Azure Synapse Analytics bevat. Vervolgens configureert u een schema voor momentopnamen, zodat de gegevensgebruikers een optie hebben om de gegevens die met hen worden gedeeld automatisch te vernieuwen. Vervolgens nodigt u ontvangers uit voor uw gegevensshare.

Zodra u een gegevensshare hebt gemaakt, schakelt u over van rol en wordt u de gegevensgebruiker. Als gegevensgebruiker loopt u door de stroom van het accepteren van een gegevensshare-uitnodiging, het configureren van de locatie waar de gegevens moeten worden ontvangen en het toewijzen van gegevenssets aan verschillende opslaglocaties. Vervolgens activeert u een momentopname, waarmee de gegevens die met u worden gedeeld, worden gekopieerd naar de opgegeven bestemming.

Gegevens delen (gegevensproviderstroom)

  1. Open de Azure-portal in Microsoft Edge of Google Chrome.

  2. Zoek op Gegevensshares in de zoekbalk bovenaan de pagina

    Screenshot from the Azure portal of searching for data shares in the Azure portal search bar.

  3. Selecteer het gegevensshare-account met 'Provider' in de naam. Bijvoorbeeld DataProvider0102.

  4. Selecteer Beginnen met het delen van uw gegevens

    Screenshot from the Azure portal of the start sharing your data button.

  5. Selecteer +Maken om te beginnen met het configureren van de nieuwe gegevensshare.

  6. Geef een gewenste naam op onder Sharenaam. Dit is de sharenaam die wordt weergegeven aan uw gegevensgebruiker. Zorg er dus voor dat u een beschrijvende naam opgeeft, zoals TaxiData.

  7. Onder Beschrijving voert u een zin in waarmee de inhoud van de gegevensshare wordt beschreven. De gegevensshare bevat wereldwijde taxiritgegevens die zijn opgeslagen in verschillende winkels, waaronder Azure Synapse Analytics en Azure Data Lake Storage.

  8. Geef onder Gebruiksvoorwaarden een set voorwaarden op waaraan uw gegevensgebruiker moet voldoen. Enkele voorbeelden zijn 'Deze gegevens niet distribueren buiten uw organisatie' of 'Raadpleeg de juridische overeenkomst'.

    Screenshot from the Azure portal of the Data Share details in Sent Shares.

  9. Selecteer Doorgaan.

  10. Selecteer Gegevenssets toevoegen

    Screenshot from the Azure portal of the Add dataset button in the Data Share in Sent Shares.

  11. Selecteer Azure Synapse Analytics om een tabel te selecteren uit Azure Synapse Analytics waarin uw ADF-transformaties terecht zijn gekomen.

  12. U krijgt een script dat moet worden uitgevoerd voordat u verder kunt gaan. Met het geboden script wordt een gebruiker gemaakt in de SQL-database zodat de Azure Data Share MSI kan verifiëren namens de gebruiker.

    Belangrijk

    Voordat u het script uitvoert, moet u uzelf instellen als de Active Directory-Beheer voor de logische SQL-server van de Azure SQL Database.

  13. Open een nieuw tabblad en ga naar de Azure-portal. Kopieer het geleverde script om een gebruiker te maken in de database waarvan u gegevens wilt delen. Doe dit door u aan te melden bij de EDW-database met behulp van de Query-editor van Azure Portal, met behulp van Microsoft Entra-verificatie. U moet de gebruiker wijzigen in het volgende voorbeeldscript:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Ga terug naar de Azure Data Share waar u gegevenssets aan uw gegevensshare hebt toegevoegd.

  15. Selecteer EDW en selecteer vervolgens AggregatedTaxiData voor de tabel.

  16. Selecteer Gegevensset toevoegen

    We hebben nu een SQL-tabel die deel uitmaakt van de gegevensset. Vervolgens voegen we extra gegevenssets toe vanuit Azure Data Lake Storage.

  17. Selecteer Gegevensset toevoegen en Selecteer Azure Data Lake Storage Gen2

    Screenshot from the Azure portal of add an ADLS Gen2 dataset.

  18. Selecteer Volgende

  19. Vouw wwtaxidata uit. Vouw Boston-taxigegevens uit. U kunt het bestandsniveau omlaag delen.

  20. Selecteer de map Boston-taxigegevens om de volledige map toe te voegen aan uw gegevensshare.

  21. Selecteer Gegevenssets toevoegen

  22. Controleer de gegevenssets die zijn toegevoegd. U moet een SQL-tabel en een ADLS Gen2-map aan uw gegevensshare hebben toegevoegd.

  23. Selecteer Doorgaan

  24. In dit scherm kunt u ontvangers toevoegen aan uw gegevensshare. De ontvangers die u toevoegt, ontvangen uitnodigingen voor uw gegevensshare. Voor dit lab moet u twee e-mailadressen toevoegen:

    1. Het e-mailadres van het Azure-abonnement dat u gebruikt.

      Screenshot from the Azure portal of the Data Share add recipients.

    2. Voeg de fictieve gegevensgebruiker met de naam janedoe@fabrikam.comtoe.

  25. In dit scherm kunt u een momentopname-instelling voor uw gegevensgebruiker configureren. Hierdoor kunnen ze regelmatig updates van uw gegevens ontvangen met een interval dat door u is gedefinieerd.

  26. Controleer het schema voor momentopnamen en configureer een uurlijks vernieuwen van uw gegevens met behulp van de vervolgkeuzelijst Terugkeerpatroon .

  27. Selecteer Maken.

    U hebt nu een actieve gegevensshare. Hiermee kunt u zien wat u ziet als een gegevensprovider wanneer u een gegevensshare maakt.

  28. Selecteer de gegevensshare die u hebt gemaakt met de naam DataProvider. U kunt hiernaar navigeren door Verzonden shares te selecteren in Gegevensshare.

  29. Selecteer op schema voor momentopnamen. U kunt indien gewenst het schema voor momentopnamen uitschakelen.

  30. Selecteer vervolgens het tabblad Gegevenssets . U kunt extra gegevenssets toevoegen aan deze gegevensshare nadat deze is gemaakt.

  31. Selecteer het tabblad Abonnementen delen . Er zijn nog geen shareabonnementen omdat uw gegevensgebruiker uw uitnodiging nog niet heeft geaccepteerd.

  32. Ga naar het tabblad Uitnodigingen . Hier ziet u een lijst met uitnodigingen die in behandeling zijn.

    Screenshot from the Azure portal of Pending invitations.

  33. Selecteer de uitnodiging voor janedoe@fabrikam.com. Selecteer Verwijderen. Als uw ontvanger de uitnodiging nog niet heeft geaccepteerd, kan hij of zij dat ook niet meer doen.

  34. Selecteer het tabblad Geschiedenis . Er wordt nog niets weergegeven omdat uw gegevensgebruiker uw uitnodiging nog niet heeft geaccepteerd en een momentopname heeft geactiveerd.

Gegevens ontvangen (gegevensverbruikerstroom)

Nu we onze gegevensshare hebben bekeken, zijn we klaar voor een andere context en te schakelen naar de rol van gegevensgebruiker.

U hebt nu een uitnodiging voor een Azure Data Share in uw postvak in ontvangen van Microsoft Azure. Start Outlook Web Access (outlook.com) en meld u aan met de referenties die zijn opgegeven voor uw Azure-abonnement.

Selecteer in het e-mailbericht dat u had moeten ontvangen de optie 'Uitnodiging weergeven >'. Op dit moment gaat u de ervaring van de gegevensgebruiker simuleren wanneer u een uitnodiging van gegevensprovider voor zijn of haar gegevensshare accepteert.

Screenshot from Outlook of an Email invitation.

Mogelijk wordt u gevraagd om een abonnement te selecteren. Zorg ervoor dat u het abonnement selecteert waarmee u werkt voor dit lab.

  1. Selecteer de uitnodiging met de titel DataProvider.

  2. In dit uitnodigingsscherm ziet u verschillende details over de gegevensshare die u eerder hebt geconfigureerd als gegevensprovider. Bekijk de details en accepteer de gebruiksrechtsvoorwaarden indien van toepassing.

  3. Selecteer het Abonnement en de Resourcegroep die al bestaan voor uw lab.

  4. Voor Gegevensshare-account selecteert u DataConsumer. U kunt ook een nieuwe gegevensshare-account maken.

  5. Naast de naam van ontvangen share ziet u dat de standaardsharenaam de naam is die is opgegeven door de gegevensprovider. Geef de share een beschrijvende naam die de gegevens beschrijft die u op het punt staat te ontvangen, bijvoorbeeld TaxiDataShare.

    Screenshot from the Azure portal of the page to Accept and Configure a data share.

  6. U kunt kiezen voor Nu accepteren en configureren of Later accepteren en configureren. Als u ervoor kiest om nu te accepteren en te configureren, geeft u een opslagaccount op waarin alle gegevens moeten worden gekopieerd. Als u ervoor kiest om later te accepteren en te configureren, worden de gegevenssets in de share niet toegewezen en moet u ze handmatig toewijzen. We zullen hier later voor kiezen.

  7. Selecteer Later accepteren en configureren.

    Wanneer u deze optie configureert, wordt er een shareabonnement gemaakt, maar is er nergens waar de gegevens terechtkomen omdat er geen bestemming is toegewezen.

    Configureer vervolgens gegevenssettoewijzingen voor de gegevensshare.

  8. Selecteer de Ontvangen share (de naam die u in stap 5 hebt opgegeven).

    Trigger voor momentopname wordt grijs weergegeven, maar de share is actief.

  9. Selecteer het tabblad Gegevenssets . Elke gegevensset is niet toegewezen, wat betekent dat er geen bestemming is om gegevens naar te kopiëren.

    Screenshot from the Azure portal of unmapped datasets.

  10. Selecteer de Azure Synapse Analytics-tabel en selecteer vervolgens +Toewijzen aan doel.

  11. Selecteer aan de rechterkant van het scherm de vervolgkeuzelijst Doelgegevenstype .

    U kunt de SQL-gegevens toewijzen aan een breed scala aan gegevensarchieven. In dit geval wijzen we toe aan een Azure SQL Database.

    Screenshot from the Azure portal of map datasets to target.

    (Optioneel) Selecteer Azure Data Lake Storage Gen2 als het doelgegevenstype.

    (Optioneel) Selecteer het abonnement, de resourcegroep en het opslagaccount waarin u werkt.

    (Optioneel) U kunt ervoor kiezen om de gegevens in uw data lake te ontvangen in de CSV- of Parquet-indeling.

  12. Selecteer Azure SQL Database naast Doelgegevenstype.

  13. Selecteer het abonnement, de resourcegroep en het opslagaccount waarin u werkt.

    Screenshot from the Azure portal of map datasets to a target Azure SQL Database.

  14. Voordat u kunt doorgaan, moet u een nieuwe gebruiker maken in de SQL Server door het geleverde script uit te voeren. Kopieer eerst het geleverde script naar het klembord.

  15. Open een nieuw azure-portaltabblad. Sluit het bestaande tabblad niet, want u moet er even naar terugkeren.

  16. Ga in het nieuwe tabblad dat u hebt geopend naar SQL-databases.

  17. Selecteer de SQL-database (er mag er zich slechts één in uw abonnement bevinden). Pas op dat u de datawarehouse niet selecteert.

  18. Selecteer Query-editor (preview)

  19. Gebruik Microsoft Entra-verificatie om u aan te melden bij de Query-editor.

  20. Voer de query uit die wordt geboden in de gegevensshare (gekopieerd naar het klembord in stap 14).

    Met deze opdracht geeft u de Azure Data Share-service de mogelijkheid om beheerde identiteiten te gebruiken voor Azure-Services om te verifiëren of de SQL Server gegevens kan kopiëren.

  21. Ga terug naar het oorspronkelijke tabblad en selecteer Toewijzen aan doel.

  22. Selecteer vervolgens de Map Azure Data Lake Storage Gen2 die deel uitmaakt van de gegevensset en wijs deze toe aan een Azure Blob Storage-account.

    Screenshot from the Azure portal of map datasets to a target Azure Blob Storage.

    Als alle gegevenssets zijn toegewezen, bent u er klaar voor om gegevens te ontvangen van de gegevensprovider.

    Screenshot from the Azure portal of received shares mapped.

  23. Details selecteren.

    Momentopname activeren wordt niet meer grijs weergegeven, omdat de gegevensshare nu bestemmingen heeft om naar te kopiëren.

  24. Selecteer Momentopname activeren -> Volledige kopie.

    Screenshot from the Azure portal of the trigger snapshot, full copy option.

    Hiermee worden gegevens gekopieerd naar uw nieuwe datashare-account. In een praktijkscenario zijn deze gegevens afkomstig van derden.

    Het duurt ongeveer 3-5 minuten voordat de gegevens zijn tegengekomen. U kunt de voortgang controleren door op het tabblad Geschiedenis te selecteren.

    Terwijl u wacht, gaat u naar de oorspronkelijke gegevensshare (DataProvider) en bekijkt u de status van het tabblad Abonnementen en geschiedenis delen. Er is nu een actief abonnement en als gegevensprovider kunt u ook controleren wanneer de gegevensgebruiker is begonnen met het ontvangen van de gegevens die met hen zijn gedeeld.

  25. Ga terug naar de gegevensshare van de gegevensgebruiker. Zodra de status van de trigger is geslaagd, gaat u naar de doel-SQL-database en data lake om te zien dat de gegevens in de respectieve archieven zijn terechtgekomen.

Gefeliciteerd, u hebt het lab voltooid.