Quickstart: Gegevens verplaatsen en transformeren met gegevensstromen en gegevenspijplijnen

In deze zelfstudie ontdekt u hoe de gegevensstroom en gegevenspijplijnervaring een krachtige en uitgebreide Data Factory-oplossing kunnen maken.

Vereisten

U moet aan de volgende vereisten voldoen om aan de slag te gaan:

Gegevensstromen vergeleken met pijplijnen

Met gegevensstromen Gen2 kunt u gebruikmaken van een interface met weinig code en 300+ gegevens- en AI-transformaties, zodat u gegevens eenvoudig kunt opschonen, voorbereiden en transformeren met meer flexibiliteit dan elk ander hulpprogramma. Met gegevenspijplijnen zijn uitgebreide out-of-the-box mogelijkheden voor gegevensindeling mogelijk om flexibele gegevenswerkstromen op te stellen die voldoen aan de behoeften van uw bedrijf. In een pijplijn kunt u logische groeperingen maken van activiteiten die een taak uitvoeren, waaronder het aanroepen van een gegevensstroom voor het opschonen en voorbereiden van uw gegevens. Hoewel er sprake is van een aantal functionaliteitsovergangen tussen de twee, is de keuze voor een specifiek scenario afhankelijk van of u de volledige rijkdom van pijplijnen nodig hebt of de eenvoudigere maar beperktere mogelijkheden van gegevensstromen kunt gebruiken. Raadpleeg de handleiding voor beslissingen over fabric voor meer informatie

Gegevens transformeren met gegevensstromen

Volg deze stappen om uw gegevensstroom in te stellen.

Stap 1: Een gegevensstroom maken

  1. Kies uw werkruimte met fabric en selecteer vervolgens Nieuw. Selecteer vervolgens Dataflow Gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. Het venster gegevensstroomeditor wordt weergegeven. Selecteer de kaart Importeren uit SQL Server .

    Screenshot showing the dataflow editor window.

Stap 2: Gegevens ophalen

  1. Voer in het Verbinding maken volgende dialoogvenster naar de gegevensbron de details in om verbinding te maken met uw Azure SQL-database en selecteer vervolgens Volgende. In dit voorbeeld gebruikt u de AdventureWorksLT-voorbeelddatabase die is geconfigureerd bij het instellen van de Azure SQL-database in de vereisten.

    Screenshot showing how to connect to an Azure SQL database.

  2. Selecteer de gegevens die u wilt transformeren en selecteer vervolgens Maken. Voor deze quickstart selecteert u SalesLT.Customer in de voorbeeldgegevens van AdventureWorksLT die zijn opgegeven voor Azure SQL DB en vervolgens de knop Gerelateerde tabellen selecteren om automatisch twee andere gerelateerde tabellen op te nemen.

    Screenshot showing where to choose from the available data.

Stap 3: uw gegevens transformeren

  1. Als deze optie niet is geselecteerd, selecteert u de knop Diagramweergave op de statusbalk onder aan de pagina of selecteert u de diagramweergave onder aan de pagina of selecteert u de diagramweergave onder aan het menu Beeld boven aan de Power Query-editor. Met een van deze opties kunt u de diagramweergave in- of uitschakelen.

    Screenshot showing where to select diagram view.

  2. Klik met de rechtermuisknop op uw SalesLT-klantquery of selecteer het verticale beletselteken rechts van de query en selecteer query's samenvoegen.

    Screenshot showing where to find the Merge queries option.

  3. Configureer de samenvoeging door de tabel SalesLTOrderHeader te selecteren als de rechtertabel voor de samenvoegbewerking, de kolom CustomerID uit elke tabel als de joinkolom en Left outer als jointype. Selecteer vervolgens OK om de samenvoegquery toe te voegen.

    Screenshot of the Merge configuration screen.

  4. Selecteer de knop Gegevensbestemming toevoegen, die eruitziet als een databasesymbool met een pijl erboven, vanuit de nieuwe samenvoegquery die u zojuist hebt gemaakt. Selecteer vervolgens Azure SQL-database als doeltype.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Geef de details op voor uw Azure SQL-databaseverbinding waar de samenvoegquery moet worden gepubliceerd. In dit voorbeeld kunt u ook de AdventureWorksLT-database gebruiken die we als gegevensbron voor de bestemming hebben gebruikt.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Kies een database om de gegevens op te slaan en geef een tabelnaam op en selecteer Vervolgens.

    Screenshot showing the Choose destination target window.

  7. U kunt de standaardinstellingen in het dialoogvenster Doelinstellingen kiezen laten en gewoon Instellingen opslaan selecteren zonder hier wijzigingen aan te brengen.

    Screenshot showing the Choose destination settings dialog.

  8. Selecteer Publiceren op de pagina van de gegevensstroomeditor om de gegevensstroom te publiceren.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Gegevens verplaatsen met gegevenspijplijnen

Nu u een Gegevensstroom Gen2 hebt gemaakt, kunt u ermee werken in een pijplijn. In dit voorbeeld kopieert u de gegevens die zijn gegenereerd op basis van de gegevensstroom in tekstindeling in een Azure Blob Storage-account.

Stap 1: Een nieuwe gegevenspijplijn maken

  1. Selecteer Nieuw in uw werkruimte en selecteer vervolgens Gegevenspijplijn.

    Screenshot showing where to start a new data pipeline.

  2. Geef uw pijplijn een naam en selecteer Vervolgens Maken.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Stap 2: Uw gegevensstroom configureren

  1. Voeg een nieuwe gegevensstroomactiviteit toe aan uw gegevenspijplijn door Gegevensstroom te selecteren op het tabblad Activiteiten.

    Screenshot showing where to select the Dataflow option.

  2. Selecteer de gegevensstroom op het pijplijncanvas en klik vervolgens op het tabblad Instellingen. Kies de gegevensstroom die u eerder hebt gemaakt in de vervolgkeuzelijst.

    Screenshot showing how to choose the dataflow you created.

  3. Selecteer Opslaan en voer vervolgens uit om de gegevensstroom uit te voeren om de samengevoegde querytabel in te vullen die u in de vorige stap hebt ontworpen.

    Screenshot showing where to select Run.

Stap 3: De kopieerassistent gebruiken om een kopieeractiviteit toe te voegen

  1. Selecteer Gegevens kopiëren op het canvas om het hulpprogramma Copy Assistant te openen om aan de slag te gaan. Of selecteer Kopieerassistent gebruiken in de vervolgkeuzelijst Gegevens kopiëren onder het tabblad Activiteiten op het lint.

    Screenshot showing the two ways to access the copy assistant.

  2. Kies uw gegevensbron door een gegevensbrontype te selecteren. In deze zelfstudie gebruikt u de Azure SQL Database die u eerder hebt gebruikt toen u de gegevensstroom maakte om een nieuwe samenvoegquery te genereren. Schuif omlaag onder de voorbeeldgegevensaanbiedingen en selecteer het tabblad Azure en vervolgens Azure SQL Database. Selecteer vervolgens Volgende om door te gaan.

    Screenshot showing where to choose a data source.

  3. Maak een verbinding met uw gegevensbron door nieuwe verbinding maken te selecteren. Vul de vereiste verbindingsgegevens in het deelvenster in en voer AdventureWorksLT in voor de database, waar we de samenvoegquery in de gegevensstroom hebben gegenereerd. Selecteer Volgende.

    Screenshot showing where to create a new connection.

  4. Selecteer de tabel die u eerder hebt gegenereerd in de gegevensstroomstap en selecteer vervolgens Volgende.

    Screenshot showing how to select from available tables.

  5. Kies Azure Blob Storage voor uw bestemming en selecteer vervolgens Volgende.

    Screenshot showing the Azure Blob Storage data destination.

  6. Maak een verbinding met uw bestemming door nieuwe verbinding maken te selecteren. Geef de details voor uw verbinding op en selecteer vervolgens Volgende.

    Screenshot showing how to create a connection.

  7. Selecteer uw mappad en geef een bestandsnaam op en selecteer vervolgens Volgende.

    Screenshot showing how to select folder path and file name.

  8. Selecteer Volgende opnieuw om de standaardbestandsindeling, kolomscheidingsteken, rijscheidingsteken en compressietype te accepteren, eventueel inclusief een koptekst.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Voltooi uw instellingen. Controleer en selecteer Vervolgens Opslaan en uitvoeren om het proces te voltooien.

    Screenshot showing how to review copy data settings.

Stap 5: Uw gegevenspijplijn ontwerpen en opslaan om gegevens uit te voeren en te laden

  1. Als u de kopieeractiviteit wilt uitvoeren na de gegevensstroomactiviteit , sleept u van Geslaagd op de gegevensstroomactiviteit naar de kopieeractiviteit . De kopieeractiviteit wordt alleen uitgevoerd nadat de gegevensstroomactiviteit is geslaagd.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Selecteer Opslaan om uw gegevenspijplijn op te slaan. Selecteer Vervolgens Uitvoeren om uw gegevenspijplijn uit te voeren en uw gegevens te laden.

    Screenshot showing where to select Save and Run.

Pijplijnuitvoering plannen

Zodra u klaar bent met het ontwikkelen en testen van uw pijplijn, kunt u plannen dat deze automatisch wordt uitgevoerd.

  1. Selecteer Planning op het tabblad Start van het venster pijplijneditor.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Configureer de planning naar behoefte. In het voorbeeld wordt de pijplijn gepland om dagelijks om 18:00 uur tot het einde van het jaar uit te voeren.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

In dit voorbeeld ziet u hoe u een Gegevensstroom Gen2 maakt en configureert om een samenvoegquery te maken en op te slaan in een Azure SQL-database en vervolgens gegevens uit de database kopieert naar een tekstbestand in Azure Blob Storage. U hebt geleerd hoe u:

  • Een gegevensstroom maken.
  • Gegevens transformeren met de gegevensstroom.
  • Maak een gegevenspijplijn met behulp van de gegevensstroom.
  • De uitvoering van stappen in de pijplijn orden.
  • Gegevens kopiëren met de Copy Assistant.
  • Voer uw gegevenspijplijn uit en plan deze.

Ga vervolgens verder voor meer informatie over het bewaken van uw pijplijnuitvoeringen.