Quickstart: Uw eerste gegevensstroom maken om gegevens op te halen en te transformeren

Gegevensstromen zijn een selfservicetechnologie voor gegevensvoorbereiding in de cloud. In dit artikel maakt u uw eerste gegevensstroom, haalt u gegevens op voor uw gegevensstroom, transformeert u de gegevens en publiceert u de gegevensstroom.

Vereisten

De volgende vereisten zijn vereist voordat u begint:

Een gegevensstroom maken

In deze sectie maakt u uw eerste gegevensstroom.

  1. Schakel over naar de data factory-ervaring .

    Screenshot with the data factory experience emphasized.

  2. Navigeer naar uw Microsoft Fabric-werkruimte.

    Screenshot of the workspaces window where you navigate to your workspace.

  3. Selecteer Nieuw en selecteer vervolgens Gegevensstroom Gen2.

    Screenshot with the Dataflow Gen2 selection emphasized.

Gegevens ophalen

Laten we wat gegevens ophalen. In dit voorbeeld krijgt u gegevens van een OData-service. Gebruik de volgende stappen om gegevens in uw gegevensstroom op te halen.

  1. Selecteer Gegevens ophalen in de gegevensstroomeditor en selecteer vervolgens Meer.

    Screenshot with the Get Data option selected and More emphasized in the drop-down box.

  2. Selecteer meer weergeven in Gegevensbron kiezen.

    Screenshot of Get data source with View more emphasized.

  3. Selecteer in Nieuwe bron Andere>OData als gegevensbron.

    Screenshot of Get data source with the Other category and the OData connector emphasized.

  4. Voer de URL https://services.odata.org/v4/northwind/northwind.svc/in en selecteer vervolgens Volgende.

    Screenshot of the OData data source where you enter the data URL.

  5. Selecteer de tabellen Orders en Klanten en selecteer vervolgens Maken.

    Screenshot of the Power Query navigator with the Customers and Orders tables emphasized.

Meer informatie over de ervaring en functionaliteit voor het ophalen van gegevens vindt u in Het overzicht van gegevens ophalen.

Transformaties toepassen en publiceren

U hebt nu uw gegevens in uw eerste gegevensstroom geladen, gefeliciteerd! Nu is het tijd om een aantal transformaties toe te passen om deze gegevens naar de gewenste vorm te brengen.

U gaat deze taak uitvoeren vanuit de Power Query-editor. U vindt een gedetailleerd overzicht van de Power Query-editor op de gebruikersinterface van Power Query.

Volg deze stappen om transformaties toe te passen en te publiceren:

  1. Zorg ervoor dat de hulpprogramma's voor gegevensprofilering zijn ingeschakeld door te navigeren naar algemene opties voor startopties>>.

    Screenshot of Global options with the Column profile selections emphasized.

    Zorg er ook voor dat u de diagramweergave hebt ingeschakeld met behulp van de opties onder het tabblad Weergave op het lint van de Power Query-editor of door het pictogram van de diagramweergave rechtsonder in het Power Query-venster te selecteren.

    Screenshot of the overall look of Power Query diagram view.

  2. In de tabel Orders berekent u het totale aantal orders per klant. Als u dit doel wilt bereiken, selecteert u de kolom CustomerID in het gegevensvoorbeeld en selecteert u Groeperen op onder het tabblad Transformeren op het lint.

    Screenshot showing the Orders table selected, and Group by emphasized in the Transform tab.

  3. U voert het aantal rijen uit als de aggregatie binnen Group By. Meer informatie over de mogelijkheden van Group By vindt u in Groeperen of samenvatten van rijen.

    Screenshot of Group by, with the Count rows operation selected.

  4. Nadat we gegevens in de tabel Orders hebben gegroepeerd, krijgen we een tabel met twee kolommen met CustomerID en Count als de kolommen.

    Screenshot of the two column table.

  5. Vervolgens wilt u gegevens uit de tabel Klanten combineren met het aantal orders per klant. Als u gegevens wilt combineren, selecteert u de query Klanten in de diagramweergave en gebruikt u het menu '⋮' om de samenvoegquery's als nieuwe transformatie te openen.

    Screenshot of the dataflow editor, with the vertical ellipsis of the Customers table and Merge queries as new emphasized.

  6. Configureer de samenvoegbewerking, zoals wordt weergegeven in de volgende schermopname door CustomerID te selecteren als de overeenkomende kolom in beide tabellen. Selecteer vervolgens OK.

    Screenshot of the Merge window.

    Schermopname van het venster Samenvoegen, met de linkertabel voor samenvoegen ingesteld op de tabel Klanten en de rechtertabel voor samenvoegen ingesteld op de tabel Orders. De kolom CustomerID is geselecteerd voor de tabellen Klanten en Orders. Het Join Kind is ook ingesteld op Left outer. Alle andere selecties worden ingesteld op de standaardwaarde.

  7. Wanneer u de samenvoegquery's uitvoert als nieuwe bewerking, krijgt u een nieuwe query met alle kolommen uit de tabel Klanten en één kolom met geneste gegevens uit de tabel Orders.

    Screenshot of the dataflows editor with the new Merge query added to the right of the Customers and Orders tables.

  8. In dit voorbeeld bent u alleen geïnteresseerd in een subset kolommen in de tabel Klanten. U selecteert deze kolommen met behulp van de schemaweergave. Schakel de schemaweergave in de wisselknop in de rechterbenedenhoek van de gegevensstroomeditor in.

    Screenshot of the dataflows editor with the schema view button emphasized in the bottom-right corner.

  9. De schemaweergave biedt een gerichte weergave in de schemagegevens van een tabel, inclusief kolomnamen en gegevenstypen. De schemaweergave bevat een set hulpprogramma's voor schema's die beschikbaar zijn via een contextueel linttabblad. In dit scenario selecteert u de kolommen CustomerID, CompanyName en Orders (2), selecteert u vervolgens de knop Kolommen verwijderen en selecteert u vervolgens Andere kolommen verwijderen op het tabblad Hulpmiddelen voor schema .

    Screenshot of the schema view showing all of the available column names, with the CustomerID, CompanyName, and Orders (2) columns emphasized.

    Screenshot of the schema tools menu with Remove other columns emphasized.

  10. De kolom Orders (2) bevat geneste informatie die het resultaat is van de samenvoegbewerking die u een paar stappen geleden hebt uitgevoerd. Ga nu terug naar de gegevensweergave door de knop Gegevensweergave weergeven te selecteren naast de knop Schemaweergave weergeven in de rechterbenedenhoek van de gebruikersinterface. Gebruik vervolgens de transformatie Kolom uitvouwen in de kolomkop Orders (2) om de kolom Aantal te selecteren.

    Screenshot for using data view.

  11. Als laatste bewerking wilt u uw klanten rangschikken op basis van hun aantal orders. Selecteer de kolom Aantal en selecteer vervolgens de knop Kolom rangschikken onder het tabblad Kolom toevoegen op het lint.

    Screenshot of the dataflows editor with the Count column selected.

  12. Behoud de standaardinstellingen in rangschikkingskolom. Selecteer vervolgens OK om deze transformatie toe te passen.

    Screenshot of the Rank window with all default settings displayed.

  13. Wijzig nu de naam van de resulterende query als Gerangschikte klanten met behulp van het deelvenster Query-instellingen aan de rechterkant van het scherm.

    Screenshot of the dataflows editor with the Ranked Customers name emphasized under the query settings properties.

  14. U bent klaar met het transformeren en combineren van uw gegevens. U configureert nu de uitvoerbestemmingsinstellingen. Selecteer Gegevensbestemming kiezen onderaan het deelvenster Query-instellingen.

    Screenshot of the dataflows editor with the location of the Data destination selection emphasized.

  15. Voor deze stap kunt u een uitvoer voor uw lakehouse configureren als u er een hebt, of deze stap overslaan als u dat niet doet. In deze ervaring kunt u het doel lakehouse en de tabel voor uw queryresultaten configureren, naast de updatemethode (Toevoegen of Vervangen).

    Screenshot of the Connect to data destination window with lakehouse selected.

    Screenshot of the Choose destination settings window.

  16. Uw gegevensstroom is nu gereed om te worden gepubliceerd. Controleer de query's in de diagramweergave en selecteer Publiceren.

    Screenshot of the dataflows editor with the Publish button on the lower-right side emphasized.

    U keert nu terug naar de werkruimte. Een spinnerpictogram naast de naam van uw gegevensstroom geeft aan dat de publicatie wordt uitgevoerd. Zodra de publicatie is voltooid, kunt u de gegevensstroom vernieuwen.

    Belangrijk

    Wanneer de eerste Dataflow Gen2 wordt gemaakt in een werkruimte, worden Lakehouse- en Warehouse-items ingericht samen met hun gerelateerde SQL-analyse-eindpunt en semantische modellen. Deze items worden gedeeld door alle gegevensstromen in de werkruimte en zijn vereist voor gebruik van Dataflow Gen2, mogen niet worden verwijderd en zijn niet bedoeld om rechtstreeks door gebruikers te worden gebruikt. De items zijn een implementatiedetail van Dataflow Gen2. De items zijn niet zichtbaar in de werkruimte, maar zijn mogelijk toegankelijk in andere ervaringen, zoals het Notebook- en SQL Analytics-eindpunt, Lakehouse en Warehouse. U kunt de items herkennen door hun voorvoegsel in de naam. Het voorvoegsel van de items is 'DataflowsStaging'.

  17. Selecteer in uw werkruimte het pictogram Vernieuwen plannen .

    Screenshot of the workspace with the schedule refresh icon emphasized.

  18. Schakel de geplande vernieuwing in, selecteer Nog een keer toevoegen en configureer de vernieuwing, zoals wordt weergegeven in de volgende schermopname.

    Screenshot showing how to select another time.

    Schermopname van de geplande vernieuwingsopties, waarbij geplande vernieuwing is ingeschakeld, de vernieuwingsfrequentie is ingesteld op Dagelijks, de tijdzone ingesteld op gecoördineerde universele tijd en de tijd ingesteld op 4:00 uur. De aan-knop, de nieuwe tijdselectie toevoegen, de eigenaar van de gegevensstroom en de knop Toepassen worden allemaal benadrukt.

Resources opschonen

Als u deze gegevensstroom niet wilt blijven gebruiken, verwijdert u de gegevensstroom met behulp van de volgende stappen:

  1. Navigeer naar uw Microsoft Fabric-werkruimte.

    Screenshot of the workspaces window where you navigate to your workspace.

  2. Selecteer het verticale beletselteken naast de naam van de gegevensstroom en selecteer vervolgens Verwijderen.

    Screenshot with the three vertical dots and the delete option in the drop-down menu emphasized.

  3. Selecteer Verwijderen om het verwijderen van uw gegevensstroom te bevestigen.

    Screenshot of the Delete dataflow window, with the Delete button emphasized.

De gegevensstroom in dit voorbeeld laat zien hoe u gegevens laadt en transformeert in Dataflow Gen2. U hebt geleerd hoe u:

  • Maak een Gegevensstroom Gen2.
  • Gegevens transformeren.
  • Configureer doelinstellingen voor getransformeerde gegevens.
  • Voer uw gegevenspijplijn uit en plan deze.

Ga naar het volgende artikel voor meer informatie over het maken van uw eerste gegevenspijplijn.