Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Nadat u gegevens hebt opgenomen in Microsoft Fabric, moet u deze doorgaans opschonen, vormgeven en verrijken vóór analyse. Of het uw doel is om gecureerde datatabellen in een lakehouse of modelklare gegevens in een datawarehouse voor te bereiden, Fabric biedt zowel low-code als code-first transformatieopties.
In dit artikel wordt beschreven hoe u Dataflow Gen2 gebruikt voor visuele gegevensvoorbereiding met weinig code en hoe u notebooks en gebruikersgegevensfuncties gebruikt voor geavanceerde, codegestuurde transformaties. Kies de methode die het beste past bij uw rol, vaardighedenset en workloadvereisten.
Gegevens transformeren met Dataflow Gen2
Gebruik Dataflow Gen2 voor het voorbereiden van gegevens met weinig code. Dataflow Gen2 maakt gebruik van de vertrouwde Power Query-ervaring , dezelfde technologie die wordt gebruikt in Excel en Power BI.
Met de Power Query-interface kunt u filters toepassen, kolommen afleiden, gegevens aggregeren, query's samenvoegen en andere transformaties uitvoeren via een visuele, stapsgewijze werkstroom. In Fabric kan Dataflow Gen2 worden uitgevoerd als een zelfstandig ETL-proces of als activiteit binnen een pijplijn.
Nadat u bijvoorbeeld onbewerkte verkoopgegevens hebt opgenomen in een Lakehouse, kunt u een gegevensstroom gebruiken om duplicaten te verwijderen, kolomnamen te standaardiseren, bedrijfsregels toe te passen en de opgeschoonde resultaten te schrijven naar gecureerde tabellen in een Gouden laag van Lakehouse of in een magazijn.
Dataflow Gen2 wordt uitgevoerd in de cloud met Fabric-capaciteit, waardoor deze kan worden geschaald naar grote gegevenssets en complexe transformaties zonder dat aangepaste code nodig is. Gegevensanalisten en BI-ontwikkelaars kunnen gegevens onafhankelijk voorbereiden, terwijl ze nog steeds uitvoer naar Lakehouse- of Warehouse-tabellen schrijven als onderdeel van de geïntegreerde opslagbasis van Fabric.
Code-first benadering met notebooks en gebruikersdatafuncties
Gebruik notebooks, Spark-taken en gebruikersgegevensfuncties in de data engineering-ervaring voor geavanceerde transformatiescenario's met code.
Een Fabric-notebook biedt een Jupyter-stijlomgeving in de Fabric-portal. U kunt code schrijven in talen zoals Python, T-SQL of Scala om te werken met gegevens die zijn opgeslagen in OneLake.
Notebooks zijn geschikt voor complexe transformaties, aangepaste algoritmen, data science-werkstromen en integratie met externe bibliotheken. U kunt bijvoorbeeld onbewerkte JSON- of Parquet-bestanden vanuit een lakehouse laden in een Spark DataFrame, deze samenvoegen met andere gegevenssets, vensteraggregaties toepassen, de gegevens verrijken en de resultaten opslaan als Delta-tabellen in OneLake.
Notebooks kunnen rechtstreeks worden geïntegreerd met lakehouses en magazijnen in dezelfde werkruimte. U kunt gegevens lezen en schrijven zonder aanvullende referentieconfiguratie, omdat bewerkingen worden uitgevoerd binnen de beveiligingscontext van Fabric. U kunt notebooks ook organiseren en plannen met behulp van de notebookactiviteit in Data Factory-pijplijnen.
Met fabric-gebruikersgegevensfuncties kunt u herbruikbare Python-logica in Fabric inkapselen. U kunt ze gebruiken om geavanceerde bedrijfsregels te implementeren, externe services aan te roepen of modulaire transformatieonderdelen te bouwen. Gebruikersgegevensfuncties ondersteunen PyPI-bibliotheken, kunnen verbinding maken met Fabric-gegevensbronnen en KUNNEN REST-eindpunten beschikbaar maken voor externe integratie. Deze mogelijkheden maken ze geschikt voor bedrijfsscenario's waarvoor herbruikbare, beheerde transformatielogica is vereist.
U kunt gebruikersgegevensfuncties aanroepen vanuit notebooks, pijplijnen, activatorregels en als onderdeel van translyticale taakstromen in Power BI-rapporten.