Beslissingshandleiding voor Microsoft Fabric: kopieeractiviteit, gegevensstroom of Spark

Artikel
11/15/2023

Gebruik deze referentiehandleiding en de voorbeeldscenario's om te bepalen of u een kopieeractiviteit, een gegevensstroom of Spark nodig hebt voor uw Microsoft Fabric-workloads.

eigenschappen Copy-activiteit, gegevensstroom en Spark

	Kopieeractiviteit pijplijn	Gegevensstroom Gen 2	Spark
Gebruiksscenario	Data lake- en datawarehouse-migratie, gegevensopname, lichtgewicht transformatie	Gegevensopname, gegevenstransformatie, gegevens wrangling, gegevensprofilering	Gegevensopname, gegevenstransformatie, gegevensverwerking, gegevensprofilering
Primaire persona voor ontwikkelaars	Data engineer, gegevensintegrator	Data engineer, gegevensintegrator, bedrijfsanalist	Data engineer, data scientist, gegevensontwikkelaar
Vaardighedenset voor primaire ontwikkelaars	ETL SQL JSON	ETL M SQL	Spark (Scala, Python, Spark SQL, R)
Geschreven code	Geen code, lage code	Geen code, lage code	Code
Gegevensvolume	Laag naar hoog	Laag naar hoog	Laag naar hoog
Ontwikkelinterface	Wizard Canvas	Power Query	Notebook Spark-taakdefinitie
Bronnen	30+ connectors	150+ connectors	Honderden Spark-bibliotheken
Bestemmingen	18+ connectors	Lakehouse, Azure SQL-database, Azure Data Explorer, Azure Synapse Analytics	Honderden Spark-bibliotheken
Complexiteit van transformatie	Laag: lichtgewicht - typeconversie, kolomtoewijzing, samenvoeging/gesplitste bestanden, platgemaakte hiërarchie	Laag tot hoog: Meer dan 300 transformatiefuncties	Laag tot hoog: ondersteuning voor systeemeigen Spark- en opensource-bibliotheken

Bekijk de volgende drie scenario's voor hulp bij het kiezen van uw gegevens in Fabric.

Scenario 1

Leo, een data engineer, moet een grote hoeveelheid gegevens opnemen uit externe systemen, zowel on-premises als in de cloud. Deze externe systemen omvatten databases, bestandssystemen en API's. Leo wil geen code schrijven en onderhouden voor elke connector- of gegevensverplaatsingsbewerking. Hij wil de best practices voor medailles in lagen volgen, met brons, zilver en goud. Leo heeft geen ervaring met Spark, dus hij geeft de voorkeur aan de gebruikersinterface voor slepen en neerzetten, met minimale codering. En hij wil ook de gegevens volgens een schema verwerken.

De eerste stap is het ophalen van de onbewerkte gegevens in het bronslaag lakehouse van Azure-gegevensbronnen en verschillende bronnen van derden (zoals Snowflake Web, REST, AWS S3, GCS, enzovoort). Hij wil een geconsolideerd lakehouse, zodat alle gegevens uit verschillende LOB-, on-premises en cloudbronnen zich op één plaats bevinden. Leo beoordeelt de opties en selecteert pijplijnkopieactiviteit als de juiste keuze voor zijn onbewerkte binaire kopie. Dit patroon is van toepassing op zowel historische als incrementele gegevensvernieuwing. Met kopieeractiviteit kan Leo Gold-gegevens laden in een datawarehouse zonder code als dat nodig is en pijplijnen grootschalige gegevensopname bieden waarmee petabyte-scale-gegevens kunnen worden verplaatst. Copy-activiteit is de beste keuze voor weinig code en geen code om petabytes aan gegevens te verplaatsen naar lakehouses en magazijnen van soorten bronnen, ad-hoc of via een schema.

Scenario 2

Mary is een data engineer met uitgebreide kennis van de rapportagevereisten voor meerdere LOB-analyse. Een upstream-team heeft een oplossing geïmplementeerd om historische en incrementele gegevens van meerdere LOB's te migreren naar een common lakehouse. Mary is belast met het opschonen van de gegevens, het toepassen van bedrijfslogica en het laden ervan in meerdere bestemmingen (zoals Azure SQL DB, ADX en een lakehouse) ter voorbereiding op hun respectieve rapportageteams.

Mary is een ervaren Power Query-gebruiker en het gegevensvolume bevindt zich in het lage tot middelgrote bereik om de gewenste prestaties te bereiken. Gegevensstromen bieden interfaces zonder code of weinig code voor het opnemen van gegevens uit honderden gegevensbronnen. Met gegevensstromen kunt u gegevens transformeren met behulp van meer dan 300 opties voor gegevenstransformatie en de resultaten naar meerdere bestemmingen schrijven met een gebruiksvriendelijke, zeer visuele gebruikersinterface. Mary beoordeelt de opties en besluit dat het zinvol is om Dataflow Gen 2 te gebruiken als voorkeurstransformatieoptie.

Scenario 3

Adam is een data engineer die werkt voor een groot retailbedrijf dat gebruikmaakt van een lakehouse om de klantgegevens op te slaan en te analyseren. Als onderdeel van zijn taak is Adam verantwoordelijk voor het bouwen en onderhouden van de gegevenspijplijnen die gegevens extraheren, transformeren en laden in lakehouse. Een van de zakelijke vereisten van het bedrijf is het uitvoeren van analyse van klanten om inzicht te krijgen in de ervaringen van hun klanten en hun services te verbeteren.

Adam besluit de beste optie om Spark te gebruiken om de logica voor extraheren en transformatie te bouwen. Spark biedt een gedistribueerd computingplatform dat grote hoeveelheden gegevens parallel kan verwerken. Hij schrijft een Spark-toepassing met Behulp van Python of Scala, die gestructureerde, semi-gestructureerde en ongestructureerde gegevens uit OneLake leest voor beoordelingen en feedback van klanten. De toepassing schoont, transformeert en schrijft gegevens naar Delta-tabellen in lakehouse. De gegevens kunnen vervolgens worden gebruikt voor downstreamanalyse.

Delen via

Beslissingshandleiding voor Microsoft Fabric: kopieeractiviteit, gegevensstroom of Spark

eigenschappen Copy-activiteit, gegevensstroom en Spark

Scenario 1

Scenario 2

Scenario 3

Feedback

Aanvullende resources

Delen via

Beslissingshandleiding voor Microsoft Fabric: kopieeractiviteit, gegevensstroom of Spark

eigenschappen Copy-activiteit, gegevensstroom en Spark

Scenario 1

Scenario 2

Scenario 3

Gerelateerde inhoud

Feedback

Aanvullende resources