Gegevens transformeren in Azure Data Factory en Azure Synapse Analytics

Van toepassing op: Azure Data Factory Azure Synapse Analytics

Tip

Data Factory in Microsoft Fabric is de volgende generatie van Azure Data Factory, met een eenvoudigere architectuur, ingebouwde AI en nieuwe functies. Als u nieuw bent in gegevensintegratie, begint u met Fabric Data Factory. Bestaande ADF-workloads kunnen upgraden naar Fabric om toegang te krijgen tot nieuwe mogelijkheden voor gegevenswetenschap, realtime analyses en rapportage.

Belangrijk

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. Het is raadzaam om op die datum over te stappen naar Azure Machine Learning.

Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio (klassieke) resources (werkruimte- en webserviceplan) maken. Tot en met 31 augustus 2024 kunt u de bestaande Machine Learning Studio (klassieke) experimenten en webservices blijven gebruiken. Zie voor meer informatie:

Migreren naar Azure Machine Learning vanaf Machine Learning Studio (Klassiek)
Wat is Azure Machine Learning?

Machine Learning Studio (klassieke) documentatie buiten gebruik wordt gesteld en in de toekomst mogelijk niet meer wordt bijgewerkt.

Overzicht

In dit artikel worden activiteiten voor gegevenstransformatie in Azure Data Factory- en Synapse-pijplijnen uitgelegd die u kunt gebruiken om uw onbewerkte gegevens te transformeren en te verwerken in voorspellingen en inzichten op schaal. Een transformatieactiviteit wordt uitgevoerd in een computeromgeving, zoals Azure Databricks of Azure HDInsight. Het bevat koppelingen naar artikelen met gedetailleerde informatie over elke transformatieactiviteit.

De service ondersteunt de volgende activiteiten voor gegevenstransformatie die afzonderlijk kunnen worden toegevoegd aan pijplijnen of gekoppeld aan een andere activiteit.

Natuurlijk transformeren met gegevensstromen in Azure Data Factory en Azure Synapse Analytics

Het in kaart brengen van gegevensstromen

Gegevensstroomtoewijzingen zijn visueel ontworpen gegevens-omzettingen in Azure Data Factory en Azure Synapse. Met gegevensstromen kunnen data engineers grafische logica voor gegevenstransformatie ontwikkelen zonder code te schrijven. De resulterende gegevensstromen worden uitgevoerd als activiteiten binnen pijplijnen die gebruikmaken van uitgeschaalde Spark-clusters. Activiteiten voor gegevensstromen kunnen worden uitgevoerd via bestaande plannings-, controle-, stroom- en bewakingsmogelijkheden binnen de service. Voor meer informatie, zie gegevensstromen toewijzen.

Gegevens omvormen

Power Query in Azure Data Factory maakt het mogelijk om op cloudschaal gegevens te wranglen, waardoor u iteratief gegevensvoorbereiding zonder code kunt uitvoeren. Gegevens-wrangling integreert met Power Query Online en maakt Power Query M-functies beschikbaar voor data-wrangling op cloudschaal via "spark-uitvoering". Zie data wrangling in Azure Data Factory voor meer informatie.

Notitie

Power Query wordt momenteel alleen ondersteund in Azure Data Factory en niet in Azure Synapse. Zie Beschikbare functies in Azure Data Factory en Azure Synapse Analytics pijplijnen voor een lijst met specifieke functies die in elke service worden ondersteund.

Externe transformaties

Desgewenst kunt u handcodetransformaties uitvoeren en de externe rekenomgeving zelf beheren.

HDInsight Hive-activiteit

De HDInsight Hive-activiteit in een pijplijn voert Hive-query's uit op uw eigen of on-demand Windows/HDInsight-cluster op basis van Linux. Zie het Hive-activiteitsartikel voor meer informatie over deze activiteit.

HDInsight Pig-activiteit

De HDInsight Pig-activiteit in een pijplijn voert Pig-query's uit op uw eigen HDInsight-cluster of op een op aanvraag beschikbare Windows- of Linux-gebaseerde HDInsight-cluster. Zie Pig-activiteit artikel voor meer informatie over deze activiteit.

HDInsight MapReduce-activiteit

De HDInsight MapReduce-activiteit in een pijplijn voert MapReduce-programma's uit op uw eigen of on-demand Windows/HDInsight-cluster op basis van Linux. Zie het artikel over MapReduce-activiteiten voor meer informatie over deze activiteit.

HDInsight Streaming-activiteit

De HDInsight Streaming-activiteit in een pijplijn voert Hadoop Streaming-programma's uit op uw eigen of on-demand Windows/HDInsight-cluster op basis van Linux. Zie HDInsight Streaming-activiteit voor meer informatie over deze activiteit.

HDInsight Spark-activiteit

De HDInsight Spark-activiteit in een pijplijn voert Spark-programma's uit op uw eigen HDInsight-cluster. Zie Invoke Spark-programma's met Azure Data Factory of Azure Synapse Analytics voor meer informatie.

ML Studio (klassieke) activiteiten

Belangrijk

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. Het is raadzaam om op die datum over te stappen naar Azure Machine Learning.

Migreren naar Azure Machine Learning vanaf Machine Learning Studio (Klassiek)
Wat is Azure Machine Learning?

Machine Learning Studio (klassieke) documentatie buiten gebruik wordt gesteld en in de toekomst mogelijk niet meer wordt bijgewerkt.

Met de service kunt u eenvoudig pijplijnen maken die gebruikmaken van een gepubliceerde ML Studio-webservice (klassiek) voor predictive analytics. Met behulp van de batchuitvoeringsactiviteit in een pijplijn kunt u een Studio-webservice (klassiek) aanroepen om voorspellingen te doen over de gegevens in batch.

Na verloop van tijd moeten de voorspellende modellen in de scoreexperimenten van Studio (klassiek) opnieuw worden getraind met behulp van nieuwe invoergegevenssets. Nadat u klaar bent met opnieuw trainen, wilt u de scorewebservice bijwerken met het opnieuw getrainde machine learning-model. U kunt de Resource bijwerken-activiteit gebruiken om de webservice bij te werken met het pas getrainde model.

Zie Gebruik van ML Studio-activiteiten (klassiek) voor meer informatie over deze Studio-activiteiten (klassiek).

Opgeslagen procedureactiviteit

U kunt de activiteit SQL Server Opgeslagen procedure in een Data Factory-pijplijn gebruiken om een opgeslagen procedure aan te roepen in een van de volgende gegevensarchieven: Azure SQL Database, Azure Synapse Analytics, SQL Server Database in uw onderneming of een Azure-VM. Zie het artikel over opgeslagen procedureactiviteit voor meer informatie.

Azure Synapse Notebook-activiteit

De Azure Synapse Notebook-activiteit in een Azure Synapse-pijplijn voert een Synapse-notebook uit in uw Azure Synapse-werkruimte. Zie Gegevens transformeren door een Azure Synapse-notebook uit te voeren.

Databricks Notebook-activiteit

De Azure Databricks Notebook-activiteit in een pijplijn voert een Databricks-notebook uit in uw Azure Databricks-werkruimte. Azure Databricks is een beheerd platform voor het uitvoeren van Apache Spark. Zie Gegevens transformeren door een Databricks-notebook uit te voeren.

Databricks Jar-activiteit

De Azure Databricks Jar-activiteit in een pijplijn voert een Spark Jar uit in uw Azure Databricks-cluster. Azure Databricks is een beheerd platform voor het uitvoeren van Apache Spark. Zie Transform-gegevens door een Jar-activiteit uit te voeren in Azure Databricks.

Databricks Python-activiteit

De Azure Databricks Python-activiteit in een pijplijn voert een Python-bestand uit in uw Azure Databricks-cluster. Azure Databricks is een beheerd platform voor het uitvoeren van Apache Spark. Zie gegevens transformeren door een Python-activiteit uit te voeren in Azure Databricks.

Aangepaste activiteit

Als u gegevens wilt transformeren op een manier die niet wordt ondersteund door Data Factory, kunt u een aangepaste activiteit maken met uw eigen logica voor gegevensverwerking en de activiteit in de pijplijn gebruiken. U kunt de aangepaste .NET-activiteit configureren voor uitvoering met behulp van een Azure Batch-service of een Azure HDInsight-cluster. Zie het artikel Aangepaste activiteiten gebruiken voor meer informatie.

U kunt een aangepaste activiteit maken om R-scripts uit te voeren op uw HDInsight-cluster waarop R is geïnstalleerd. Zie Run R Script met behulp van Azure Data Factory- en Synapse-pijplijnen.

Compute-omgevingen

U maakt een gekoppelde service voor de rekenomgeving en gebruikt vervolgens de gekoppelde service bij het definiëren van een transformatieactiviteit. Er zijn twee ondersteunde typen rekenomgevingen.

On-demand: In dit geval wordt de computeromgeving volledig beheerd door de service. Deze wordt automatisch door de service gemaakt voordat een taak wordt verzonden om gegevens te verwerken en te verwijderen wanneer de taak is voltooid. U kunt gedetailleerde instellingen van de on-demand rekenomgeving configureren en beheren voor taakuitvoering, clusterbeheer en opstartacties.
Bring Your Own: In dit geval kunt u uw eigen computeromgeving (bijvoorbeeld HDInsight-cluster) registreren als een gekoppelde service. De computeromgeving wordt beheerd door u en de service gebruikt deze om de activiteiten uit te voeren.

Zie het artikel Compute Linked Services voor meer informatie over ondersteunde rekenservices.

Zie de volgende zelfstudie voor een voorbeeld van het gebruik van een transformatieactiviteit: Zelfstudie: gegevens transformeren met Spark

Feedback

Is deze pagina nuttig?

Last updated on 2026-06-03