Delen via


Gegevens transformeren in Azure Data Factory en Azure Synapse Analytics

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Belangrijk

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .

Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Zie voor meer informatie:

Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.

Overzicht

In dit artikel worden activiteiten voor gegevenstransformatie in Azure Data Factory en Synapse-pijplijnen uitgelegd die u kunt gebruiken om uw onbewerkte gegevens te transformeren en te verwerken in voorspellingen en inzichten op schaal. Een transformatieactiviteit wordt uitgevoerd in een computeromgeving, zoals Azure Databricks of Azure HDInsight. Het bevat koppelingen naar artikelen met gedetailleerde informatie over elke transformatieactiviteit.

De service ondersteunt de volgende activiteiten voor gegevenstransformatie die afzonderlijk kunnen worden toegevoegd aan pijplijnen of gekoppeld aan een andere activiteit.

Systeemeigen transformeren in Azure Data Factory en Azure Synapse Analytics met gegevensstromen

Het in kaart brengen van gegevensstromen

Mappinggegevensstromen zijn visueel ontworpen gegevenstransformaties in Azure Data Factory en Azure Synapse. Met gegevensstromen kunnen data engineers grafische logica voor gegevenstransformatie ontwikkelen zonder code te schrijven. De resulterende gegevensstromen worden uitgevoerd als activiteiten binnen pijplijnen die gebruikmaken van uitgeschaalde Spark-clusters. Activiteiten voor gegevensstromen kunnen worden uitgevoerd via bestaande plannings-, controle-, stroom- en bewakingsmogelijkheden binnen de service. Voor meer informatie, zie gegevensstromen toewijzen.

Gegevens omvormen

Power Query in Azure Data Factory maakt het mogelijk om gegevens op cloudschaal te ontwarren, waarmee u iteratief codevrije gegevensvoorbereiding kunt doen. Gegevenswrangling integreert met Power Query Online en maakt Power Query M-functies beschikbaar voor gegevenswrangling op cloudschaal via Spark-uitvoering. Voor meer informatie, zie gegevens wrangling in Azure Data Factory.

Notitie

Power Query wordt momenteel alleen ondersteund in Azure Data Factory en niet in Azure Synapse. Zie Beschikbare functies in Azure Data Factory & Azure Synapse Analytics-pijplijnen voor een lijst met specifieke functies die in elke service worden ondersteund.

Externe transformaties

Desgewenst kunt u handcodetransformaties uitvoeren en de externe rekenomgeving zelf beheren.

HDInsight Hive-activiteit

Met de HDInsight Hive-activiteit in een pijplijn worden Hive-query's uitgevoerd op uw eigen of on-demand HDInsight-cluster op basis van Windows/Linux. Zie het Hive-activiteitsartikel voor meer informatie over deze activiteit.

HDInsight Pig-activiteit

Met de HDInsight Pig activiteit in een pijplijn worden Pig-query's uitgevoerd op uw eigen Windows/Linux-gebaseerde HDInsight-cluster of een on-demand cluster. Zie Pig-activiteit artikel voor meer informatie over deze activiteit.

HDInsight MapReduce-activiteit

De HDInsight MapReduce-activiteit in een pijplijn voert MapReduce-programma's uit op uw eigen of on-demand Windows-/Linux-gebaseerde HDInsight-cluster. Zie het artikel over MapReduce-activiteiten voor meer informatie over deze activiteit.

HDInsight Streaming-activiteit

De HDInsight Streaming-activiteit in een pijplijn voert Hadoop Streaming-programma's uit op uw eigen of on-demand HdInsight-cluster op basis van Windows/Linux. Zie HDInsight Streaming-activiteit voor meer informatie over deze activiteit.

HDInsight Spark-activiteit

De HDInsight Spark-activiteit in een pijplijn voert Spark-programma's uit op uw eigen HDInsight-cluster. Zie Spark-programma's aanroepen met Azure Data Factory of Azure Synapse Analytics voor meer informatie.

ML Studio (klassieke) activiteiten

Belangrijk

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .

Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Zie voor meer informatie:

Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.

Met de service kunt u eenvoudig pijplijnen maken die gebruikmaken van een gepubliceerde ML Studio-webservice (klassiek) voor predictive analytics. Met behulp van de batchuitvoeringsactiviteit in een pijplijn kunt u een Studio-webservice (klassiek) aanroepen om voorspellingen te doen over de gegevens in batch.

Na verloop van tijd moeten de voorspellende modellen in de scoreexperimenten van Studio (klassiek) opnieuw worden getraind met behulp van nieuwe invoergegevenssets. Nadat u klaar bent met opnieuw trainen, wilt u de scorewebservice bijwerken met het opnieuw getrainde machine learning-model. U kunt de Resource bijwerken-activiteit gebruiken om de webservice bij te werken met het pas getrainde model.

Zie Gebruik van ML Studio-activiteiten (klassiek) voor meer informatie over deze Studio-activiteiten (klassiek).

Opgeslagen procedureactiviteit

U kunt de activiteit Opgeslagen procedure van SQL Server in een Data Factory-pijplijn gebruiken om een opgeslagen procedure aan te roepen in een van de volgende gegevensarchieven: Azure SQL Database, Azure Synapse Analytics, SQL Server Database in uw onderneming of een Azure-VM. Zie het artikel over opgeslagen procedureactiviteit voor meer informatie.

Data Lake Analytics U-SQL-activiteit

Data Lake Analytics U-SQL-activiteit voert een U-SQL-script uit op een Azure Data Lake Analytics-cluster. Zie het artikel over Data Analytics U-SQL-activiteiten voor meer informatie.

Azure Synapse Notebook-activiteit

De Azure Synapse Notebook-activiteit in een Synapse-pijplijn voert een Synapse-notebook uit in uw Azure Synapse-werkruimte. Zie Gegevens transformeren door een Azure Synapse-notebook uit te voeren.

Databricks Notebook-activiteit

De Azure Databricks Notebook-activiteit in een pijplijn voert een Databricks-notebook uit in uw Azure Databricks-werkruimte. Azure Databricks is een beheerd platform voor het uitvoeren van Apache Spark. Zie Gegevens transformeren door een Databricks-notebook uit te voeren.

Databricks Jar-activiteit

De Azure Databricks Jar-activiteit in een pijplijn voert een Spark Jar uit in uw Azure Databricks-cluster. Azure Databricks is een beheerd platform voor het uitvoeren van Apache Spark. Zie Gegevens transformeren door een Jar-activiteit uit te voeren in Azure Databricks.

Databricks Python-activiteit

De Python-activiteit van Azure Databricks in een pijplijn voert een Python-bestand uit in uw Azure Databricks-cluster. Azure Databricks is een beheerd platform voor het uitvoeren van Apache Spark. Zie Gegevens transformeren door een Python-activiteit uit te voeren in Azure Databricks.

Aangepaste activiteit

Als u gegevens wilt transformeren op een manier die niet wordt ondersteund door Data Factory, kunt u een aangepaste activiteit maken met uw eigen logica voor gegevensverwerking en de activiteit in de pijplijn gebruiken. U kunt de aangepaste .NET-activiteit configureren voor uitvoering met behulp van een Azure Batch-service of een Azure HDInsight-cluster. Zie het artikel Aangepaste activiteiten gebruiken voor meer informatie.

U kunt een aangepaste activiteit maken om R-scripts uit te voeren op uw HDInsight-cluster waarop R is geïnstalleerd. Zie R-script uitvoeren met behulp van Azure Data Factory- en Synapse-pijplijnen.

Compute-omgevingen

U maakt een gekoppelde service voor de rekenomgeving en gebruikt vervolgens de gekoppelde service bij het definiëren van een transformatieactiviteit. Er zijn twee ondersteunde typen rekenomgevingen.

  • On-demand: In dit geval wordt de computeromgeving volledig beheerd door de service. Deze wordt automatisch door de service gemaakt voordat een taak wordt verzonden om gegevens te verwerken en te verwijderen wanneer de taak is voltooid. U kunt gedetailleerde instellingen van de on-demand rekenomgeving configureren en beheren voor taakuitvoering, clusterbeheer en opstartacties.
  • Bring Your Own: In dit geval kunt u uw eigen computeromgeving (bijvoorbeeld HDInsight-cluster) registreren als een gekoppelde service. De computeromgeving wordt beheerd door u en de service gebruikt deze om de activiteiten uit te voeren.

Zie het artikel Compute Linked Services voor meer informatie over ondersteunde rekenservices.

Zie de volgende zelfstudie voor een voorbeeld van het gebruik van een transformatieactiviteit: Zelfstudie: gegevens transformeren met Spark