Gegevens transformeren in Azure Data Factory en Azure Synapse Analytics

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

Belangrijk

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .

Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Zie voor meer informatie:

Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.

Overzicht

In dit artikel worden activiteiten voor gegevenstransformatie in Azure Data Factory en Synapse-pijplijnen uitgelegd die u kunt gebruiken om uw onbewerkte gegevens te transformeren en te verwerken in voorspellingen en inzichten op schaal. Een transformatieactiviteit wordt uitgevoerd in een computeromgeving, zoals Azure Databricks of Azure HDInsight. Het bevat koppelingen naar artikelen met gedetailleerde informatie over elke transformatieactiviteit.

De service ondersteunt de volgende activiteiten voor gegevenstransformatie die afzonderlijk kunnen worden toegevoegd aan pijplijnen of gekoppeld aan een andere activiteit.

Systeemeigen transformeren in Azure Data Factory en Azure Synapse Analytics met gegevensstromen

Toewijzing gegevensstromen

Toewijzingsgegevensstromen zijn visueel ontworpen gegevenstransformaties in Azure Data Factory en Azure Synapse. Met gegevensstromen kunnen data engineers grafische logica voor gegevenstransformatie ontwikkelen zonder code te schrijven. De resulterende gegevensstromen worden uitgevoerd als activiteiten binnen pijplijnen die gebruikmaken van uitgeschaalde Spark-clusters. Activiteiten voor gegevensstromen kunnen worden uitgevoerd via bestaande plannings-, controle-, stroom- en bewakingsmogelijkheden binnen de service. Zie toewijzingsgegevensstromen voor meer informatie.

Gegevens wrangling

Power Query in Azure Data Factory maakt het mogelijk om gegevens op cloudschaal te wrangling, waarmee u iteratief gegevens kunt voorbereiden zonder code. Gegevens wrangling kan worden geïntegreerd met Power Query Online en maakt Power Query M-functies beschikbaar voor gegevens die op cloudschaal worden uitgevoerd via spark-uitvoering. Zie gegevens wrangling in Azure Data Factory voor meer informatie.

Notitie

Power Query wordt momenteel alleen ondersteund in Azure Data Factory en niet in Azure Synapse. Zie Beschikbare functies in Azure Data Factory & Azure Synapse Analytics-pijplijnen voor een lijst met specifieke functies die in elke service worden ondersteund.

Externe transformaties

Desgewenst kunt u handcodetransformaties uitvoeren en de externe rekenomgeving zelf beheren.

HDInsight Hive-activiteit

Met de HDInsight Hive-activiteit in een pijplijn worden Hive-query's uitgevoerd op uw eigen of on-demand HDInsight-cluster op basis van Windows/Linux. Zie het Hive-activiteitsartikel voor meer informatie over deze activiteit.

HDInsight Pig-activiteit

Met de HDInsight Pig-activiteit in een pijplijn worden Pig-query's uitgevoerd op uw eigen of on-demand HDInsight-cluster op basis van Windows/Linux. Zie het pig-activiteitsartikel voor meer informatie over deze activiteit.

HDInsight MapReduce-activiteit

De HDInsight MapReduce-activiteit in een pijplijn voert MapReduce-programma's uit op uw eigen of on-demand Windows-/Linux-gebaseerde HDInsight-cluster. Zie het artikel over MapReduce-activiteiten voor meer informatie over deze activiteit.

HDInsight Streaming-activiteit

De HDInsight Streaming-activiteit in een pijplijn voert Hadoop Streaming-programma's uit op uw eigen of on-demand HdInsight-cluster op basis van Windows/Linux. Zie HDInsight Streaming-activiteit voor meer informatie over deze activiteit.

HDInsight Spark-activiteit

De HDInsight Spark-activiteit in een pijplijn voert Spark-programma's uit op uw eigen HDInsight-cluster. Zie Spark-programma's aanroepen met Azure Data Factory of Azure Synapse Analytics voor meer informatie.

ML Studio -activiteiten (klassiek)

Belangrijk

Ondersteuning voor Azure Machine Learning Studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden op die datum over te stappen naar Azure Machine Learning .

Vanaf 1 december 2021 kunt u geen nieuwe Machine Learning Studio-resources (klassiek) maken (werkruimte- en webserviceplan). Tot en met 31 augustus 2024 kunt u de bestaande Experimenten en webservices van Machine Learning Studio (klassiek) blijven gebruiken. Zie voor meer informatie:

Machine Learning Studio -documentatie (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet bijgewerkt.

Met de service kunt u eenvoudig pijplijnen maken die gebruikmaken van een gepubliceerde ML Studio-webservice (klassiek) voor predictive analytics. Met behulp van de batchuitvoeringsactiviteit in een pijplijn kunt u een Studio-webservice (klassiek) aanroepen om voorspellingen te doen over de gegevens in batch.

Na verloop van tijd moeten de voorspellende modellen in de scoreexperimenten van Studio (klassiek) opnieuw worden getraind met behulp van nieuwe invoergegevenssets. Nadat u klaar bent met opnieuw trainen, wilt u de scorewebservice bijwerken met het opnieuw getrainde machine learning-model. U kunt de activiteit Resource bijwerken gebruiken om de webservice bij te werken met het zojuist getrainde model.

Zie ML Studio-activiteiten (klassiek) gebruiken voor meer informatie over deze Studio-activiteiten (klassiek).

Opgeslagen procedureactiviteit

U kunt de activiteit Opgeslagen procedure van SQL Server in een Data Factory-pijplijn gebruiken om een opgeslagen procedure aan te roepen in een van de volgende gegevensarchieven: Azure SQL Database, Azure Synapse Analytics, SQL Server Database in uw onderneming of een Azure-VM. Zie het artikel over opgeslagen procedureactiviteit voor meer informatie.

Data Lake Analytics U-SQL-activiteit

Data Lake Analytics U-SQL-activiteit voert een U-SQL-script uit op een Azure Data Lake Analytics-cluster. Zie het artikel over Data Analytics U-SQL-activiteiten voor meer informatie.

Azure Synapse Notebook-activiteit

De Azure Synapse Notebook-activiteit in een Synapse-pijplijn voert een Synapse-notebook uit in uw Azure Synapse-werkruimte. Zie Gegevens transformeren door een Azure Synapse-notebook uit te voeren.

Databricks Notebook-activiteit

Met de Azure Databricks Notebook-activiteit in een pijplijn wordt een Databricks-notebook uitgevoerd in uw Azure Databricks-werkruimte. Azure Databricks is een beheerd platform voor het uitvoeren van Apache Spark. Zie Gegevens transformeren door een Databricks-notebook uit te voeren.

Databricks Jar-activiteit

De Azure Databricks Jar-activiteit in een pijplijn voert een Spark Jar uit in uw Azure Databricks-cluster. Azure Databricks is een beheerd platform voor het uitvoeren van Apache Spark. Zie Gegevens transformeren door een Jar-activiteit uit te voeren in Azure Databricks.

Databricks Python-activiteit

De Python-activiteit van Azure Databricks in een pijplijn voert een Python-bestand uit in uw Azure Databricks-cluster. Azure Databricks is een beheerd platform voor het uitvoeren van Apache Spark. Zie Gegevens transformeren door een Python-activiteit uit te voeren in Azure Databricks.

Aangepaste activiteit

Als u gegevens wilt transformeren op een manier die niet wordt ondersteund door Data Factory, kunt u een aangepaste activiteit maken met uw eigen logica voor gegevensverwerking en de activiteit in de pijplijn gebruiken. U kunt de aangepaste .NET-activiteit configureren voor uitvoering met behulp van een Azure Batch-service of een Azure HDInsight-cluster. Zie het artikel Aangepaste activiteiten gebruiken voor meer informatie.

U kunt een aangepaste activiteit maken om R-scripts uit te voeren op uw HDInsight-cluster waarop R is geïnstalleerd. Zie R-script uitvoeren met behulp van Azure Data Factory- en Synapse-pijplijnen.

Compute-omgevingen

U maakt een gekoppelde service voor de rekenomgeving en gebruikt vervolgens de gekoppelde service bij het definiëren van een transformatieactiviteit. Er zijn twee ondersteunde typen rekenomgevingen.

  • On-demand: In dit geval wordt de computeromgeving volledig beheerd door de service. Deze wordt automatisch door de service gemaakt voordat een taak wordt verzonden om gegevens te verwerken en te verwijderen wanneer de taak is voltooid. U kunt gedetailleerde instellingen van de on-demand rekenomgeving configureren en beheren voor taakuitvoering, clusterbeheer en opstartacties.
  • Bring Your Own: In dit geval kunt u uw eigen computeromgeving (bijvoorbeeld HDInsight-cluster) registreren als een gekoppelde service. De computeromgeving wordt beheerd door u en de service gebruikt deze om de activiteiten uit te voeren.

Zie het artikel Linked Services voor Compute voor meer informatie over ondersteunde rekenservices.

Zie de volgende zelfstudie voor een voorbeeld van het gebruik van een transformatieactiviteit: Zelfstudie: gegevens transformeren met Spark