Trasformare i dati in Azure Data Factory e Azure Synapse Analytics

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1 dicembre 2021, non sarà possibile creare nuove risorse Machine Learning Studio (versione classica) (area di lavoro e piano di servizio Web). Fino al 31 agosto 2024, è possibile continuare a usare gli esperimenti di Machine Learning Studio esistenti (versione classica) e i servizi Web.

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Panoramica

Questo articolo illustra le attività di trasformazione dei dati nelle pipeline di Azure Data Factory e Synapse che è possibile usare per trasformare ed elaborare i dati non elaborati in stime e informazioni dettagliate su larga scala. Un'attività di trasformazione viene eseguita in un ambiente di calcolo, ad esempio Azure Databricks o Azure HDInsight. Vengono forniti i collegamenti ad articoli con informazioni dettagliate su ciascuna attività di trasformazione.

Il servizio supporta le seguenti attività di trasformazione dei dati che possono essere aggiunte alle pipeline singolarmente o concatenati con un'altra attività.

Trasformare in modo nativo in Azure Data Factory e Azure Synapse Analytics con i flussi di dati

Flussi di dati di mapping

I flussi di dati di mapping sono trasformazioni di dati progettate visivamente in Azure Data Factory e Azure Synapse. I flussi di dati consentono ai data engineer di sviluppare la logica di trasformazione dati grafica senza scrivere codice. I flussi di dati risultanti vengono eseguiti come attività all'interno di pipeline che usano cluster Spark con scalabilità orizzontale. Le attività del flusso di dati possono essere operative tramite le funzionalità di pianificazione, controllo, flusso e monitoraggio esistenti all'interno del servizio. Per altre informazioni, vedere Mapping dei flussi di dati.

Data wrangling

Power Query in Azure Data Factory consente il wrangling dei dati su scala cloud, che consente di eseguire la preparazione dei dati senza codice a livello di cloud in modo iterativo. Il wrangling dei dati si integra con Power Query Online e rende Power Query funzioni M disponibili per il wrangling dei dati su scala cloud tramite l'esecuzione spark. Per altre informazioni, vedere Data wrangling in Azure Data Factory.

Nota

Power Query è attualmente supportato solo in Azure Data Factory e non in Azure Synapse. Per un elenco di funzionalità specifiche supportate in ogni servizio, vedere Funzionalità disponibili in Azure Data Factory pipeline di analisi Azure Synapse&.

Trasformazioni esterne

Facoltativamente, è possibile trasformare manualmente il codice e gestire autonomamente l'ambiente di calcolo esterno.

Attività Hive di HDInsight

L'attività Hive di HDInsight in una pipeline esegue query Hive sul cluster HDInsight personalizzato o su richiesta Windows/Linux. Per i dettagli su questa attività, vedere l'articolo Attività Hive.

Attività Pig di HDInsight

L'attività HDInsight Pig in una pipeline esegue query Pig sul cluster HDInsight personalizzato o su richiesta Windows/Linux. Per i dettagli su questa attività, vedere l'articolo Attività Pig.

Attività MapReduce di HDInsight

L'attività di MapReduce HDInsight in una pipeline esegue programmi MapReduce personalizzati o su richiesta Windows/cluster HDInsight basato su Linux. Per i dettagli su questa attività, vedere l'articolo Attività MapReduce.

Attività di streaming di HDInsight

L'attività di streaming HDInsight in una pipeline esegue programmi di streaming Hadoop personalizzati o su richiesta Windows/cluster HDInsight basato su Linux. Vedere l' attività di streaming di HDInsight per i dettagli.

Attività HDInsight Spark

L'attività HDInsight Spark in una pipeline esegue programmi Spark nel proprio cluster HDInsight. Per informazioni dettagliate, vedere Richiamare programmi Spark con Azure Data Factory o Azure Synapse Analytics.

attività ML Studio (versione classica)

Importante

Il supporto dello studio di Azure Machine Learning (versione classica) terminerà il 31 agosto 2024. È consigliabile passare ad Azure Machine Learning entro tale data.

A partire dal 1 dicembre 2021, non sarà possibile creare nuove risorse Machine Learning Studio (versione classica) (area di lavoro e piano di servizio Web). Fino al 31 agosto 2024, è possibile continuare a usare gli esperimenti di Machine Learning Studio esistenti (versione classica) e i servizi Web.

La documentazione relativa allo studio di Machine Learning (versione classica) è in fase di ritiro e potrebbe non essere aggiornata in futuro.

Il servizio consente di creare facilmente pipeline che usano un servizio Web pubblicato ML Studio (versione classica) per l'analisi predittiva. Usando l'attività Esecuzione batch in una pipeline, è possibile richiamare un servizio Web Studio (versione classica) per effettuare stime sui dati in batch.

Nel corso del tempo, i modelli predittivi negli esperimenti di assegnazione dei punteggi (versione classica) devono essere riabilitati usando nuovi set di dati di input. Dopo aver eseguito il training, si vuole aggiornare il servizio Web di assegnazione dei punteggi con il modello di Machine Learning riqualicato. È possibile usare l'attività Aggiorna risorsa per aggiornare il servizio Web con il nuovo modello con training.

Per informazioni dettagliate su queste attività di Studio (versione classica), vedere Usare le attività di ML Studio (versione classica).

Attività stored procedure

È possibile usare l'attività stored procedure SQL Server in una pipeline di Data Factory per richiamare una stored procedure in uno degli archivi dati seguenti: database SQL di Azure, Azure Synapse Analytics, SQL Server Database nell'organizzazione o in una macchina virtuale di Azure. Per i dettagli, vedere l'articolo Attività stored procedure.

Attività U-SQL di Data Lake Analytics

L'attività U-SQL di Data Lake Analytics esegue uno script U-SQL in un cluster Azure Data Lake Analytics. Per i dettagli, vedere l'articolo Attività U-SQL di Analisi dei dati.

attività Azure Synapse Notebook

L'attività del notebook Azure Synapse in una pipeline di Synapse esegue un notebook Synapse nell'area di lavoro Azure Synapse. Vedere Trasformare i dati eseguendo un notebook di Azure Synapse.

Attività dei notebook di Databricks

L'attività notebook di Azure Databricks in una pipeline esegue un notebook di Databricks nell'area di lavoro di Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un notebook di Databricks.

Attività JAR di Databricks

L'attività Jar di Azure Databricks in una pipeline esegue un file Jar Spark nel cluster Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un'attività JAR in Azure Databricks.

Attività Python di Databricks

L'attività Python di Azure Databricks in una pipeline esegue un file Python nel cluster Azure Databricks. Azure Databricks è una piattaforma gestita per l'esecuzione di Apache Spark. Vedere Trasformare i dati eseguendo un'attività Python in Azure Databricks.

Attività personalizzata

Se è necessario trasformare i dati in una modalità non supportata da Data Factory, è possibile creare un'attività personalizzata contenente la logica di elaborazione dei dati richiesta e usarla nella pipeline. È possibile configurare l'attività .NET personalizzata da eseguire usando il servizio Azure Batch o un cluster Azure HDInsight. Vedere l'articolo Usare le attività personalizzate per i dettagli.

È possibile creare un'attività personalizzata per eseguire gli script R nel cluster HDInsight con R installato. Vedere Eseguire script R usando Azure Data Factory e pipeline synapse.

Ambienti di calcolo

Creare un servizio collegato per l'ambiente di calcolo e quindi usare il servizio collegato quando si definisce un'attività di trasformazione. Esistono due tipi supportati di ambienti di calcolo.

  • On Demand: in questo caso, l'ambiente di calcolo è completamente gestito dal servizio. Viene creato automaticamente dal servizio prima che un processo venga inviato ai dati di elaborazione e rimosso al termine del processo. È possibile configurare e controllare le impostazioni granulari dell'ambiente di elaborazione su richiesta per l'esecuzione del processo, la gestione del cluster e azioni di avvio automatico.
  • Bring Your Own: in questo caso, è possibile registrare un ambiente di calcolo personalizzato (ad esempio cluster HDInsight) come servizio collegato. L'ambiente di calcolo viene gestito dall'utente e il servizio lo usa per eseguire le attività.

Per informazioni sui servizi di calcolo supportati, vedere l'articolo Servizi collegati di calcolo .

Passaggi successivi

Per un esempio di uso di un'attività di trasformazione, vedere l'esercitazione seguente: Tutorial: transform data using Spark (Esercitazione: Trasformare dati tramite Spark)