Trasformare i dati eseguendo un notebook di Synapse

Articolo
07/04/2024

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutto, dallo spostamento dati al data science, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Vedere le informazioni su come iniziare una nuova prova gratuita!

L'attività Notebook di Azure Synapse in una pipeline esegue un notebook di Synapse nell'area di lavoro di Azure Synapse Analytics. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.

È possibile creare un'attività Notebook di Azure Synapse Analytics direttamente tramite l'interfaccia utente di Azure Data Factory Studio. Per una procedura dettagliata su come creare un'attività Notebook di Synapse usando l'interfaccia utente, è possibile vedere quanto segue.

Aggiungere un'attività Notebook per Synapse a una pipeline con l'interfaccia utente

Per usare un'attività Notebook per Synapse in una pipeline, seguire questa procedura:

Impostazioni generali

Cercare Notebook nel riquadro Attività della pipeline e trascinare un'attività Notebook in Synapse nell'area di disegno della pipeline.
Selezionare la nuova attività Notebook nell'area di disegno, se non è già selezionata.
Nelle impostazioni Generali immettere l'esempio per Nome.
(Facoltativo) È anche possibile immettere una descrizione.
Timeout: tempo massimo di esecuzione di un'attività. Il valore predefinito è 12 ore e la quantità massima di tempo consentita è di 7 giorni. Il formato è in D.HH:MM:SS.
Retry: il numero massimo di tentativi.
Intervallo tentativi (sec): numero di secondi tra ogni tentativo.
Output sicuro: quando selezionato, l'output dell'attività non verrà acquisito nella registrazione.
Input sicuro: se selezionato, l'input dell'attività non verrà acquisito nella registrazione.

Impostazioni di Azure Synapse Analytics (Artifacts)

Selezionare la scheda Azure Synapse Analytics (Artifacts) per selezionare o creare un nuovo Servizio collegato di Azure Synapse Analytics che eseguirà l'attività Notebook.

Scheda Impostazioni

Selezionare la nuova attività Notebook di Synapse nell'area di disegno, se non è già selezionata.
Seleziona la scheda Impostazioni.
Espandere l'elenco Notebook. È possibile selezionare un notebook esistente nel servizio Azure Synapse Analytics (Artifacts) collegato.
Fare clic sul pulsante Apri per aprire la pagina del servizio collegato in cui si trova il notebook selezionato.

Nota

Se l'ID risorsa dell'area di lavoro nel servizio collegato è vuoto, il pulsante Apri verrà disabilitato.

Selezionare la scheda Impostazioni e scegliere il notebook e i parametri di base facoltativi da passare al notebook.

(Facoltativo) È possibile inserire informazioni per il notebook di Synapse. Se le impostazioni seguenti sono vuote, le impostazioni del notebook di Synapse stesso verranno usate per l'esecuzione. Se le impostazioni seguenti non sono vuote, queste impostazioni sostituiranno le impostazioni della definizione del notebook di Synapse stesso.

Proprietà	Descrizione
Pool Spark	Riferimento al pool di Spark. È possibile selezionare il pool di Apache Spark dall'elenco.
Dimensioni executor	Numero di core e memoria da usare per gli executor allocati nel pool di Apache Spark specificato per la sessione. Per il contenuto dinamico, i valori validi sono Small/Medium/Large/XLarge/XXLarge.
Allocare dinamicamente gli executor	Questa impostazione esegue il mapping alla proprietà di allocazione dinamica nella configurazione Spark per l'allocazione degli executor dell'applicazione Spark.
Numero minimo di executor	Numero minimo di executor da allocare nel pool di Spark specificato per il processo.
Numero massimo di executor	Numero massimo di executor da allocare nel pool di Spark specificato per il processo.
Dimensioni driver	Numero di core e memoria da usare per il driver indicato nel pool di Apache Spark specificato per il processo.

Definizione dell'attività Notebook di Azure Synapse Analytics

Ecco la definizione JSON di esempio di un'attività Notebook di Azure Synapse Analytics:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Proprietà dell'attività Notebook di Azure Synapse Analytics

La tabella seguente fornisce le descrizioni delle proprietà JSON usate nella definizione JSON:

Proprietà	Descrizione	Richiesto
name	Nome dell'attività nella pipeline.	Sì
description	Testo che descrive l'attività.	No
type	Per l'attività Notebook di Azure Synapse Analytics, il tipo di attività è SynapseNotebook.	Sì
notebook	Nome del notebook da eseguire in Azure Synapse Analytics.	Sì
sparkPool	Pool di Spark necessario per eseguire il notebook di Azure Synapse Analytics.	No
parameter	Parametro necessario per eseguire il notebook di Azure Synapse Analytics. Per altre informazioni, vedere Trasformare i dati eseguendo un notebook di Synapse	No

Designare una cella di parametri

Azure Data Factory cerca la cella di parametri e usa i valori come valori predefiniti per i parametri passati in fase di esecuzione. Il motore di esecuzione aggiungerà una nuova cella sotto la cella di parametri con i parametri di input per sovrascrivere i valori predefiniti. È possibile fare riferimento a Trasformare i dati eseguendo un notebook di Synapse.

Leggere il valore di output della cella del notebook di Synapse

Per questo pannello è possibile leggere il valore di output della cella del notebook. Vedere Trasformare i dati eseguendo un notebook di Synapse.

Eseguire un altro notebook di Synapse

È possibile fare riferimento ad altri notebook in un'attività del notebook di Synapse chiamando %run magic o le utilità per notebook mssparkutils. Entrambi supportano l'annidamento delle chiamate di funzione. Le differenze principali di questi due metodi da considerare in base allo scenario sono:

%run magic copia tutte le celle dal notebook di riferimento alla cella %run e condivide il contesto della variabile. Quando notebook1 fa riferimento a notebook2 tramite %run notebook2 e notebook2 chiama una funzione mssparkutils.notebook.exit, l'esecuzione della cella in notebook1 verrà arrestata. È consigliabile usare %run magic quando si vuole "includere" un file di notebook.
Le utilità per notebook mssparkutils chiamano il notebook di riferimento come metodo o funzione. Il contesto della variabile non è condiviso. Quando notebook1 fa riferimento a notebook2 tramite mssparkutils.notebook.run("notebook2") e notebook2 chiama una funzione mssparkutils.notebook.exit, l'esecuzione della cella in notebook1 continuerà. È consigliabile usare le utilità per notebook mssparkutils quando si vuole "importare" un notebook.

Vedere Cronologia di esecuzione delle attività Notebook di Azure Synapse Analytics

Passare a Esecuzioni della pipeline nella scheda Monitoraggio per visualizzare la pipeline attivata. Aprire la pipeline contenente l'attività del notebook per visualizzare la cronologia di esecuzione.

Per Apri snapshot del notebook, questa funzionalità non è attualmente supportata.

È possibile visualizzare l'input o l'output dell'attività del notebook selezionando il pulsante Input o Output. Se la pipeline non è riuscita a causa di un errore utente, selezionare l'output per controllare il campo del risultato e visualizzare il traceback dettagliato dell'errore utente.

Condividi tramite