Trasformare i dati eseguendo un notebook synapse

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi all-in-one per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

L'attività notebook Azure Synapse in una pipeline esegue un notebook Synapse nell'area di lavoro Azure Synapse Analytics. Questo articolo si basa sull'articolo relativo alle attività di trasformazione dei dati che presenta una panoramica generale della trasformazione dei dati e le attività di trasformazione supportate.

È possibile creare un'attività notebook di Azure Synapse Analytics direttamente tramite l'interfaccia utente di Azure Data Factory Studio. Per una procedura dettagliata su come creare un'attività notebook di Synapse usando l'interfaccia utente, è possibile fare riferimento alle informazioni seguenti.

Aggiungere un'attività notebook per Synapse a una pipeline con l'interfaccia utente

Per usare un'attività Notebook per Synapse in una pipeline, seguire questa procedura:

Impostazioni generali

  1. Cercare Notebook nel riquadro Attività pipeline e trascinare un'attività Notebook sotto Synapse nell'area di disegno della pipeline.
  2. Selezionare la nuova attività Notebook nell'area di disegno, se non è già selezionata.
  3. Nelle impostazioni Generale immettere l'esempio per Nome.
  4. (Opzione) È anche possibile immettere una descrizione.
  5. Timeout: tempo massimo di esecuzione di un'attività. Il valore predefinito è 12 ore e la quantità massima di tempo consentita è 7 giorni. Il formato è in D.HH:MM:SS.
  6. Nuovo tentativo: numero massimo di tentativi.
  7. Intervallo tra tentativi (sec): numero di secondi tra ogni tentativo di ripetizione.
  8. Output sicuro: se selezionato, l'output dell'attività non verrà acquisito nella registrazione.
  9. Input sicuro: numero di secondi tra ogni tentativo di ripetizione

impostazioni di Azure Synapse Analytics (artefatti)

Selezionare la scheda Azure Synapse Analytics (Artefatti) per selezionare o creare un nuovo servizio collegato Azure Synapse Analytics che eseguirà l'attività Notebook.

Screenshot della scheda servizio collegato per un'attività notebook.

Scheda Settings

  1. Selezionare la nuova attività di Synapse Notebook nell'area di disegno, se non è già selezionata.

  2. Selezionare la scheda Impostazioni.

  3. Espandere l'elenco Notebook ed è possibile selezionare un notebook esistente nel Azure Synapse Analytics collegato (Artefatti).

  4. Fare clic sul pulsante Apri per aprire la pagina del servizio collegato in cui si trova il notebook selezionato.

Nota

Se l'ID risorsa area di lavoro nel servizio collegato è vuoto, il pulsante Apri verrà disabilitato.

Screenshot del pulsante apri disabilitato.

  1. Selezionare la scheda Impostazioni e scegliere il notebook e i parametri di base facoltativi da passare al notebook.

    Screenshot della scheda Impostazioni per un'attività notebook.

  2. (Facoltativo) È possibile compilare le informazioni per synapse notebook. Se le impostazioni seguenti sono vuote, le impostazioni del notebook Synapse verranno usate per l'esecuzione; se le impostazioni seguenti non sono vuote, queste impostazioni sostituiranno le impostazioni del notebook synapse stesso.

    Proprietà Descrizione
    Pool Spark Riferimento al pool di Spark. È possibile selezionare il pool di Apache Spark nell'elenco.
    Dimensioni executor Numero di core e memoria da usare per gli executor allocati nel pool di Apache Spark specificato per la sessione. Per il contenuto dinamico, i valori validi sono Small/Medium/Large/XLarge/XXLarge.
    Allocare dinamicamente executor Questa impostazione esegue il mapping alla proprietà di allocazione dinamica nella configurazione di Spark per l'allocazione degli executor dell'applicazione Spark.
    Executor min Numero minimo di executor da allocare nel pool di Spark specificato per il processo.
    Numero massimo di executor Numero massimo di executor da allocare nel pool di Spark specificato per il processo.
    Dimensioni driver Numero di core e memoria da usare per il driver indicato nel pool di Apache Spark specificato per il processo.

definizione dell'attività notebook di Azure Synapse Analytics

Ecco la definizione JSON di esempio di un'attività notebook di Azure Synapse Analytics:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

proprietà dell'attività notebook di Azure Synapse Analytics

La tabella seguente fornisce le descrizioni delle proprietà JSON usate nella definizione JSON:

Proprietà Descrizione Obbligatoria
name Nome dell'attività nella pipeline.
description Testo che descrive l'attività. No
type Per Azure Synapse Analytics Notebook Activity, il tipo di attività è SynapseNotebook.
notebook Nome del notebook da eseguire nel Azure Synapse Analytics.
sparkPool Il pool di spark necessario per eseguire Azure Synapse Notebook di Analytics. No
parametro Parametro necessario per eseguire Azure Synapse Notebook di Analytics. Per altre informazioni, vedere Trasformare i dati eseguendo un notebook synapse No

Designare una cella di parametri

Azure Data Factory cerca la cella dei parametri e usa i valori come valori predefiniti per i parametri passati in fase di esecuzione. Il motore di esecuzione aggiungerà una nuova cella sotto la cella di parametri con i parametri di input per sovrascrivere i valori predefiniti. È possibile fare riferimento a Trasformare i dati eseguendo un notebook synapse.

Leggere il valore di output della cella del notebook Synapse

È possibile leggere il valore di output della cella del notebook nell'attività. Per questo pannello, è possibile fare riferimento a Trasformare i dati eseguendo un notebook Synapse.

Eseguire un altro notebook synapse

È possibile fare riferimento ad altri notebook in un'attività del notebook Synapse chiamando %run magic o le utilità notebook mssparkutils. Entrambi supportano le chiamate di funzione di annidamento. Le differenze principali di questi due metodi da considerare in base allo scenario sono:

  • %run magic copia tutte le celle dal notebook di riferimento alla cella %run e condivide il contesto della variabile. Quando notebook1 fa riferimento a notebook2 tramite %run notebook2 e notebook2 chiama una funzione mssparkutils.notebook.exit , l'esecuzione della cella in notebook1 verrà arrestata. È consigliabile usare %run magic quando si vuole "includere" un file del notebook.
  • Le utilità notebook mssparkutils chiamano il notebook a cui si fa riferimento come metodo o funzione. Il contesto della variabile non è condiviso. Quando notebook1 fa riferimento a notebook2 tramite mssparkutils.notebook.run("notebook2") e notebook2 chiama una funzione mssparkutils.notebook.exit , l'esecuzione della cella in notebook1 continuerà. È consigliabile usare le utilità notebook mssparkutils quando si vuole "importare" un notebook.

Vedere la cronologia delle esecuzioni delle attività del notebook di Analisi Azure Synapse

Passare a Esecuzioni pipeline nella scheda Monitoraggio . Verrà visualizzata la pipeline attivata. Aprire la pipeline contenente l'attività del notebook per visualizzare la cronologia di esecuzione.

Screenshot dell'input e dell'output per un'attività notebook.

Per Apri snapshot del notebook, questa funzionalità non è attualmente supportata.

È possibile visualizzare l'input o l'output dell'attività del notebook selezionando il pulsante input o Output. Se la pipeline non è riuscita con un errore dell'utente, selezionare l'output per controllare il campo dei risultati per visualizzare il traceback dettagliato degli errori dell'utente.

Screenshot dell'errore dell'utente di output per un'attività del notebook.