Condividi tramite


Creare e gestire definizioni di processi Apache Spark in Visual Studio Code

L'estensione Visual Studio (VS) Code per Synapse supporta completamente le operazioni di definizione del processo Spark (creazione, aggiornamento, lettura ed eliminazione) di Spark in Fabric. Dopo aver creato una definizione di processo Spark, è possibile caricare più librerie di riferimento, inviare una richiesta per eseguire la definizione del processo Spark e controllare la cronologia di esecuzione.

Creare una definizione di processo Spark

Per creare una nuova definizione di processo Spark:

  1. In Visual Studio Code Explorer selezionare l'opzione Crea definizione processo Spark.

    Screenshot di Visual Studio Code Explorer, che mostra dove selezionare l'opzione Crea definizione processo Spark.

  2. Immettere i campi obbligatori iniziali: nome, lakehouse di riferimento e lakehouse predefinito.

  3. I processi di richiesta e il nome della definizione del processo Spark appena creato vengono visualizzati nel nodo radice Definizione processo Spark in Esplora risorse di Visual Studio Code. Nel nodo del nome della definizione del processo Spark vengono visualizzati tre sottonodi:

    • File: elenco del file di definizione principale e di altre librerie a cui si fa riferimento. È possibile caricare nuovi file da questo elenco.
    • Lakehouse: elenco di tutti i lakehouse a cui fa riferimento questa definizione di processo Spark. Il lakehouse predefinito è contrassegnato nell'elenco ed è possibile accedervi tramite il percorso Files/…, Tables/…relativo .
    • Esegui: elenco della cronologia di esecuzione di questa definizione del processo Spark e dello stato di ogni esecuzione.

Caricare un file di definizione principale in una libreria di riferimento

Per caricare o sovrascrivere il file di definizione principale, selezionare l'opzione Aggiungi file principale.

Screenshot di Visual Studio Code Explorer, che mostra dove selezionare l'opzione Aggiungi file principale.

Per caricare il file di libreria a cui fa riferimento il file di definizione principale, selezionare l'opzione Aggiungi file lib.

Screenshot che mostra il pulsante carica lib.

Dopo aver caricato un file, è possibile eseguirne l'override facendo clic sull'opzione Aggiorna file e caricando un nuovo file oppure è possibile eliminare il file tramite l'opzione Elimina .

Screenshot di Visual Studio Code Explorer, che mostra dove trovare le opzioni Aggiorna file ed Elimina.

Inviare una richiesta di esecuzione

Per inviare una richiesta per eseguire la definizione del processo Spark da VS Code:

  1. Dalle opzioni a destra del nome della definizione del processo Spark che si vuole eseguire, selezionare l'opzione Esegui processo Spark .

    Screenshot di Visual Studio Code Explorer, che mostra dove selezionare Esegui processo Spark.

  2. Dopo aver inviato la richiesta, viene visualizzata una nuova applicazione Apache Spark nel nodo Esecuzioni nell'elenco Esplora risorse. È possibile annullare il processo in esecuzione selezionando l'opzione Annulla processo Spark .

    Screenshot di Visual Studio Code Explorer con la nuova applicazione Spark elencata nel nodo Esecuzioni e che mostra dove trovare l'opzione Annulla processo Spark.

Aprire una definizione di processo Spark nel portale di Fabric

È possibile aprire la pagina di creazione della definizione del processo Spark nel portale di Infrastruttura selezionando l'opzione Apri nel browser .

È anche possibile selezionare Apri nel browser accanto a un'esecuzione completata per visualizzare la pagina di monitoraggio dei dettagli dell'esecuzione.

Screenshot di Visual Studio Code Explorer, che mostra dove selezionare l'opzione Apri nel browser.

Eseguire il debug del codice sorgente della definizione del processo Spark (Python)

Se la definizione del processo Spark viene creata con PySpark (Python), è possibile scaricare lo script .py del file di definizione principale e del file di riferimento ed eseguire il debug dello script di origine in VS Code.

  1. Per scaricare il codice sorgente, selezionare l'opzione Debug definizione processo Spark a destra della definizione del processo Spark.

    Screenshot che mostra il pulsante di origine del download.

  2. Al termine del download, viene aperta automaticamente la cartella del codice sorgente.

  3. Selezionare l'opzione Considera attendibili gli autori quando richiesto. Questa opzione viene visualizzata solo la prima volta che si apre la cartella. Se non si seleziona questa opzione, non è possibile eseguire il debug o eseguire lo script di origine. Per altre informazioni, vedere Sicurezza dell'attendibilità dell'area di lavoro di Visual Studio Code.

  4. Se il codice sorgente è stato scaricato in precedenza, verrà richiesto di confermare che si vuole sovrascrivere la versione locale con il nuovo download.

    Nota

    Nella cartella radice dello script di origine, il sistema crea una sottocartella denominata conf. All'interno di questa cartella, un file denominato lighter-config.json contiene alcuni metadati di sistema necessari per l'esecuzione remota. Non apportare modifiche.

  5. Il file denominato sparkconf.py contiene un frammento di codice da aggiungere per configurare l'oggetto SparkConf . Per abilitare il debug remoto, assicurarsi che l'oggetto SparkConf sia configurato correttamente. L'immagine seguente mostra la versione originale del codice sorgente.

    Screenshot di un esempio di codice che mostra il codice sorgente prima della modifica.

    L'immagine successiva è il codice sorgente aggiornato dopo aver copiato e incollato il frammento.

    Screenshot di un esempio di codice che mostra il codice sorgente dopo la modifica.

  6. Dopo aver aggiornato il codice sorgente con la conf necessaria, è necessario selezionare l'interprete Python corretto. Assicurarsi di selezionare quello installato dall'ambiente conda synapse-spark-kernel .

Modificare le proprietà della definizione del processo Spark

È possibile modificare le proprietà di dettaglio delle definizioni dei processi Spark, ad esempio argomenti della riga di comando.

  1. Selezionare l'opzione Aggiorna configurazione SJD per aprire un file settings.yml . Le proprietà esistenti popolano il contenuto del file.

    Screenshot che mostra dove selezionare l'opzione Aggiorna configurazione SJD per una definizione di processo Spark.

  2. Aggiornare e salvare il file .yml.

  3. Selezionare l'opzione Pubblica proprietà SJD nell'angolo superiore destro per sincronizzare la modifica all'area di lavoro remota.

    Screenshot che mostra dove selezionare l'opzione Pubblica proprietà SJD per una definizione di processo Spark.