Creare e gestire definizioni di processi Apache Spark in Visual Studio Code
L'estensione Visual Studio (VS) Code per Synapse supporta completamente le operazioni di definizione del processo Spark (creazione, aggiornamento, lettura ed eliminazione) di Spark in Fabric. Dopo aver creato una definizione di processo Spark, è possibile caricare più librerie di riferimento, inviare una richiesta per eseguire la definizione del processo Spark e controllare la cronologia di esecuzione.
Creare una definizione di processo Spark
Per creare una nuova definizione di processo Spark:
In Visual Studio Code Explorer selezionare l'opzione Crea definizione processo Spark.
Immettere i campi obbligatori iniziali: nome, lakehouse di riferimento e lakehouse predefinito.
I processi di richiesta e il nome della definizione del processo Spark appena creato vengono visualizzati nel nodo radice Definizione processo Spark in Esplora risorse di Visual Studio Code. Nel nodo del nome della definizione del processo Spark vengono visualizzati tre sottonodi:
- File: elenco del file di definizione principale e di altre librerie a cui si fa riferimento. È possibile caricare nuovi file da questo elenco.
- Lakehouse: elenco di tutti i lakehouse a cui fa riferimento questa definizione di processo Spark. Il lakehouse predefinito è contrassegnato nell'elenco ed è possibile accedervi tramite il percorso
Files/…, Tables/…
relativo . - Esegui: elenco della cronologia di esecuzione di questa definizione del processo Spark e dello stato di ogni esecuzione.
Caricare un file di definizione principale in una libreria di riferimento
Per caricare o sovrascrivere il file di definizione principale, selezionare l'opzione Aggiungi file principale.
Per caricare il file di libreria a cui fa riferimento il file di definizione principale, selezionare l'opzione Aggiungi file lib.
Dopo aver caricato un file, è possibile eseguirne l'override facendo clic sull'opzione Aggiorna file e caricando un nuovo file oppure è possibile eliminare il file tramite l'opzione Elimina .
Inviare una richiesta di esecuzione
Per inviare una richiesta per eseguire la definizione del processo Spark da VS Code:
Dalle opzioni a destra del nome della definizione del processo Spark che si vuole eseguire, selezionare l'opzione Esegui processo Spark .
Dopo aver inviato la richiesta, viene visualizzata una nuova applicazione Apache Spark nel nodo Esecuzioni nell'elenco Esplora risorse. È possibile annullare il processo in esecuzione selezionando l'opzione Annulla processo Spark .
Aprire una definizione di processo Spark nel portale di Fabric
È possibile aprire la pagina di creazione della definizione del processo Spark nel portale di Infrastruttura selezionando l'opzione Apri nel browser .
È anche possibile selezionare Apri nel browser accanto a un'esecuzione completata per visualizzare la pagina di monitoraggio dei dettagli dell'esecuzione.
Eseguire il debug del codice sorgente della definizione del processo Spark (Python)
Se la definizione del processo Spark viene creata con PySpark (Python), è possibile scaricare lo script .py del file di definizione principale e del file di riferimento ed eseguire il debug dello script di origine in VS Code.
Per scaricare il codice sorgente, selezionare l'opzione Debug definizione processo Spark a destra della definizione del processo Spark.
Al termine del download, viene aperta automaticamente la cartella del codice sorgente.
Selezionare l'opzione Considera attendibili gli autori quando richiesto. Questa opzione viene visualizzata solo la prima volta che si apre la cartella. Se non si seleziona questa opzione, non è possibile eseguire il debug o eseguire lo script di origine. Per altre informazioni, vedere Sicurezza dell'attendibilità dell'area di lavoro di Visual Studio Code.
Se il codice sorgente è stato scaricato in precedenza, verrà richiesto di confermare che si vuole sovrascrivere la versione locale con il nuovo download.
Nota
Nella cartella radice dello script di origine, il sistema crea una sottocartella denominata conf. All'interno di questa cartella, un file denominato lighter-config.json contiene alcuni metadati di sistema necessari per l'esecuzione remota. Non apportare modifiche.
Il file denominato sparkconf.py contiene un frammento di codice da aggiungere per configurare l'oggetto SparkConf . Per abilitare il debug remoto, assicurarsi che l'oggetto SparkConf sia configurato correttamente. L'immagine seguente mostra la versione originale del codice sorgente.
L'immagine successiva è il codice sorgente aggiornato dopo aver copiato e incollato il frammento.
Dopo aver aggiornato il codice sorgente con la conf necessaria, è necessario selezionare l'interprete Python corretto. Assicurarsi di selezionare quello installato dall'ambiente conda synapse-spark-kernel .
Modificare le proprietà della definizione del processo Spark
È possibile modificare le proprietà di dettaglio delle definizioni dei processi Spark, ad esempio argomenti della riga di comando.
Selezionare l'opzione Aggiorna configurazione SJD per aprire un file settings.yml . Le proprietà esistenti popolano il contenuto del file.
Aggiornare e salvare il file .yml.
Selezionare l'opzione Pubblica proprietà SJD nell'angolo superiore destro per sincronizzare la modifica all'area di lavoro remota.
Contenuto correlato
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per