Eventi
31 mar, 23 - 2 apr, 23
Il più grande evento di apprendimento di Fabric, Power BI e SQL. 31 marzo - 2 aprile. Usare il codice FABINSIDER per salvare $400.
Iscriviti oggi stessoQuesto browser non è più supportato.
Esegui l'aggiornamento a Microsoft Edge per sfruttare i vantaggi di funzionalità più recenti, aggiornamenti della sicurezza e supporto tecnico.
L'estensione Visual Studio (VS) Code per Synapse supporta completamente le operazioni CURD (creazione, aggiornamento, lettura ed eliminazione) di definizione del processo Spark in Fabric. Dopo aver creato una definizione del processo Spark, è possibile caricare più librerie di riferimento, inviare una richiesta per eseguire la definizione del processo Spark e controllare la cronologia di esecuzione.
Per creare una nuova definizione del processo Spark:
In Visual Studio Code Explorer, selezionare l'opzione Crea definizione del processo Spark.
Immettere i campi obbligatori iniziali: nome, lakehouse di riferimento e lakehouse predefinito.
I processi di richiesta e il nome della definizione del processo Spark appena creata vengono visualizzati nel nodo principale Definizione del processo Spark in VS Code Explorer. Nel nodo del nome della definizione del processo Spark, si vedono tre sottonodi:
Files/…, Tables/…
.Per caricare o sovrascrivere il file di definizione principale, selezionare l'opzione Aggiungi file principale.
Per caricare il file di libreria a cui fa riferimento il file di definizione principale, selezionare l'opzione Aggiungi file libreria.
Dopo aver caricato un file, è possibile sostituirlo facendo clic sull'opzione Aggiorna file e caricando un nuovo file oppure è possibile eliminare il file tramite l'opzione Elimina.
Per inviare una richiesta di esecuzione della definizione del processo Spark da VS Code:
Dalle opzioni a destra del nome della definizione del processo Spark che si vuole eseguire, selezionare l'opzione Esegui processo Spark.
Dopo aver inviato la richiesta, appare una nuova applicazione Apache Spark nel nodo Esecuzioni nell'elenco di Esplora risorse. È possibile annullare il processo in esecuzione selezionando l'opzione Annulla processo Spark.
È possibile aprire la pagina di creazione della definizione del processo Spark nel portale di Fabric selezionando l'opzione Apri nel browser.
È anche possibile selezionare Apri nel browser accanto a un'esecuzione completata per vedere la pagina di monitoraggio dei dettagli di tale esecuzione.
Se la definizione del processo Spark viene creata con PySpark (Python), è possibile scaricare lo script .py del file di definizione principale e del file di riferimento, ed eseguire il debug dello script di origine in VS Code.
Per scaricare il codice sorgente, selezionare l'opzione Debug della definizione del processo Spark a destra della definizione del processo Spark.
Al termine del download, la cartella del codice sorgente si apre automaticamente.
Selezionare l'opzione Considerare attendibili gli autori quando richiesto. (Questa opzione appare solo la prima volta che si apre la cartella. Se non si seleziona questa opzione, non sarà possibile eseguire il debug o lo script di origine. Per altre informazioni, vedere Sicurezza dell'attendibilità dell'area di lavoro di Visual Studio Code.)
Se il codice sorgente è stato scaricato in precedenza, verrà richiesto di confermare che si vuole sovrascrivere la versione locale con il nuovo download.
Nota
Nella cartella radice dello script di origine, il sistema crea una sottocartella denominata conf. All'interno di questa cartella, un file denominato lighter-config.json contiene alcuni metadati di sistema necessari per l'esecuzione remota. NON apportare modifiche a tale file.
Il file denominato sparkconf.py contiene un frammento di codice da aggiungere per configurare l'oggetto SparkConf. Per abilitare il debug remoto, assicurarsi che l'oggetto SparkConf sia configurato correttamente. L'immagine seguente mostra la versione originale del codice sorgente.
L'immagine successiva è il codice sorgente aggiornato dopo aver copiato e incollato il frammento.
Dopo aver aggiornato il codice sorgente con la configurazione necessaria, occorre selezionare l'interprete Python corretto. Assicurarsi di selezionare quello installato dall'ambiente conda synapse-spark-kernel.
È possibile modificare le proprietà di dettaglio delle definizioni del processo Spark, come argomenti della riga di comando.
Selezionare l'opzione Aggiorna configurazione SJD per aprire un file settings.yml. Le proprietà esistenti popolano il contenuto del file.
Aggiorna e salva il file .yml.
Selezionare l'opzione Pubblica proprietà SJD in alto a destra per sincronizzare la modifica all'area di lavoro remota.
Eventi
31 mar, 23 - 2 apr, 23
Il più grande evento di apprendimento di Fabric, Power BI e SQL. 31 marzo - 2 aprile. Usare il codice FABINSIDER per salvare $400.
Iscriviti oggi stessoFormazione
Modulo
Usare Apache Spark in Microsoft Fabric - Training
Apache Spark è una tecnologia di base per l'analisi dei dati su larga scala. Microsoft Fabric offre supporto per i cluster Spark, consentendo di analizzare ed elaborare i dati su larga scala.
Certificazione
Microsoft Certified: Fabric Data Engineer Associate - Certifications
In qualità di specialista di dati, dovresti avere competenze nei modelli di caricamento dei dati, architetture dei dati e processi di orchestrazione.