Come creare una definizione di processo Apache Spark in Fabric
Questa esercitazione illustra come creare una definizione di processo Spark in Microsoft Fabric.
Prerequisiti
Prima di iniziare, sono necessari:
- Un account tenant di Fabric con una sottoscrizione attiva. Creare un account gratuitamente.
Suggerimento
Per eseguire l'elemento di definizione del processo Spark, è necessario disporre di un file di definizione principale e di un contesto lakehouse predefinito. Se non si ha una lakehouse, è possibile crearne una seguendo i passaggi descritti in Creare una lakehouse.
Creare una definizione di processo Spark
Il processo di creazione della definizione del processo Spark è rapido e semplice; esistono diversi modi per iniziare.
Opzioni per creare una definizione di processo Spark
Esistono alcuni modi per iniziare a usare il processo di creazione:
Home page della progettazione dei dati: è possibile creare facilmente una definizione di processo Spark tramite la scheda Definizione processo Spark nella sezione Nuovo della home page.
Visualizzazione area di lavoro: è anche possibile creare una definizione di processo Spark tramite l'area di lavoro in Ingegneria dei dati usando il menu a discesa Nuovo.
Crea visualizzazione: un altro punto di ingresso per creare una definizione di processo Spark è la pagina Crea in Ingegneria dei dati.
È necessario assegnare un nome alla definizione del processo Spark al momento della creazione. Il nome deve essere univoco all'interno dell'area di lavoro corrente. La nuova definizione del processo Spark viene creata nell'area di lavoro corrente.
Creare una definizione di processo Spark per PySpark (Python)
Per creare una definizione di processo Spark per PySpark:
Scaricare il file CSV di esempio yellow_tripdata_2022_01.csv e caricarlo nella sezione dei file della lakehouse.
Creare una nuova definizione di processo Spark.
Selezionare PySpark (Python) nell'elenco a discesa Linguaggio .
Scaricare l'esempio di createTablefromCSV.py e caricarlo come file di definizione principale. File di definizione principale (processo. Main) è il file che contiene la logica dell'applicazione ed è obbligatorio per eseguire un processo Spark. Per ogni definizione di processo Spark, è possibile caricare un solo file di definizione principale.
È possibile caricare il file di definizione principale dal desktop locale oppure caricare da un'istanza di Azure Data Lake Archiviazione (ADLS) Gen2 esistente specificando il percorso ABFSS completo del file. Ad esempio:
abfss://your-storage-account-name.dfs.core.windows.net/your-file-path
.Caricare i file di riferimento come file di .py . I file di riferimento sono i moduli Python importati dal file di definizione principale. Proprio come il file di definizione principale, è possibile caricare dal desktop o da un ADLS Gen2 esistente. Sono supportati più file di riferimento.
Suggerimento
Se si usa un percorso ADLS Gen2, per assicurarsi che il file sia accessibile, è necessario assegnare all'account utente che esegue il processo l'autorizzazione appropriata per l'account di archiviazione. È consigliabile procedere in due modi diversi:
- Assegnare all'account utente un ruolo Collaboratore per l'account di archiviazione.
- Concedere l'autorizzazione lettura ed esecuzione all'account utente per il file tramite ad ADLS Gen2 Controllo di accesso List (ACL).
Per un'esecuzione manuale, l'account dell'utente di accesso corrente viene usato per eseguire il processo.
Specificare gli argomenti della riga di comando per il processo, se necessario. Usare uno spazio come separatore per separare gli argomenti.
Aggiungere il riferimento lakehouse al processo. È necessario avere almeno un riferimento lakehouse aggiunto al processo. Questa lakehouse è il contesto lakehouse predefinito per il processo.
Sono supportati più riferimenti lakehouse. Trovare il nome del lakehouse non predefinito e l'URL OneLake completo nella pagina spark Impostazioni.
Creare una definizione di processo Spark per Scala/Java
Per creare una definizione di processo Spark per Scala/Java:
Creare una nuova definizione di processo Spark.
Selezionare Spark(Scala/Java) nell'elenco a discesa Linguaggio .
Caricare il file di definizione principale come file di .jar . Il file di definizione principale è il file che contiene la logica dell'applicazione di questo processo ed è obbligatorio per eseguire un processo Spark. Per ogni definizione di processo Spark, è possibile caricare un solo file di definizione principale. Specificare il nome della classe Main.
Caricare i file di riferimento come file .jar . I file di riferimento sono i file a cui viene fatto riferimento/importato dal file di definizione principale.
Specificare gli argomenti della riga di comando per il processo, se necessario.
Aggiungere il riferimento lakehouse al processo. È necessario avere almeno un riferimento lakehouse aggiunto al processo. Questa lakehouse è il contesto lakehouse predefinito per il processo.
Creare una definizione di processo Spark per R
Per creare una definizione di processo Spark per SparkR(R):
Creare una nuova definizione di processo Spark.
Selezionare SparkR(R) nell'elenco a discesa Lingua .
Caricare il file di definizione principale come . File R . Il file di definizione principale è il file che contiene la logica dell'applicazione di questo processo ed è obbligatorio per eseguire un processo Spark. Per ogni definizione di processo Spark, è possibile caricare un solo file di definizione principale.
Caricare i file di riferimento come . File R . I file di riferimento sono i file a cui viene fatto riferimento/importato dal file di definizione principale.
Specificare gli argomenti della riga di comando per il processo, se necessario.
Aggiungere il riferimento lakehouse al processo. È necessario avere almeno un riferimento lakehouse aggiunto al processo. Questa lakehouse è il contesto lakehouse predefinito per il processo.
Nota
La definizione del processo Spark verrà creata nell'area di lavoro corrente.
Opzioni per personalizzare le definizioni dei processi Spark
Sono disponibili alcune opzioni per personalizzare ulteriormente l'esecuzione delle definizioni dei processi Spark.
- Calcolo Spark: nella scheda Calcolo Spark è possibile visualizzare la versione di runtime, ovvero la versione di Spark che verrà usata per eseguire il processo. È anche possibile visualizzare le impostazioni di configurazione di Spark che verranno usate per eseguire il processo. È possibile personalizzare le impostazioni di configurazione di Spark facendo clic sul pulsante Aggiungi .
Ottimizzazione: nella scheda Ottimizzazione è possibile abilitare e configurare i criteri di ripetizione dei tentativi per il processo. Se abilitata, il processo viene ritentato in caso di errore. È anche possibile impostare il numero massimo di tentativi e l'intervallo tra i tentativi. Per ogni tentativo di ripetizione, il processo viene riavviato. Assicurarsi che il processo sia idempotente.
Contenuto correlato
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per