Come creare una definizione di processo Apache Spark in Fabric

Questa esercitazione illustra come creare una definizione di processo Spark in Microsoft Fabric.

Prerequisiti

Prima di iniziare, sono necessari:

Suggerimento

Per eseguire l'elemento di definizione del processo Spark, è necessario disporre di un file di definizione principale e di un contesto lakehouse predefinito. Se non si ha una lakehouse, è possibile crearne una seguendo i passaggi descritti in Creare una lakehouse.

Creare una definizione di processo Spark

Il processo di creazione della definizione del processo Spark è rapido e semplice; esistono diversi modi per iniziare.

Opzioni per creare una definizione di processo Spark

Esistono alcuni modi per iniziare a usare il processo di creazione:

  • Home page della progettazione dei dati: è possibile creare facilmente una definizione di processo Spark tramite la scheda Definizione processo Spark nella sezione Nuovo della home page.

    Screenshot che mostra dove selezionare la scheda di definizione del processo Spark.

  • Visualizzazione area di lavoro: è anche possibile creare una definizione di processo Spark tramite la visualizzazione Area di lavoro quando ci si trova nell'esperienza di Ingegneria dei dati usando il menu a discesa Nuovo.

    Screenshot che mostra dove selezionare La definizione del processo Spark nel menu Nuovo.

  • Crea visualizzazione: un altro punto di ingresso per creare una definizione di processo Spark è la pagina Crea in Ingegneria dei dati.

    Screenshot che mostra dove selezionare la definizione del processo Spark nell'hub di creazione.

È necessario assegnare un nome alla definizione del processo Spark al momento della creazione. Il nome deve essere univoco all'interno dell'area di lavoro corrente. La nuova definizione del processo Spark viene creata nell'area di lavoro corrente.

Creare una definizione di processo Spark per PySpark (Python)

Per creare una definizione di processo Spark per PySpark:

  1. Scaricare il file CSV di esempio yellow_tripdata_2022_01.csv e caricarlo nella sezione dei file della lakehouse.

  2. Creare una nuova definizione di processo Spark.

  3. Selezionare PySpark (Python) nell'elenco a discesa Linguaggio .

  4. Scaricare l'esempio di createTablefromCSV.py e caricarlo come file di definizione principale. File di definizione principale (processo. Main) è il file che contiene la logica dell'applicazione ed è obbligatorio per eseguire un processo Spark. Per ogni definizione di processo Spark, è possibile caricare un solo file di definizione principale.

    È possibile caricare il file di definizione principale dal desktop locale oppure caricare da un'istanza di Azure Data Lake Archiviazione (ADLS) Gen2 esistente specificando il percorso ABFSS completo del file. Ad esempio: abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  5. Caricare i file di riferimento come file di .py . I file di riferimento sono i moduli Python importati dal file di definizione principale. Proprio come il file di definizione principale, è possibile caricare dal desktop o da un ADLS Gen2 esistente. Sono supportati più file di riferimento.

    Suggerimento

    Se si usa un percorso ADLS Gen2, per assicurarsi che il file sia accessibile, è necessario assegnare all'account utente che esegue il processo l'autorizzazione appropriata per l'account di archiviazione. È consigliabile procedere in due modi diversi:

    • Assegnare all'account utente un ruolo Collaboratore per l'account di archiviazione.
    • Concedere l'autorizzazione lettura ed esecuzione all'account utente per il file tramite ad ADLS Gen2 Controllo di accesso List (ACL).

    Per un'esecuzione manuale, l'account dell'utente di accesso corrente viene usato per eseguire il processo.

  6. Specificare gli argomenti della riga di comando per il processo, se necessario. Usare uno spazio come separatore per separare gli argomenti.

  7. Aggiungere il riferimento lakehouse al processo. È necessario avere almeno un riferimento lakehouse aggiunto al processo. Questa lakehouse è il contesto lakehouse predefinito per il processo.

    Sono supportati più riferimenti lakehouse. Trovare il nome del lakehouse non predefinito e l'URL OneLake completo nella pagina spark Impostazioni.

    Screenshot che mostra un esempio di schermata del file di definizione principale popolato.

Creare una definizione di processo Spark per Scala/Java

Per creare una definizione di processo Spark per Scala/Java:

  1. Creare una nuova definizione di processo Spark.

  2. Selezionare Spark(Scala/Java) nell'elenco a discesa Linguaggio .

  3. Caricare il file di definizione principale come file di .jar . Il file di definizione principale è il file che contiene la logica dell'applicazione di questo processo ed è obbligatorio per eseguire un processo Spark. Per ogni definizione di processo Spark, è possibile caricare un solo file di definizione principale. Specificare il nome della classe Main.

  4. Caricare i file di riferimento come file .jar . I file di riferimento sono i file a cui viene fatto riferimento/importato dal file di definizione principale.

  5. Specificare gli argomenti della riga di comando per il processo, se necessario.

  6. Aggiungere il riferimento lakehouse al processo. È necessario avere almeno un riferimento lakehouse aggiunto al processo. Questa lakehouse è il contesto lakehouse predefinito per il processo.

Creare una definizione di processo Spark per R

Per creare una definizione di processo Spark per SparkR(R):

  1. Creare una nuova definizione di processo Spark.

  2. Selezionare SparkR(R) nell'elenco a discesa Lingua .

  3. Caricare il file di definizione principale come . File R . Il file di definizione principale è il file che contiene la logica dell'applicazione di questo processo ed è obbligatorio per eseguire un processo Spark. Per ogni definizione di processo Spark, è possibile caricare un solo file di definizione principale.

  4. Caricare i file di riferimento come . File R . I file di riferimento sono i file a cui viene fatto riferimento/importato dal file di definizione principale.

  5. Specificare gli argomenti della riga di comando per il processo, se necessario.

  6. Aggiungere il riferimento lakehouse al processo. È necessario avere almeno un riferimento lakehouse aggiunto al processo. Questa lakehouse è il contesto lakehouse predefinito per il processo.

Nota

La definizione del processo Spark verrà creata nell'area di lavoro corrente.

Opzioni per personalizzare le definizioni dei processi Spark

Sono disponibili alcune opzioni per personalizzare ulteriormente l'esecuzione delle definizioni dei processi Spark.

  • Calcolo Spark: nella scheda Calcolo Spark è possibile visualizzare la versione di runtime, ovvero la versione di Spark che verrà usata per eseguire il processo. È anche possibile visualizzare le impostazioni di configurazione di Spark che verranno usate per eseguire il processo. È possibile personalizzare le impostazioni di configurazione di Spark facendo clic sul pulsante Aggiungi .
  • Ottimizzazione: nella scheda Ottimizzazione è possibile abilitare e configurare i criteri di ripetizione dei tentativi per il processo. Se abilitata, il processo viene ritentato in caso di errore. È anche possibile impostare il numero massimo di tentativi e l'intervallo tra i tentativi. Per ogni tentativo di ripetizione, il processo viene riavviato. Assicurarsi che il processo sia idempotente.

    Screenshot che mostra dove configurare i criteri di ripetizione dei tentativi.