Che cos'è una definizione di processo Apache Spark?

Una definizione di processo Apache Spark è un elemento di codice di Microsoft Fabric che consente di inviare processi batch/streaming ai cluster Spark. Caricando i file binari dall'output di compilazione di linguaggi diversi ,ad esempio con estensione jar da Java, è possibile applicare logica di trasformazione diversa ai dati ospitati in una lakehouse. Oltre al file binario, è possibile personalizzare ulteriormente il comportamento del processo caricando più librerie e argomenti della riga di comando.

Per eseguire una definizione di processo Spark, è necessario avere almeno una lakehouse associata. Questo contesto lakehouse predefinito funge da file system predefinito per il runtime di Spark. Per qualsiasi codice Spark che usa un percorso relativo ai dati di lettura/scrittura, i dati vengono serviti dal lakehouse predefinito.

Suggerimento

Per eseguire un elemento di definizione del processo Spark, è necessario disporre di un file di definizione principale e di un contesto lakehouse predefinito. Se non si ha una lakehouse, crearne una seguendo i passaggi descritti in Creare una lakehouse.