Che cos'è una definizione di processo Apache Spark?
Una definizione di processo Apache Spark è un elemento di codice di Microsoft Fabric che consente di inviare processi batch/streaming ai cluster Spark. Caricando i file binari dall'output di compilazione di linguaggi diversi ,ad esempio con estensione jar da Java, è possibile applicare logica di trasformazione diversa ai dati ospitati in una lakehouse. Oltre al file binario, è possibile personalizzare ulteriormente il comportamento del processo caricando più librerie e argomenti della riga di comando.
Per eseguire una definizione di processo Spark, è necessario avere almeno una lakehouse associata. Questo contesto lakehouse predefinito funge da file system predefinito per il runtime di Spark. Per qualsiasi codice Spark che usa un percorso relativo ai dati di lettura/scrittura, i dati vengono serviti dal lakehouse predefinito.
Suggerimento
Per eseguire un elemento di definizione del processo Spark, è necessario disporre di un file di definizione principale e di un contesto lakehouse predefinito. Se non si ha una lakehouse, crearne una seguendo i passaggi descritti in Creare una lakehouse.
Contenuto correlato
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per