Qu’est-ce qu’une définition de travail Apache Spark ?

Une définition de travail Apache Spark est un élément de code Microsoft Fabric qui vous permet d’envoyer un traitement par lot/diffusion en continu au cluster Spark. En chargeant les fichiers binaires à partir de la sortie de compilation de différents langages, .jar à partir de Java par exemple, vous pouvez appliquer une logique de transformation différente aux données hébergées sur lakehouse. Outre le fichier binaire, vous pouvez personnaliser davantage le comportement du travail en chargeant des bibliothèques et des arguments de ligne de commande supplémentaires.

Important

Microsoft Fabric est en préversion.

Pour exécuter une définition de travail Spark, vous devez avoir au moins un lakehouse associé. Ce contexte lakehouse par défaut sert de système de fichiers par défaut pour le runtime Spark. Pour tout code Spark utilisant un chemin relatif pour lire/écrire des données, les données sont servies à partir du lakehouse par défaut.

Conseil

Pour exécuter l’élément de définition de travail Spark, main fichier de définition et le contexte lakehouse par défaut sont requis. Si vous n’avez pas de lakehouse, vous pouvez en créer un en suivant les étapes décrites dans Créer un lakehouse.

Important

L’élément de définition de travail Spark est actuellement en PRÉVERSION.

Étapes suivantes

Dans cet aperçu, vous obtiendrez une compréhension de base de la définition d'un job Spark. Passez à l’article suivant pour découvrir comment créer et prendre en main votre propre définition de travail Spark :