Qu’est-ce qu’une définition de travail Apache Spark ?

Une définition de tâche Apache Spark est un élément de code Microsoft Fabric qui vous permet de soumettre des tâches par lots/en streaming aux clusters Spark. En téléchargeant les fichiers binaires à partir de la sortie de compilation de différents langages (par exemple, .jar de Java), vous pouvez appliquer différentes logiques de transformation aux données hébergées sur un Lakehouse. Outre le fichier binaire, vous pouvez personnaliser davantage le comportement du travail en téléchargeant davantage de bibliothèques et d'arguments de ligne de commande.

Pour exécuter une définition de travail Spark, vous devez avoir au moins un lakehouse associé. Ce contexte lakehouse par défaut sert de système de fichiers par défaut pour le runtime Spark. Pour tout code Spark utilisant un chemin relatif pour lire/écrire des données, les données sont servies à partir du Lakehouse par défaut.

Conseil

Pour exécuter un élément de définition de tâche Spark, vous devez disposer d'un fichier de définition principal et d'un contexte Lakehouse par défaut. Si vous n'avez pas de maison au bord d'un lac, créez-en une en suivant les étapes décrites dans Créer une maison au bord d'un lac.