Partager via


Paramètres d’administration de l’espace de travail Apache Spark dans Microsoft Fabric

S’applique à : l’engineering et la science des données dans Microsoft Fabric

Lorsque vous créez un espace de travail dans Microsoft Fabric, un pool de démarrage associé à cet espace de travail est automatiquement créé. Avec la configuration simplifiée dans Microsoft Fabric, il n’est pas nécessaire de choisir les tailles de nœud ou de machine, car ces options sont gérées pour vous en arrière-plan. Cette configuration offre une expérience de démarrage de session Apache Spark plus rapide (5 à 10 secondes) pour permettre aux utilisateurs de commencer et d’exécuter vos travaux Apache Spark dans de nombreux scénarios courants sans avoir à se soucier de la configuration du calcul. Pour les scénarios avancés avec des exigences de calcul spécifiques, les utilisateurs peuvent créer un pool Apache Spark personnalisé et dimensionner les nœuds en fonction de leurs besoins en matière de performances.

Pour apporter des modifications aux paramètres Apache Spark dans un espace de travail, vous devez avoir le rôle d’administrateur pour cet espace de travail. Pour plus d’informations, consultez Rôles dans les espaces de travail.

Pour gérer les paramètres Spark du pool associé à votre espace de travail :

  1. Accédez aux paramètres de l’espace de travail dans votre espace de travail et choisissez l’option Engineering données/Science pour développer le menu :

    Capture d'écran montrant où sélectionner Engineering données dans le menu des paramètres de l'espace de travail.

  2. Vous voyez l’option Calcul Spark dans votre menu de gauche :

    Gif montrant différentes sections du calcul Apache Spark dans les paramètres de l’espace de travail.

    Remarque

    Si vous remplacez le pool de démarrage par défaut par un pool Spark personnalisé, vous pouvez constater un démarrage de session plus long (environ 3 minutes).

Groupe

Pool par défaut pour l’espace de travail

Vous pouvez utiliser le pool de démarrage créé automatiquement ou créer des pools personnalisés pour l’espace de travail.

  • Pool de démarrage : pools en direct préhydratés, créés automatiquement pour une expérience plus rapide. Ces clusters sont de taille moyenne. Le pool de démarrage est défini sur une configuration par défaut basée sur la référence SKU de capacité Fabric achetée. Les administrateurs peuvent personnaliser le nombre maximal de nœuds et d’exécuteurs en fonction de leurs exigences de mise à l’échelle de charge de travail Spark. Pour plus d’informations, consultez Configurer des pools de démarrage

  • Pool Spark personnalisé : vous pouvez dimensionner les nœuds, mettre à l’échelle automatiquement et allouer dynamiquement des exécuteurs en fonction des exigences de votre travail Spark. Pour créer un pool Spark personnalisé, l’administrateur de capacité doit activer l’option Pools d’espaces de travail personnalisés dans la section Calcul Spark des paramètres Administrateur de capacité.

Remarque

Le contrôle au niveau de la capacité pour les pools d’espaces de travail personnalisés est activé par défaut. Pour en savoir plus, voi Configurer et gérer les paramètres d’Ingénieurs de données et de science des données pour des capacités Fabric.

Les administrateurs peuvent créer des pools Spark personnalisés en fonction de leurs besoins de calcul en sélectionnant l’option Nouveau pool.

Capture d'écran montrant les options de création de pools personnalisés.

Apache Spark pour Microsoft Fabric Spark prend en charge les clusters à nœud unique, ce qui permet aux utilisateurs de sélectionner une configuration de nœud minimale de 1, auquel cas le pilote et l’exécuteur s’exécutent dans un seul nœud. Ces clusters à nœud unique offrent une haute disponibilité restaurable en cas de défaillance de nœud et une meilleure fiabilité des travaux pour les charges de travail avec des exigences de calcul plus petites. Vous pouvez également activer ou désactiver l’option de mise à l’échelle automatique pour vos pools Spark personnalisés. Lorsqu’il est activé avec la mise à l’échelle automatique, le pool acquiert de nouveaux nœuds dans la limite maximale de nœuds spécifiée par l’utilisateur et les met hors service après l’exécution du travail pour de meilleures performances.

Vous pouvez également sélectionner l’option permettant d’allouer dynamiquement des exécuteurs au pool. Elle établit automatiquement le nombre optimal d’exécuteurs dans la limite maximale spécifiée en fonction du volume de données pour de meilleures performances.

Capture d'écran montrant les options de création de pools personnalisés pour la mise à l'échelle automatique et l'allocation dynamique.

En savoir plus sur le calcule Apache Spark pour Fabric.

  • Personnaliser la configuration de calcul pour les éléments : en tant qu’administrateur d’espace de travail, vous pouvez permettre aux utilisateurs d’ajuster les configurations de calcul (propriétés au niveau de session qui incluent Driver/Executor Core, Driver/Executor Memory) pour des éléments individuels tels que des notebooks, des définitions de travaux Spark, à l’aide de l’environnement.

Capture d’écran montrant le commutateur pour personnaliser le calcul pour les éléments.

Si le paramètre est désactivé par l’administrateur de l’espace de travail, le pool par défaut et ses configurations de calcul sont utilisés pour tous les environnements de l’espace de travail.

Environnement

L’environnement fournit des configurations flexibles pour l’exécution de vos travaux Spark (notebooks, définitions du travail Spark). Dans un environnement, vous pouvez configurer des propriétés de calcul, sélectionner différents runtimes, configurer des dépendances de packages de bibliothèques en fonction des exigences de votre charge de travail.

Dans l’onglet Environnement, vous avez la possibilité de définir l’environnement par défaut. Vous pouvez choisir la version de Spark que vous souhaitez utiliser pour l’espace de travail.

En tant qu’administrateur d’espace de travail Fabric, vous pouvez sélectionner un environnement en tant qu’environnement par défaut de l’espace de travail.

Vous pouvez également en créer un en utilisant la liste déroulante Environnement.

Création d’un environnement via la liste déroulante des pièces jointes dans le paramètre WS

Si vous désactivez l’option permettant d’avoir un environnement par défaut, vous avez la possibilité de sélectionner la version du runtime Fabric dans les versions de runtime disponibles listées dans la sélection de liste déroulante.

Capture d'écran montrant où sélectionner la version du runtime.

En savoir plus sur les runtimes Apache Spark.

Concurrence élevée

Le mode de concurrence élevée permet aux utilisateurs de partager les mêmes sessions Spark dans Apache Spark pour l’Ingénieurs de données Fabric et les charges de travail de science des données. Un élément comme un notebook utilise une session Spark pour son exécution et, en cas d’activation, les utilisateurs peuvent partager une session Spark unique sur plusieurs notebooks.

Capture d’écran montrant la page des paramètres de haute concurrence.

En savoir plus sur la haute concurrence dans Apache Spark pour Fabric.

Journalisation automatique pour les modèles et expériences Machine Learning

Les administrateurs peuvent désormais activer la journalisation automatique pour leurs modèles et expériences Machine Learning. Cette option capture automatiquement les valeurs des paramètres d’entrée, des mesures de sortie et des éléments de sortie d’un modèle Machine Learning au fur et à mesure de son apprentissage. En savoir plus sur la journalisation automatique

Capture d’écran montrant la page des paramètres de journal automatique.