Paramètres d’administration de l’espace de travail Spark dans Microsoft Fabric

S’applique à : Engineering données et Science des données dans Microsoft Fabric

Lorsque vous créez un espace de travail dans Microsoft Fabric, un pool de démarrage associé à cet espace de travail est automatiquement créé. Avec la configuration simplifiée dans Microsoft Fabric, il n’est pas nécessaire de choisir les tailles de nœud ou de machine, car ces options sont gérées pour vous en arrière-plan. Cette configuration offre une expérience de démarrage de session Spark plus rapide (5 à 10 secondes) pour permettre aux utilisateurs de commencer et d’exécuter vos travaux Spark dans de nombreux scénarios courants sans avoir à se soucier de la configuration du calcul. Pour les scénarios avancés avec des exigences de calcul spécifiques, les utilisateurs peuvent créer un pool Spark personnalisé et dimensionner les nœuds en fonction de leurs besoins en matière de performances.

Pour apporter des modifications aux paramètres Spark dans un espace de travail, vous devez avoir le rôle d’administrateur pour cet espace de travail. Pour plus d’informations, consultez Rôles dans les espaces de travail.

Pour gérer les paramètres Spark du pool associé à votre espace de travail :

  1. Accédez aux paramètres de l’espace de travail dans votre espace de travail et choisissez l’option Engineering données/Science pour développer le menu :

    Screenshot showing where to select Data Engineering in the Workspace settings menu.

  2. Vous voyez l’option Calcul Spark dans votre menu de gauche :

    Gif showing different sections of the spark compute in workspace settings.

    Remarque

    Si vous remplacez le pool de démarrage par défaut par un pool Spark personnalisé, vous pouvez constater un démarrage de session plus long (environ 3 minutes).

Groupe

Pool par défaut pour l’espace de travail

Vous pouvez utiliser le pool de démarrage créé automatiquement ou créer des pools personnalisés pour l’espace de travail.

  • Pool de démarrage : pools en direct préhydratés, créés automatiquement pour une expérience plus rapide. Ces clusters sont de taille moyenne. Le pool de démarrage est défini sur une configuration par défaut basée sur la référence SKU de capacité Fabric achetée. Les administrateurs peuvent personnaliser le nombre maximal de nœuds et d’exécuteurs en fonction de leurs exigences de mise à l’échelle de charge de travail Spark. Pour plus d’informations, consultez Configurer des pools de démarrage

  • Pool Spark personnalisé : vous pouvez dimensionner les nœuds, mettre à l’échelle automatiquement et allouer dynamiquement des exécuteurs en fonction des exigences de votre travail Spark. Pour créer un pool Spark personnalisé, l’administrateur de capacité doit activer l’option Pools d’espaces de travail personnalisés dans la section Calcul Spark des paramètres Administrateur de capacité.

Remarque

Le contrôle au niveau de la capacité pour les pools d’espaces de travail personnalisés est activé par défaut. Pour plus d’informations, consultez Paramètres de calcul Spark pour les capacités Fabric.

Les administrateurs peuvent créer des pools Spark personnalisés en fonction de leurs besoins de calcul en sélectionnant l’option Nouveau pool.

Screenshot showing custom pool creation options.

Microsoft Fabric Spark prend en charge les clusters à nœud unique, ce qui permet aux utilisateurs de sélectionner une configuration de nœud minimale de 1, auquel cas le pilote et l’exécuteur s’exécutent dans un seul nœud. Ces clusters à nœud unique offrent une haute disponibilité restaurable en cas de défaillance de nœud et une meilleure fiabilité des travaux pour les charges de travail avec des exigences de calcul plus petites. Vous pouvez également activer ou désactiver l’option de mise à l’échelle automatique pour vos pools Spark personnalisés. Lorsqu’il est activé avec la mise à l’échelle automatique, le pool acquiert de nouveaux nœuds dans la limite maximale de nœuds spécifiée par l’utilisateur et les met hors service après l’exécution du travail pour de meilleures performances.

Vous pouvez également sélectionner l’option permettant d’allouer dynamiquement des exécuteurs au pool. Elle établit automatiquement le nombre optimal d’exécuteurs dans la limite maximale spécifiée en fonction du volume de données pour de meilleures performances.

Screenshot showing custom pool creation options for autoscaling and dynamic allocation.

En savoir plus sur le calcul Spark pour Fabric.

  • Personnaliser la configuration de calcul pour les éléments : en tant qu’administrateur d’espace de travail, vous pouvez permettre aux utilisateurs d’ajuster les configurations de calcul (propriétés au niveau de session qui incluent Driver/Executor Core, Driver/Executor Memory) pour des éléments individuels tels que des notebooks, des définitions de travaux Spark, à l’aide de l’environnement.

Screenshot showing switch to customize compute for items.

Si le paramètre est désactivé par l’administrateur de l’espace de travail, le pool par défaut et ses configurations de calcul sont utilisés pour tous les environnements de l’espace de travail.

Environnement

L’environnement fournit des configurations flexibles pour l’exécution de vos travaux Spark (notebooks, définitions de travaux Spark). Dans un environnement, vous pouvez configurer des propriétés de calcul, sélectionner différents runtimes, configurer des dépendances de packages de bibliothèques en fonction des exigences de votre charge de travail.

Dans l’onglet Environnement, vous avez la possibilité de définir l’environnement par défaut. Vous pouvez choisir la version de Spark que vous souhaitez utiliser pour l’espace de travail.

En tant qu’administrateur d’espace de travail Fabric, vous pouvez sélectionner un environnement en tant qu’environnement par défaut de l’espace de travail.

Vous pouvez également en créer un en utilisant la liste déroulante Environnement.

Environment creation through attachment dropdown in WS setting

Si vous désactivez l’option permettant d’avoir un environnement par défaut, vous avez la possibilité de sélectionner la version du runtime Fabric dans les versions de runtime disponibles listées dans la sélection de liste déroulante.

Screenshot showing where to select runtime version.

En savoir plus sur les runtimes Spark

Concurrence élevée

Le mode de concurrence élevée permet aux utilisateurs de partager les mêmes sessions Spark dans Fabric Spark pour l’ingénierie des données et les charges de travail de science des données. Un élément comme un notebook utilise une session Spark pour son exécution et, en cas d’activation, les utilisateurs peuvent partager une session Spark unique sur plusieurs notebooks.

Screenshot showing high concurrency settings page.

En savoir plus sur la haute concurrence dans Fabric Spark

Journalisation automatique pour les modèles et expériences Machine Learning

Les administrateurs peuvent désormais activer la journalisation automatique pour leurs modèles et expériences Machine Learning. Cette option capture automatiquement les valeurs des paramètres d’entrée, des mesures de sortie et des éléments de sortie d’un modèle Machine Learning au fur et à mesure de son apprentissage. En savoir plus sur la journalisation automatique

Screenshot showing autolog settings page.