Événements
31 mars, 23 h - 2 avr., 23 h
Le plus grand événement d’apprentissage Fabric, Power BI et SQL. 31 mars au 2 avril. Utilisez le code FABINSIDER pour économiser 400 $.
Inscrivez-vous aujourd’huiCe navigateur n’est plus pris en charge.
Effectuez une mise à niveau vers Microsoft Edge pour tirer parti des dernières fonctionnalités, des mises à jour de sécurité et du support technique.
Les utilisateurs créent des pools Spark dans Azure Synapse Analytics et les dimensionnent en fonction de leurs besoins en matière de charge de travail d’analytique. Il est courant pour les équipes d’entreprise d’utiliser des pools Spark pour plusieurs processus d’ingénierie des données, et l’utilisation des pools peut varier en fonction des taux d’ingestion des données, du volume de données et d’autres facteurs. Un pool Spark peut être utilisé pour la transformation de données intensive en calcul et également pour effectuer des processus exploratoires de données. Dans ce cas, les utilisateurs peuvent activer l’option de mise à l’échelle automatique et spécifier un nombre minimal et maximal de nœuds et la plateforme gère la mise à l’échelle du nombre de nœuds actifs dans ces limites en fonction de la demande.
Aller plus loin en examinant les exigences de l’exécuteur au niveau de l’application, les utilisateurs ont du mal à régler les configurations de l’exécuteur, car elles sont très différentes selon les différentes étapes d’un processus d’exécution de travail Spark, qui dépendent également du volume de données traitées qui change de temps à autre. Les utilisateurs peuvent activer l’option Allocation dynamique des exécuteurs dans le cadre de la configuration du pool, ce qui permet l’allocation automatique des exécuteurs à l’application Spark en fonction des nœuds disponibles dans le pool Spark.
Lorsque l’option Allocation dynamique est activée, pour chaque application Spark envoyée, le système réserve des exécuteurs pendant l’étape d’envoi du travail en fonction des nœuds max spécifiés par l’utilisateur pour prendre en charge les scénarios de mise à l’échelle automatique réussis.
Notes
Cette approche conservatrice permet à la plateforme d’activer la mise à l’échelle de 3 à 10 nœuds sans manquer de capacité, offrant ainsi aux utilisateurs une plus grande fiabilité pour l’exécution des travaux.
Dans les scénarios où l’option d’allocation dynamique est activée dans un pool Synapse Spark, la plateforme réserve le nombre d’exécuteurs en fonction de la limite maximale spécifiée par l’utilisateur pour toute application Spark envoyée. Un nouveau travail soumis par l’utilisateur n’est accepté que lorsqu’il y a des exécuteurs disponibles > au nombre maximal d’exécuteurs réservés.
Important
Toutefois, cette activité de réservation n’a pas d’impact sur la facturation où les utilisateurs sont facturés uniquement pour les cœurs utilisés et non pour le nombre de cœurs dans l’état réservé.
Examinons un exemple de scénario d’un seul utilisateur qui crée un pool Spark A avec la mise à l’échelle automatique activée avec un minimum de 5 à 50 nœuds maximum. Étant donné que l’utilisateur n’est pas sûr de la quantité de calcul nécessaire au travail Spark, il active l’allocation dynamique pour permettre aux exécuteurs de mettre à l’échelle.
Notes
Les utilisateurs peuvent créer plusieurs pools Spark dans un espace de travail Synapse Analytics et les dimensionner en fonction de leurs besoins en matière de charge de travail d’analytique. Pour ces pools Spark créés, si les utilisateurs ont activé l’allocation dynamique, le nombre total de cœurs disponibles pour l’espace de travail donné à tout moment sera
Nombre total de cœurs disponibles pour l’espace de travail = nombre total de cœurs de tous les pools Spark - Cœurs réservés ou utilisés pour les travaux actifs exécutés dans les pools Spark
Les utilisateurs recevront une erreur de dépassement de la capacité de l’espace de travail pour les travaux envoyés lorsque le nombre total de cœurs disponibles pour l’espace de travail est de 0.
Dans les scénarios où plusieurs utilisateurs essaient d’exécuter plusieurs travaux Spark dans un espace de travail Synapse donné, si User1 envoie des travaux à un pool Spark, qui est activé avec l’allocation dynamique, là-bas en utilisant tous les cœurs disponibles dans pool. Si User2 envoie des travaux et qu’il n’y a pas de cœurs disponibles pour le pool Spark, car certains d’entre eux sont activement utilisés dans l’exécution des travaux envoyés par User1 et que certains sont réservés pour la prise en charge de l’exécution, User2 rencontrerait une erreur de dépassement de capacité de l’espace de travail.
Conseil
Les utilisateurs peuvent augmenter le nombre de cœurs, en augmentant le nombre total de cœurs disponibles pour éviter les erreurs de dépassement de la capacité de l’espace de travail.
Événements
31 mars, 23 h - 2 avr., 23 h
Le plus grand événement d’apprentissage Fabric, Power BI et SQL. 31 mars au 2 avril. Utilisez le code FABINSIDER pour économiser 400 $.
Inscrivez-vous aujourd’huiEntrainement
Module
Surveiller et gérer les charges de travail d’engineering données avec Apache Spark dans Azure Synapse Analytics
Documentation
Concepts concernant les pools Apache Spark - Azure Synapse Analytics
Présentation des tailles et configurations des pools Apache Spark dans Azure Synapse Analytics.
Gérer la configuration Apache Spark - Azure Synapse Analytics
Découvrez comment créer une configuration Apache Spark pour votre studio synapse.
Mettre automatiquement à l’échelle des instances Apache Spark - Azure Synapse Analytics
Utiliser la fonctionnalité de mise à l’échelle automatique d’Azure Synapse Analytics pour mettre automatiquement à l’échelle Apache Spark Pools