Mode de débogage du mappage de flux de données

S'APPLIQUE À : Azure Data Factory Azure Synapse Analytics

Conseil

Data Factory dans Microsoft Fabric est la prochaine génération de Azure Data Factory, avec une architecture plus simple, une IA intégrée et de nouvelles fonctionnalités. Si vous débutez avec l'intégration des données, commencez par Fabric Data Factory. Les charges de travail ADF existantes peuvent être mises à niveau vers Fabric pour accéder à de nouvelles fonctionnalités dans la science des données, l’analytique en temps réel et la création de rapports.

Vue d’ensemble

Azure Data Factory et le mode de débogage du flux de données de mappage Synapse Analytics vous permettent de regarder de manière interactive la transformation de forme de données pendant que vous générez et déboguez vos flux de données. La session de débogage peut être utilisée à la fois lors des sessions de conception de Data Flow et pendant le débogage du flux de données dans le pipeline. Pour activer le mode débogage, utilisez le bouton Débogage de Flux de Données dans la barre supérieure du canevas de flux de données ou du canevas de pipeline lorsque vous avez des activités de flux de données.

Une fois le curseur activé, vous serez invité à sélectionner la configuration de runtime d'intégration que vous souhaitez utiliser. Si vous choisissez AutoResolveIntegrationRuntime, un cluster comprenant 8 cœurs de calcul général avec une durée de vie par défaut de 60 minutes est lancé. Si vous souhaitez autoriser un plus grand nombre d’équipes inactives avant l’expiration de votre session, vous pouvez choisir un paramètre TTL plus élevé. Pour plus d’informations sur les runtimes d’intégration de flux de données, consultez Integration Runtime performances.

Déboguer la sélection IR

Lorsque le mode débogage est activé, vous allez générer de manière interactive votre flux de données avec un cluster Spark actif. La session se ferme une fois que vous avez désactivé le débogage. Prenez connaissance des frais horaires engendrés par Data Factory pendant la durée d’activation de la session de débogage.

Dans la plupart des cas, nous vous recommandons de créer vos flux de données en mode débogage pour que vous puissiez valider votre logique métier et afficher vos transformations de données avant de publier votre travail. Utilisez le bouton « Débogage » sur le panneau du pipeline pour tester votre flux de données dans un pipeline.

Azure Data Factory.
Synapse Analytics

Afficher les sessions de débogage du flux de données

Note

Chaque session de débogage qu’un utilisateur démarre à partir de l’interface utilisateur de son navigateur est une nouvelle session avec son propre cluster Spark. Vous pouvez utiliser la vue d'analyse des sessions de débogage présentée dans les images précédentes pour afficher et gérer les sessions de débogage. Vous êtes facturé pour chaque heure d’exécution de chaque session de débogage, y compris la durée de vie.

Ce clip vidéo présente des conseils, des astuces et des bonnes pratiques pour le mode débogage du flux de données.

État du cluster

L’indicateur d’état du cluster en haut de l’aire de conception devient vert quand le cluster est prêt à être débogué. Si votre cluster est déjà chaud, l'indicateur vert apparaît presque instantanément. Si votre cluster n'était pas déjà en cours d'exécution lorsque vous êtes entré dans le mode débogage, le cluster Spark effectue un démarrage à froid. L'indicateur tourne jusqu'à ce que l'environnement soit prêt pour le débogage interactif.

Lorsque vous avez terminé votre débogage, désactivez le commutateur de débogage afin que votre cluster Spark puisse se terminer et que vous ne soyez plus facturé pour l'activité de débogage.

Paramètres de débogage

Une fois que vous activez le mode débogage, vous pouvez modifier la façon dont un flux de données affiche un aperçu des données. Vous pouvez modifier les paramètres de débogage en cliquant sur « Paramètres de débogage » dans la barre d’outils de canevas Data Flow. Vous pouvez sélectionner la limite de ligne ou la source de fichier à utiliser pour chacune de vos transformations Source ici. Les limites de lignes de ce paramètre s’appliquent uniquement à la session de débogage actuelle. Vous pouvez aussi sélectionner le service lié intermédiaire à utiliser pour une source Azure Synapse Analytics.

Paramètres de débogage

Si vous avez des paramètres dans votre Data Flow ou l’un de ses jeux de données référencés, vous pouvez spécifier les valeurs à utiliser pendant le débogage en sélectionnant l’onglet Parameters.

Utilisez les paramètres d'échantillonnage ici pour pointer vers des fichiers ou des tables de données échantillons afin de ne pas avoir à modifier vos ensembles de données sources. En utilisant un fichier ou une table d'exemple ici, vous pouvez conserver la même logique et les mêmes paramètres de propriété dans votre flux de données tout en testant contre un sous-ensemble de données.

Configuration des paramètres de débogage

Le runtime d’intégration par défaut utilisé pour le mode débogage dans les flux de données est un petit nœud Worker à 4 cœurs avec un nœud de pilote unique à 4 cœurs. Ceci fonctionne correctement avec des échantillons de données réduits quand vous testez la logique de votre flux de données. Si vous développez les limites de ligne dans vos paramètres de débogage pendant l’aperçu des données ou définissez un nombre plus élevé de lignes échantillonées dans votre source pendant le débogage du pipeline, vous pouvez envisager de définir un environnement de calcul plus grand dans une nouvelle Azure Integration Runtime. Vous pouvez ensuite redémarrer votre session de débogage et utiliser l’environnement de calcul agrandi.

Aperçu des données

Lorsque le débogage est activé, l'onglet Prévisualisation des données s'allume dans le panneau inférieur. Sans mode débogage activé, Data Flow affiche uniquement les métadonnées actuelles dans et hors de chacune de vos transformations sous l’onglet Inspecter. L’aperçu des données interroge uniquement le nombre de lignes que vous avez définies comme limite dans vos paramètres de débogage. Sélectionnez Actualiser pour mettre à jour la prévisualisation des données en fonction de vos transformations actuelles. Si vos données sources ont été modifiées, sélectionnez l'option Actualiser > Rafraîchir depuis la source.

Aperçu des données

Vous pouvez trier les colonnes dans l’aperçu des données et réorganiser les colonnes par glisser-déplacer. En outre, un bouton d'exportation situé dans le coin supérieur du panneau de prévisualisation des données permet d'exporter les données de prévisualisation vers un fichier CSV pour une exploration des données hors ligne. Vous pouvez utiliser cette fonctionnalité pour exporter jusqu’à 1 000 lignes de données d’aperçu.

Note

Les sources de fichier limitent uniquement les lignes que vous voyez et non celles qui sont en cours de lecture. Pour les jeux de données très volumineux, il est recommandé de prendre une petite partie de ce fichier et de l’utiliser pour vos tests. Vous pouvez sélectionner un fichier temporaire dans les paramètres de débogage pour chaque source correspondant à un type de jeu de données de fichier.

Lors de l'exécution de Data Flow en mode débogage, vos données ne seront pas écrites vers la transformation Sink. Le but d’une session de débogage est de servir d’atelier de test pour vos transformations. Les éviers ne sont pas nécessaires pendant le débogage et sont ignorés dans votre flux de données. Si vous souhaitez tester l’écriture des données dans votre récepteur, exécutez le Data Flow à partir d’un pipeline et utilisez l’exécution Débogage à partir d’un pipeline.

L’aperçu des données est un instantané de vos données transformées qui utilise les limites du nombre de lignes et l’échantillonnage des données provenant des trames de données dans la mémoire Spark. Par conséquent, les pilotes du récepteur ne sont pas utilisés ou testés dans ce scénario.

Note

Les données en préversion affichent l’heure selon les paramètres régionaux du navigateur.

Test des conditions de jointure

Lors du test unitaire des transformations de jointure, de recherche ou Exists, veillez à utiliser un petit ensemble de données connues pour votre test. Vous pouvez utiliser l'option Paramètres de débogage décrite précédemment pour définir un fichier temporaire à utiliser pour vos tests. Cette opération est nécessaire, car lors de la limitation ou de l'échantillonnage des lignes d'un grand ensemble de données, il est impossible de prévoir quelles lignes et quelles clés seront lues dans le flux pour les tests. Le résultat est non déterministe, ce qui signifie que vos conditions de jointure peuvent échouer.

Actions rapides

Une fois que vous voyez l’aperçu des données, vous pouvez générer une transformation rapide pour convertir en typecast, supprimer ou modifier une colonne. Sélectionnez l'en-tête de la colonne, puis l'une des options de la barre d'outils de prévisualisation des données.

Capture d’écran montrant la barre d’outils d’aperçu des données avec les options : Typecast, Modifier, Statistiques et Supprimer.

Une fois que vous avez sélectionné une modification, l’aperçu des données est immédiatement actualisé. Sélectionnez Confirmer dans le coin supérieur droit pour générer une nouvelle transformation.

Capture d’écran montrant le bouton Confirmer.

Typecast et Modifier génèrent une transformation de colonne dérivée et Supprimer génère une transformation Select.

Capture d’écran montrant les paramètres de la colonne dérivée.

Note

Si vous modifiez votre Data Flow, vous devez récupérer à nouveau l’aperçu des données avant d’ajouter une transformation rapide.

Profilage des données

En sélectionnant une colonne dans l'onglet Prévisualisation des données et en cliquant sur Statistiques dans la barre d'outils de prévisualisation des données, un graphique s'affiche à l'extrême droite de votre grille de données, avec des statistiques détaillées sur chaque champ. Le service détermine, sur la base de l'échantillonnage des données, le type de graphique à afficher. Les champs à cardinalité élevée affichent par défaut des diagrammes NULL/NOT NULL, tandis que les données catégorielles et numériques à cardinalité faible affichent des graphiques à barres montrant la fréquence des valeurs des données. Les champs suivants sont également disponibles : longueur max/len des chaînes, valeurs min/max dans les champs numériques, écart type, centiles, comptes et moyenne.

Statistiques de colonne

Une fois que vous avez terminé la création et le débogage de votre flux de données, exécutez-le depuis un pipeline.
Lors du test de votre pipeline avec un flux de données, utilisez l'option d'exécution de débogage du pipeline.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-07

Mode de débogage du mappage de flux de données

Vue d’ensemble

État du cluster

Paramètres de débogage

Aperçu des données

Test des conditions de jointure

Actions rapides

Profilage des données

Contenu connexe

Commentaires

Ressources supplémentaires