Partager via


Surveiller les pipelines dans l’interface utilisateur

Cette section décrit l’utilisation des fonctionnalités intégrées de supervision et d’observabilité pour les pipelines déclaratifs Spark Lakeflow dans l’interface utilisateur Azure Databricks. Ces fonctionnalités prennent en charge les tâches telles que celles suivantes :

Ajouter des notifications par e-mail pour les événements de pipeline

Vous pouvez configurer une ou plusieurs adresses e-mail pour recevoir des notifications lorsque les opérations suivantes se produisent :

  • Une mise à jour du pipeline s'achève avec succès.
  • Une mise à jour de pipeline échoue, soit à cause d'une erreur réessayable, soit à cause d'une erreur non réessayable. Sélectionnez cette option pour recevoir une notification pour toutes les défaillances du pipeline.
  • Une mise à jour de pipeline échoue avec une erreur non réessayable (fatale). Sélectionnez cette option pour recevoir une notification uniquement lorsqu’une erreur non renouvelable se produit.
  • Un flux de données unique échoue.

Pour configurer les notifications par e-mail, modifiez les paramètres d’un pipeline. Voir Notifications.

Note

Créez des réponses personnalisées aux événements, y compris les notifications ou la gestion personnalisée, à l’aide de hooks d’événements Python.

Affichage des pipelines dans l’interface utilisateur

Recherchez votre pipeline à partir de l’icône Flux de travail.Option Travaux &Pipelines dans la barre latérale de l’espace de travail. La page Travaux et pipelines s’ouvre, où vous pouvez afficher des informations sur chaque travail et pipeline auquel vous avez accès. Cliquez sur le nom d’un pipeline pour ouvrir la page de surveillance du pipeline. Pour modifier le travail ou le pipeline, cliquez sur l’icône menu kebab et choisissez Modifier.

Note

Les travaux et les différents types de pipeline ont des éditeurs différents. L’option Modifier ouvre l’éditeur approprié pour l’objet que vous sélectionnez.

Utilisation de la liste Travaux et pipelines

Pour afficher la liste des pipelines auquel vous avez accès, cliquez sur l’icône Flux de travail.Travaux & Pipelines dans la barre latérale. L’onglet Travaux &pipelines répertorie des informations sur tous les travaux et pipelines disponibles, tels que le créateur, le déclencheur (le cas échéant) et le résultat des cinq dernières exécutions.

En cliquant sur le nom d’un pipeline ou d’un travail, vous accédez à la page de surveillance de ce pipeline ou de ce travail. Pour modifier le pipeline ou le travail, cliquez sur l’icône de menu Kebab, puis sélectionnez Modifier.

Pour modifier les colonnes affichées dans la liste, cliquez sur l’icône Paramètres de colonne et sélectionnez ou désélectionnez les colonnes. Par exemple, pour ajouter la Pipeline Type colonne en tant que colonne, sélectionnez cette colonne à afficher.

Vous pouvez filtrer les travaux dans la liste Travaux et pipelines , comme illustré dans la capture d’écran suivante.

Affichage de la liste des pipelines avec annotations.

  1. Recherche de texte : la recherche de mots clés est prise en charge pour les champs Nom et ID . Pour rechercher une étiquette créée avec une clé et une valeur, vous pouvez lancer une recherche par clé, valeur ou clé et valeur. Par exemple, pour une étiquette avec la clé department et la valeur finance, vous pouvez rechercher department ou finance pour trouver les travaux correspondants. Pour effectuer une recherche par la clé et la valeur, entrez la clé et la valeur séparées par un signe deux-points (par exemple, department:finance).
  2. Type : filtrez par travaux, pipelines ou tout. Si vous sélectionnez Pipelines , vous pouvez également filtrer par type de pipeline, qui inclut des pipelines ETL et Ingestion.
  3. Propriétaire : afficher uniquement les travaux que vous possédez.
  4. Favoris : afficher les travaux que vous avez marqués comme favoris.
  5. Balises : utilisez des balises. Pour effectuer une recherche par balise, vous pouvez utiliser le menu déroulant des balises pour filtrer jusqu’à cinq balises en même temps ou utiliser directement la recherche de mots clés.
  6. Exécuter en tant que : Filtrer par jusqu’à deux run as valeurs.

Pour démarrer un travail ou un pipeline, cliquez sur le bouton de lecture Icône de lecture. Pour arrêter un travail ou un pipeline, cliquez sur le bouton Icône d’arrêt . Pour accéder à d'autres actions, cliquez sur le menu kebab Icône du menu kebab.. Par exemple, vous pouvez modifier ou supprimer le travail ou le pipeline, ou accéder aux paramètres d’un pipeline à partir de ce menu.

Détails du pipeline disponibles dans la page de surveillance

Note

Il existe plusieurs aperçus qui peuvent influencer ce que vous observez lors du suivi des pipelines dans l'interface utilisateur.

Le fait de cliquer sur le nom d’un pipeline dans la page Travaux & Pipelines affiche la page de surveillance de ce pipeline. À partir de là, vous pouvez démarrer une exécution de pipeline et afficher les détails de l’exécution précédente.

Le graphique de pipeline (également appelé DAG) s’affiche dès qu’une mise à jour d’un pipeline a démarré. Les flèches représentent les dépendances entre les jeux de données de votre pipeline. Par défaut, la page de surveillance du pipeline affiche la mise à jour la plus récente pour la table, mais vous pouvez sélectionner des mises à jour plus anciennes dans un menu déroulant.

Les détails incluent l’ID de pipeline, le code source, le coût de calcul, l’édition du produit et le canal configuré pour le pipeline.

Pour afficher une vue tabulaire des jeux de données, cliquez sur l’onglet Liste . La vue Liste vous permet de voir tous les jeux de données de votre pipeline représentés sous forme de ligne dans une table et est utile lorsque votre graphique de pipeline est trop volumineux pour visualiser dans la vue Graph . Vous pouvez contrôler les jeux de données affichés dans la table à l’aide de plusieurs filtres tels que le nom, le type et l’état du jeu de données. Pour revenir à la visualisation DAG, cliquez sur Graphe.

L’utilisateur Run as est le propriétaire du pipeline, et les mises à jour du pipeline sont exécutées avec les autorisations de cet utilisateur. Pour modifier l’utilisateur run as, cliquez sur Autorisations et modifiez le propriétaire du pipeline.

Quelles modifications sont apportées dans l’éditeur de pipelines Lakeflow ?

Si vous vous êtes inscrit à la préversion de l'Éditeur de pipelines Lakeflow et à la nouvelle interface utilisateur de surveillance des pipelines, certaines informations se trouvent à des endroits différents dans l'interface utilisateur. Pour plus d’informations sur l’éditeur de pipelines Lakeflow et sur l’inscription dans les deux préversions, consultez Activer l’éditeur de pipelines Lakeflow et la surveillance mise à jour.

Important

Cette fonctionnalité est disponible en préversion publique.

Les modifications suivantes apportées à la surveillance avec la page de surveillance du pipeline s’affichent lorsque vous avez choisi les deux aperçus :

  • Les détails du pipeline et les onglets Détails de mise à jour dans le volet droit ont été fusionnés avec les détails du pipeline en haut, suivis des détails de mise à jour.

  • Le fait de cliquer sur une table dans le graphique n’affiche pas les détails du tableau dans le volet droit. Le panneau droit continue d’afficher les détails du pipeline et de la mise à jour. Au lieu de cela, le panneau inférieur affiche les informations de tableau.

  • Les règles d’exécution d’un pipeline en mode développement sont légèrement mises à jour. Pour plus d’informations sur le mode de développement, consultez le mode développement.

    • L’exécution d’un pipeline via une planification ou un déclencheur suit le paramètre de pipeline pour savoir s’il faut utiliser le mode de développement. Vous pouvez modifier la valeur par défaut d’un pipeline dans les paramètres du pipeline.
    • L’exécution d’un pipeline via l’interface utilisateur de surveillance utilise le mode défini dans les paramètres du pipeline. Vous pouvez choisir d’utiliser le mode de développement à l’aide de l’option Exécuter avec différentes options de paramètres dans la liste déroulante.
    • L’exécution d’un pipeline à partir de l’éditeur de pipeline est par défaut en mode de développement. Vous pouvez choisir de ne pas utiliser le mode de développement à l’aide de l’option Exécuter avec différentes options de paramètres dans la liste déroulante.
  • Il n’existe plus de lien vers le code source dans les détails du pipeline. Au lieu de cela, choisissez Modifier le pipeline en haut. Pour accéder au code d’une table spécifique, pointez sur la table dans le DAG, puis cliquez sur l’icône de code fichier.Accédez au bouton code .

  • Le journal des événements n’est plus affiché par défaut sur chaque mise à jour de la page de surveillance du pipeline. En cas d’erreur pendant le traitement, les erreurs sont affichées dans le volet inférieur et un bouton Afficher les journaux s’affiche pour afficher le journal des événements pour cette exécution. Le journal des événements est également disponible en sélectionnant l’icône en mode Lecteur.Affichez le journal des événements à partir des détails de l’exécution dans le volet droit.

    Pour accéder au journal des événements lors de l’exécution d’une mise à jour dans le nouvel éditeur de pipelines Lakeflow, accédez au panneau Problèmes et Observations en bas de l’éditeur, cliquez sur Afficher les journaux ou sur le bouton Ouvrir dans les journaux à côté de toute erreur. Pour plus d’informations, consultez l’Éditeur de pipelines Lakeflow et le paramètre Pipeline pour le journal des événements.

  • Les informations de schéma de table sont disponibles en choisissant la table sous l’onglet Tables du volet inférieur, puis en sélectionnant Colonnes.

  • L’historique des requêtes est disponible en choisissant Performances dans le volet inférieur.

  • Les commentaires de tableau ne sont pas disponibles à partir de la page de détails du pipeline. Pour afficher les commentaires de tableau, affichez la table à partir de l’Explorateur de catalogues. Pour accéder directement à la table dans l’Explorateur de catalogues, pointez la souris sur la table dans le DAG, puis cliquez sur l’icône de menu Kebab, puis sur l’icône De données.Affichage dans le catalogue. Vous pouvez également accéder aux informations de l’Explorateur de catalogues dans la liste des tableaux dans le volet inférieur en cliquant sur l’icône Données.

Quelles modifications sont apportées à la préversion de la liste des exécutions unifiées ?

Si l'aperçu de la liste des exécutions unifiées est activé, vous pouvez voir les mises à jour des exécutions de pipeline dans la page Tâches & Pipelines.

Important

La liste des exécutions unifiées est en aperçu public.

Pour activer la liste des exécutions unifiées, un administrateur d’espace de travail doit opter pour la préversion. Pour plus d’informations sur l’inscription à une préversion, consultez Gérer les préversions au niveau du compte.

Pour accéder à la liste des exécutions unifiées, sélectionnez l’icône Check-list. Exécutions depuis la barre latérale de l’espace de travail ou cliquez sur l’icône Flux de travail.Tâches & Pipelines, puis choisissez l’onglet Exécutions.

L’onglet affiche une liste des exécutions récentes au cours des 60 derniers jours. Un graphique montrant le succès et l’échec des exécutions au cours des 48 dernières heures s’affiche en premier, dans les cas suivants :

  • Vous êtes filtré sur tâches ou pipelines uniquement.
  • Vous êtes administrateur ou filtrez pour exécuter uniquement Run as: Me
  • Les tâches peuvent prendre jusqu’à une heure pour s’afficher sur le graphique.

Vous pouvez filtrer la liste et le graphique en :

  • Nom de la tâche ou du pipeline.
  • Tous, les tâches, ou pipelines.
  • Type de pipeline (ETL, Ingestion, MV/ST ou Database Table Sync).
  • Exécuter en tant qu’utilisateur.
  • Heure de début de l’exécution (au cours des 48 dernières heures).
  • État d’exécution.
  • Code d’erreur pour les exécutions ayant échoué.

En plus de ce qui précède, vous pouvez afficher les colonnes suivantes dans la liste :

  • Heure de fin
  • ID d’exécution
  • Indique si l’exécution a été lancée manuellement ou par une planification.
  • Durée d’exécution.
  • Exécutez des paramètres.

Pour modifier les colonnes affichées dans la liste des exécutions, cliquez sur l’icône Colonnes, puis sélectionnez ou désélectionnez les colonnes.

Si vous cliquez sur l’heure de début, l’heure de fin ou le nom d’une exécution de pipeline, vous accédez à la page de surveillance du pipeline.

Lorsqu’un pipeline est en cours d’exécution, vous pouvez arrêter l’exécution en cliquant sur l’icône Arrêter. Bouton Arrêter. À tout moment, vous pouvez également cliquer sur l’icône de menu Kebab. Bouton de menu sur la ligne de l’exécution, puis choisir Modifier le pipeline pour afficher le pipeline dans l’éditeur.

Comment afficher les détails du jeu de données ?

Cliquer sur un jeu de données dans le graphique de pipeline ou la liste des jeux de données affiche des détails sur le jeu de données. Les détails incluent le schéma du jeu de données, les métriques de qualité des données et un lien vers le code source définissant le jeu de données.

Consulter l’historique des mises à jour

Pour afficher l’historique et l’état des mises à jour du pipeline, cliquez sur le menu déroulant Historique des mises à jour dans la barre supérieure.

Sélectionnez la mise à jour dans le menu déroulant pour afficher le graphique, les détails et les événements d’une mise à jour. Pour revenir à la dernière mise à jour, cliquez sur Afficher la dernière mise à jour.

Afficher les métriques de diffusion en continu

Important

L’observabilité du streaming pour les pipelines est en aperçu public.

Vous pouvez afficher les métriques de flux en continu à partir des sources de données prises en charge par Spark Structured Streaming, telles qu’Apache Kafka, Amazon Kinesis, Auto Loader et les tables Delta, pour chaque flux de streaming dans votre pipeline. Les métriques sont affichées sous forme de graphiques dans le volet droit de l’interface utilisateur du pipeline et incluent des secondes de backlog, des octets de backlog, des enregistrements de backlog et des fichiers de backlog. Les graphiques affichent la valeur maximale agrégée par minute et une info-bulle affiche les valeurs maximales lorsque vous pointez sur le graphique. Les données sont limitées aux 48 dernières heures à partir de l’heure actuelle.

Les tableaux de votre pipeline avec des métriques de diffusion en continu disponibles affichent l’icône d’icône du graphique LDP lors de l’affichage du DAG du pipeline dans la vue Graph de l’interface utilisateur. ** Pour afficher les métriques de diffusion en continu, cliquez sur l’icône de graphique LDP pour afficher le graphique des métriques dans l’onglet Flux du panneau droit. Vous pouvez également appliquer un filtre pour afficher uniquement les tables avec des métriques de diffusion en continu en cliquant sur Liste, puis sur Avec mesures de diffusion en continu.

Chaque source de diffusion en continu prend uniquement en charge des métriques spécifiques. Les métriques non prises en charge par une source de diffusion en continu ne sont pas disponibles pour l’affichage dans l’interface utilisateur. Le tableau suivant présente les métriques disponibles pour les sources de diffusion en continu prises en charge :

Source octets de backlog enregistrements de backlog secondes de backlog fichiers en retard
Kafka
Kinesis
Delta
Chargeur automatique
Google Pub/Sub