Note
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de changer d’annuaire.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de changer d’annuaire.
Cette section décrit l’utilisation des fonctionnalités intégrées de supervision et d’observabilité pour les pipelines déclaratifs Spark Lakeflow dans l’interface utilisateur Azure Databricks. Ces fonctionnalités prennent en charge les tâches telles que celles suivantes :
- Observation de la progression et de l’état des mises à jour de pipelines. Consultez les détails du pipeline disponibles dans la page de surveillance.
- Alertes sur les événements de pipeline, tels que la réussite ou l’échec des mises à jour de pipeline. Consultez Ajouter des notifications par e-mail pour les événements de pipeline.
- Affichage des métriques pour les sources de streaming telles qu'Apache Kafka et l'Auto Loader (aperçu public). Consultez Afficher les mesures de diffusion en continu.
Ajouter des notifications par e-mail pour les événements de pipeline
Vous pouvez configurer une ou plusieurs adresses e-mail pour recevoir des notifications lorsque les opérations suivantes se produisent :
- Une mise à jour du pipeline s'achève avec succès.
- Une mise à jour de pipeline échoue, soit à cause d'une erreur réessayable, soit à cause d'une erreur non réessayable. Sélectionnez cette option pour recevoir une notification pour toutes les défaillances du pipeline.
- Une mise à jour de pipeline échoue avec une erreur non réessayable (fatale). Sélectionnez cette option pour recevoir une notification uniquement lorsqu’une erreur non renouvelable se produit.
- Un flux de données unique échoue.
Pour configurer les notifications par e-mail, modifiez les paramètres d’un pipeline. Voir Notifications.
Note
Créez des réponses personnalisées aux événements, y compris les notifications ou la gestion personnalisée, à l’aide de hooks d’événements Python.
Affichage des pipelines dans l’interface utilisateur
Recherchez votre pipeline à partir de Option Travaux &Pipelines dans la barre latérale de l’espace de travail. La page Travaux et pipelines s’ouvre, où vous pouvez afficher des informations sur chaque travail et pipeline auquel vous avez accès. Cliquez sur le nom d’un pipeline pour ouvrir la page de surveillance du pipeline. Pour modifier le travail ou le pipeline, cliquez sur
et choisissez Modifier.
Note
Les travaux et les différents types de pipeline ont des éditeurs différents. L’option Modifier ouvre l’éditeur approprié pour l’objet que vous sélectionnez.
Utilisation de la liste Travaux et pipelines
Pour afficher la liste des pipelines auquel vous avez accès, cliquez sur Travaux & Pipelines dans la barre latérale. L’onglet Travaux &pipelines répertorie des informations sur tous les travaux et pipelines disponibles, tels que le créateur, le déclencheur (le cas échéant) et le résultat des cinq dernières exécutions.
En cliquant sur le nom d’un pipeline ou d’un travail, vous accédez à la page de surveillance de ce pipeline ou de ce travail. Pour modifier le pipeline ou le travail, cliquez sur puis sélectionnez Modifier.
Pour modifier les colonnes affichées dans la liste, cliquez sur de colonne et sélectionnez ou désélectionnez les colonnes. Par exemple, pour ajouter la
Pipeline Type colonne en tant que colonne, sélectionnez cette colonne à afficher.
Vous pouvez filtrer les travaux dans la liste Travaux et pipelines , comme illustré dans la capture d’écran suivante.
-
Recherche de texte : la recherche de mots clés est prise en charge pour les champs Nom et ID . Pour rechercher une étiquette créée avec une clé et une valeur, vous pouvez lancer une recherche par clé, valeur ou clé et valeur. Par exemple, pour une étiquette avec la clé
departmentet la valeurfinance, vous pouvez rechercherdepartmentoufinancepour trouver les travaux correspondants. Pour effectuer une recherche par la clé et la valeur, entrez la clé et la valeur séparées par un signe deux-points (par exemple,department:finance). - Type : filtrez par travaux, pipelines ou tout. Si vous sélectionnez Pipelines , vous pouvez également filtrer par type de pipeline, qui inclut des pipelines ETL et Ingestion.
- Propriétaire : afficher uniquement les travaux que vous possédez.
- Favoris : afficher les travaux que vous avez marqués comme favoris.
- Balises : utilisez des balises. Pour effectuer une recherche par balise, vous pouvez utiliser le menu déroulant des balises pour filtrer jusqu’à cinq balises en même temps ou utiliser directement la recherche de mots clés.
-
Exécuter en tant que : Filtrer par jusqu’à deux
run asvaleurs.
Pour démarrer un travail ou un pipeline, cliquez sur le bouton de lecture . Pour arrêter un travail ou un pipeline, cliquez sur le bouton
. Pour accéder à d'autres actions, cliquez sur le menu kebab
. Par exemple, vous pouvez modifier ou supprimer le travail ou le pipeline, ou accéder aux paramètres d’un pipeline à partir de ce menu.
Détails du pipeline disponibles dans la page de surveillance
Note
Il existe plusieurs aperçus qui peuvent influencer ce que vous observez lors du suivi des pipelines dans l'interface utilisateur.
- L’Éditeur de pipelines Lakeflow modifie l’expérience pour les détails du pipeline. Si vous avez choisi la préversion, les informations s’affichent dans une interface utilisateur différente de celle décrite ici. Pour plus d’informations sur cette interface utilisateur, consultez Quelles modifications sont apportées dans l’éditeur de pipelines Lakeflow ?.
- L'aperçu de la liste des exécutions unifiées ajoute des exécutions de pipeline à la liste des exécutions de travaux. Pour plus d’informations sur les modifications avec cette préversion activée et comment l’activer, consultez Quelles modifications sont apportées à la liste des exécutions unifiées ?.
Le fait de cliquer sur le nom d’un pipeline dans la page Travaux & Pipelines affiche la page de surveillance de ce pipeline. À partir de là, vous pouvez démarrer une exécution de pipeline et afficher les détails de l’exécution précédente.
Le graphique de pipeline (également appelé DAG) s’affiche dès qu’une mise à jour d’un pipeline a démarré. Les flèches représentent les dépendances entre les jeux de données de votre pipeline. Par défaut, la page de surveillance du pipeline affiche la mise à jour la plus récente pour la table, mais vous pouvez sélectionner des mises à jour plus anciennes dans un menu déroulant.
Les détails incluent l’ID de pipeline, le code source, le coût de calcul, l’édition du produit et le canal configuré pour le pipeline.
Pour afficher une vue tabulaire des jeux de données, cliquez sur l’onglet Liste . La vue Liste vous permet de voir tous les jeux de données de votre pipeline représentés sous forme de ligne dans une table et est utile lorsque votre graphique de pipeline est trop volumineux pour visualiser dans la vue Graph . Vous pouvez contrôler les jeux de données affichés dans la table à l’aide de plusieurs filtres tels que le nom, le type et l’état du jeu de données. Pour revenir à la visualisation DAG, cliquez sur Graphe.
L’utilisateur Run as est le propriétaire du pipeline, et les mises à jour du pipeline sont exécutées avec les autorisations de cet utilisateur. Pour modifier l’utilisateur run as, cliquez sur Autorisations et modifiez le propriétaire du pipeline.
Quelles modifications sont apportées dans l’éditeur de pipelines Lakeflow ?
Si vous vous êtes inscrit à la préversion de l'Éditeur de pipelines Lakeflow et à la nouvelle interface utilisateur de surveillance des pipelines, certaines informations se trouvent à des endroits différents dans l'interface utilisateur. Pour plus d’informations sur l’éditeur de pipelines Lakeflow et sur l’inscription dans les deux préversions, consultez Activer l’éditeur de pipelines Lakeflow et la surveillance mise à jour.
Important
Cette fonctionnalité est disponible en préversion publique.
Les modifications suivantes apportées à la surveillance avec la page de surveillance du pipeline s’affichent lorsque vous avez choisi les deux aperçus :
Les détails du pipeline et les onglets Détails de mise à jour dans le volet droit ont été fusionnés avec les détails du pipeline en haut, suivis des détails de mise à jour.
Le fait de cliquer sur une table dans le graphique n’affiche pas les détails du tableau dans le volet droit. Le panneau droit continue d’afficher les détails du pipeline et de la mise à jour. Au lieu de cela, le panneau inférieur affiche les informations de tableau.
Les règles d’exécution d’un pipeline en mode développement sont légèrement mises à jour. Pour plus d’informations sur le mode de développement, consultez le mode développement.
- L’exécution d’un pipeline via une planification ou un déclencheur suit le paramètre de pipeline pour savoir s’il faut utiliser le mode de développement. Vous pouvez modifier la valeur par défaut d’un pipeline dans les paramètres du pipeline.
- L’exécution d’un pipeline via l’interface utilisateur de surveillance utilise le mode défini dans les paramètres du pipeline. Vous pouvez choisir d’utiliser le mode de développement à l’aide de l’option Exécuter avec différentes options de paramètres dans la liste déroulante.
- L’exécution d’un pipeline à partir de l’éditeur de pipeline est par défaut en mode de développement. Vous pouvez choisir de ne pas utiliser le mode de développement à l’aide de l’option Exécuter avec différentes options de paramètres dans la liste déroulante.
Il n’existe plus de lien vers le code source dans les détails du pipeline. Au lieu de cela, choisissez Modifier le pipeline en haut. Pour accéder au code d’une table spécifique, pointez sur la table dans le DAG, puis cliquez sur
Accédez au bouton code .
Le journal des événements n’est plus affiché par défaut sur chaque mise à jour de la page de surveillance du pipeline. En cas d’erreur pendant le traitement, les erreurs sont affichées dans le volet inférieur et un bouton Afficher les journaux s’affiche pour afficher le journal des événements pour cette exécution. Le journal des événements est également disponible en sélectionnant
Affichez le journal des événements à partir des détails de l’exécution dans le volet droit.
Pour accéder au journal des événements lors de l’exécution d’une mise à jour dans le nouvel éditeur de pipelines Lakeflow, accédez au panneau
Problèmes et Observations en bas de l’éditeur, cliquez surAfficher les journaux ou sur le boutonOuvrir dans les journaux à côté de toute erreur. Pour plus d’informations, consultez l’Éditeur de pipelines Lakeflow et le paramètre Pipeline pour le journal des événements. Les informations de schéma de table sont disponibles en choisissant la table sous l’onglet Tables du volet inférieur, puis en sélectionnant Colonnes.
L’historique des requêtes est disponible en choisissant Performances dans le volet inférieur.
Les commentaires de tableau ne sont pas disponibles à partir de la page de détails du pipeline. Pour afficher les commentaires de tableau, affichez la table à partir de l’Explorateur de catalogues. Pour accéder directement à la table dans l’Explorateur de catalogues, pointez la souris sur la table dans le DAG, puis cliquez sur
puis
Affichage dans le catalogue. Vous pouvez également accéder aux informations de l’Explorateur de catalogues dans la liste des tableaux dans le volet inférieur en cliquant sur
Quelles modifications sont apportées à la préversion de la liste des exécutions unifiées ?
Si
Important
La liste des exécutions unifiées est en aperçu public.
Pour activer la liste des exécutions unifiées, un administrateur d’espace de travail doit opter pour la préversion. Pour plus d’informations sur l’inscription à une préversion, consultez Gérer les préversions au niveau du compte.
Pour accéder à la liste des exécutions unifiées, sélectionnez Exécutions depuis la barre latérale de l’espace de travail ou cliquez sur
Tâches & Pipelines, puis choisissez l’onglet Exécutions.
L’onglet affiche une liste des exécutions récentes au cours des 60 derniers jours. Un graphique montrant le succès et l’échec des exécutions au cours des 48 dernières heures s’affiche en premier, dans les cas suivants :
- Vous êtes filtré sur tâches ou pipelines uniquement.
- Vous êtes administrateur ou filtrez pour exécuter uniquement
Run as: Me - Les tâches peuvent prendre jusqu’à une heure pour s’afficher sur le graphique.
Vous pouvez filtrer la liste et le graphique en :
- Nom de la tâche ou du pipeline.
- Tous, les tâches, ou pipelines.
- Type de pipeline (ETL, Ingestion, MV/ST ou Database Table Sync).
- Exécuter en tant qu’utilisateur.
- Heure de début de l’exécution (au cours des 48 dernières heures).
- État d’exécution.
- Code d’erreur pour les exécutions ayant échoué.
En plus de ce qui précède, vous pouvez afficher les colonnes suivantes dans la liste :
- Heure de fin
- ID d’exécution
- Indique si l’exécution a été lancée manuellement ou par une planification.
- Durée d’exécution.
- Exécutez des paramètres.
Pour modifier les colonnes affichées dans la liste des exécutions, cliquez sur puis sélectionnez ou désélectionnez les colonnes.
Si vous cliquez sur l’heure de début, l’heure de fin ou le nom d’une exécution de pipeline, vous accédez à la page de surveillance du pipeline.
Lorsqu’un pipeline est en cours d’exécution, vous pouvez arrêter l’exécution en cliquant sur À tout moment, vous pouvez également cliquer sur
Bouton de menu sur la ligne de l’exécution, puis choisir Modifier le pipeline pour afficher le pipeline dans l’éditeur.
Comment afficher les détails du jeu de données ?
Cliquer sur un jeu de données dans le graphique de pipeline ou la liste des jeux de données affiche des détails sur le jeu de données. Les détails incluent le schéma du jeu de données, les métriques de qualité des données et un lien vers le code source définissant le jeu de données.
Consulter l’historique des mises à jour
Pour afficher l’historique et l’état des mises à jour du pipeline, cliquez sur le menu déroulant Historique des mises à jour dans la barre supérieure.
Sélectionnez la mise à jour dans le menu déroulant pour afficher le graphique, les détails et les événements d’une mise à jour. Pour revenir à la dernière mise à jour, cliquez sur Afficher la dernière mise à jour.
Afficher les métriques de diffusion en continu
Important
L’observabilité du streaming pour les pipelines est en aperçu public.
Vous pouvez afficher les métriques de flux en continu à partir des sources de données prises en charge par Spark Structured Streaming, telles qu’Apache Kafka, Amazon Kinesis, Auto Loader et les tables Delta, pour chaque flux de streaming dans votre pipeline. Les métriques sont affichées sous forme de graphiques dans le volet droit de l’interface utilisateur du pipeline et incluent des secondes de backlog, des octets de backlog, des enregistrements de backlog et des fichiers de backlog. Les graphiques affichent la valeur maximale agrégée par minute et une info-bulle affiche les valeurs maximales lorsque vous pointez sur le graphique. Les données sont limitées aux 48 dernières heures à partir de l’heure actuelle.
Les tableaux de votre pipeline avec des métriques de diffusion en continu disponibles affichent
lors de l’affichage du DAG du pipeline dans la vue Graph de l’interface utilisateur. **
Pour afficher les métriques de diffusion en continu, cliquez sur l’icône de graphique
pour afficher le graphique des métriques dans l’onglet Flux du panneau droit. Vous pouvez également appliquer un filtre pour afficher uniquement les tables avec des métriques de diffusion en continu en cliquant sur Liste, puis sur Avec mesures de diffusion en continu.
Chaque source de diffusion en continu prend uniquement en charge des métriques spécifiques. Les métriques non prises en charge par une source de diffusion en continu ne sont pas disponibles pour l’affichage dans l’interface utilisateur. Le tableau suivant présente les métriques disponibles pour les sources de diffusion en continu prises en charge :
| Source | octets de backlog | enregistrements de backlog | secondes de backlog | fichiers en retard |
|---|---|---|---|---|
| Kafka | ✓ | ✓ | ||
| Kinesis | ✓ | ✓ | ||
| Delta | ✓ | ✓ | ||
| Chargeur automatique | ✓ | ✓ | ||
| Google Pub/Sub | ✓ | ✓ |