Partager via


Surveillance et observabilité des travaux Lakeflow

Cet article décrit les fonctionnalités disponibles dans l’interface utilisateur Azure Databricks pour afficher les travaux auquel vous avez accès, afficher un historique des exécutions pour les travaux et afficher les détails des exécutions de travaux. Pour configurer des notifications pour les tâches, consultez Ajouter des notifications à une tâche.

Pour en savoir plus sur l’utilisation de l’interface CLI Databricks pour afficher et exécuter des tâches, exécutez les commandes CLI databricks jobs list -h, databricks jobs get -h et databricks jobs run-now -h. Pour en savoir plus sur l’utilisation de l’API Travaux, consultez API Travaux.

Si vous avez accès au schéma system.lakeflow, vous pouvez également afficher et interroger les enregistrements des exécutions de travaux et des tâches à partir de votre compte. Consultez Référence de la table du système des travaux. Vous pouvez également associer les tables système des tâches avec des tables de facturation pour surveiller le coût des tâches sur votre compte. Consultez Surveiller les coûts des travaux & performances avec les tables système.

Afficher les travaux et les pipelines

Pour afficher la liste des travaux auquel vous avez accès, cliquez sur l’icône Flux de travail.Travaux & Pipelines dans la barre latérale. L’onglet Travaux et pipelines de l’interface utilisateur des travaux Lakeflow répertorie les informations sur tous les travaux et pipelines disponibles, tels que le créateur, le déclencheur (le cas échéant) et le résultat des cinq dernières exécutions.

Pour modifier les colonnes affichées dans la liste, cliquez sur l’icône Paramètres de colonne et sélectionnez ou désélectionnez les colonnes.

Important

La liste unifiée Travaux et pipelines est en Préversion publique. Vous pouvez désactiver la fonctionnalité et revenir à l’expérience par défaut en désactivant les travaux et les pipelines : gestion unifiée, recherche et filtrage. Pour plus d’informations, consultez Gérer les préversions d’Azure Databricks .

Vous pouvez filtrer les travaux dans la liste Travaux et pipelines , comme illustré dans la capture d’écran suivante.

Affichage liste de projets avec annotations.

  1. Recherche de texte : la recherche de mots clés est prise en charge pour les champs Nom et ID de travail . Pour rechercher une étiquette créée avec une clé et une valeur, vous pouvez lancer une recherche par clé, valeur ou clé et valeur. Par exemple, pour une étiquette avec la clé department et la valeur finance, vous pouvez rechercher department ou finance pour trouver les travaux correspondants. Pour effectuer une recherche par la clé et la valeur, entrez la clé et la valeur séparées par un signe deux-points (par exemple, department:finance).
  2. Type : sélectionnez uniquement les travaux, les pipelines ou tout.
  3. Propriétaire : Sélectionnez uniquement les travaux ou les pipelines dont vous êtes le propriétaire.
  4. Favoris : sélectionnez tous les travaux ou pipelines que vous avez marqués comme favoris.
  5. Balises : utilisez des balises. Pour effectuer une recherche par balise, vous pouvez utiliser le menu déroulant des balises pour filtrer jusqu’à cinq balises en même temps ou utiliser directement la recherche de mots clés.
  6. Exécuter en tant que : Filtrer par jusqu’à deux run as valeurs.

Pour démarrer un travail ou un pipeline, cliquez sur le bouton de lecture Icône de lecture. Pour arrêter un flux de travail, cliquez sur le bouton Arrêter l’icône . Pour accéder à d’autres actions, cliquez sur l’icône de menu Kebab. Par exemple, vous pouvez supprimer le flux de travail ou accéder aux paramètres d’un pipeline via ce menu.

Afficher les exécutions d’un seul projet.

Vous pouvez afficher la liste des exécutions en cours d’exécution et récemment terminées pour un travail auquel vous avez accès, y compris les exécutions démarrées par des outils d’orchestration externes tels qu’Apache Airflow ou Azure Data Factory. Pour afficher la liste des exécutions de travaux récentes :

  1. Dans la barre latérale de votre espace de travail Azure Databricks, cliquez sur Travaux & Pipelines.

  2. Vous pouvez aussi sélectionner les filtres Travaux et Je suis le propriétaire.

  3. Cliquez sur le lien Nom de votre travail.

    L'onglet Exécutions apparaît avec des vues matricielles et de liste des exécutions actives et terminées.

La vue matricielle montre un historique des exécutions pour le travail, avec chaque tâche du travail.

vue matricielle des Emplois.

La ligne Durée totale de l'exécution de la matrice affiche la durée totale et l'état de l'exécution. Pour voir les détails de l’exécution, y compris l’heure de début, la durée et l’état, pointez sur la barre dans la ligne Durée totale de l'exécution.

Chaque cellule de la ligne Tâches représente une tâche et l’état correspondant de la tâche. Pour voir les détails de chaque tâche, y compris l’heure de début, la durée, le cluster et l’état, pointez sur la cellule pour cette tâche.

Les barres d’exécution du travail et d’exécution des tâches ont des codes couleur pour indiquer l’état de l’exécution. Les exécutions réussies sont vertes. Les exécutions infructueuses sont rouges, les exécutions ignorées sont roses et celles en attente d’une nouvelle tentative sont jaunes. Celle en attente, annulées ou expirées sont grises. La hauteur des barres d'exécution de tâches individuelles et d'exécution de tâches indique visuellement la durée d'exécution.

Si vous avez configuré une heure d'achèvement prévue, la vue matricielle affiche un avertissement lorsque la durée d'une exécution dépasse la durée configurée.

Par défaut, l’affichage liste des exécutions affiche les éléments suivants :

  • L’heure de début de l’exécution.
  • L’identificateur de l'exécution.
  • Si l’exécution a été déclenchée par une planification de travail ou par une demande d’API, ou si elle a été démarrée manuellement.
  • Le temps écoulé pour un travail en cours d’exécution ou la durée totale d’exécution pour une exécution terminée. Un avertissement s'affiche si la durée dépasse une heure d'achèvement prévue configurée.
  • État de l’exécution, mis en file d’attente, en attente, en cours d’exécution, ignoré, réussi, échec, expiré, en cours d'annulation ou annulé.
  • Code d’erreur avec lequel l’exécution s’est terminée.
  • Paramètres d’exécution.

Actuellement, les exécutions actives affichent un bouton d’arrêt. Pour arrêter toutes les exécutions actives et mises en file d’attente, sélectionnez Annuler les exécutions ou Annuler toutes les exécutions mises en file d’attente dans le menu déroulant.

Utilisez l’icône de menu Kebab. lors de l'exécution pour des actions supplémentaires spécifiques au contexte, telles que la suppression d’entrées pour les opérations terminées.

Pour accéder aux actions spécifiques au contexte de l’exécution, cliquez sur l’icône du menu Kebab. (par exemple, pour arrêter une exécution en cours ou supprimer une exécution terminée).

Pour modifier les colonnes affichées dans la vue de la liste des exécutions, icône Paramètres cliquez sur et sélectionnez ou désélectionnez les colonnes.

Pour voir les détails d’une exécution de travail, cliquez sur le lien de l’exécution dans la colonne Heure de début dans l’affichage de liste d’exécutions. Pour afficher les détails de l’exécution la plus récente de ce travail, cliquez sur Accéder à la dernière exécution réussie.

Azure Databricks conserve un historique de vos exécutions de travaux jusqu’à 60 jours. Si vous devez conserver des exécutions de travaux, Databricks vous recommande d’exporter les résultats avant qu’ils n’expirent. Pour plus d’informations, consultez Exporter les résultats de l’exécution d’un travail.

Afficher les détails de l’exécution d’un travail

La page de détails de l’exécution du travail contient la sortie du travail et des liens vers des journaux, y compris des informations sur la réussite ou l’échec de chaque tâche dans l’exécution du travail. Vous pouvez accéder aux détails de l’exécution d’un travail à partir de l’onglet Exécutions du travail.

Pour voir les détails d’exécution d'un projet à partir de l'onglet Exécutions, cliquez sur le lien de l’exécution dans la colonne Heure de début dans l’affichage de liste d’exécutions. Pour revenir à l’onglet Exécutions cliquez sur la valeur ID de travail.

Les travaux avec plusieurs tâches disposent également d’un graphique, d’une chronologie et d’une vue de liste.

Affichage du graphique

Cliquez sur un nœud de tâche dans le graphique pour afficher les détails de l’exécution des tâches, notamment :

  • Détails de la tâche, notamment l’exécution, la façon dont le travail a été lancé, l’heure de début, l’heure de fin, la durée et l’état.
  • Le code source.
  • Le cluster qui a exécuté la tâche et des liens vers son historique des requêtes et ses journaux d’activité.
  • Métriques pour la tâche.

vue graphique des emplois.

Vue de la Chronologie

Les travaux qui contiennent plusieurs tâches ont une vue de chronologie pour identifier les tâches qui prennent beaucoup de temps, comprendre les dépendances et le chevauchement pour aider à déboguer et à optimiser ces travaux.

Affichage de la chronologie des travaux.

Affichage liste

Par défaut, l’affichage liste affiche l’état, le nom, le type, la ressource, la durée et les dépendances. Vous pouvez ajouter et supprimer des colonnes dans cette vue.

Vous pouvez rechercher une tâche par nom, filtrer par état ou type de tâche, et trier les tâches par état, nom ou durée.

Cliquez sur la valeur ID du travail pour revenir à l’onglet Exécutions.

vue de la liste des tâches.

Comment Azure Databricks détermine-t-il l’état d’exécution des projets ?

Azure Databricks détermine si l'exécution d'une mission a réussi en fonction du résultat des tâches terminales de cette mission. Une tâche feuille est une tâche qui n’a aucune dépendance en aval. Une exécution de travail peut aboutir à l’un des trois résultats suivants :

  • Réussite : toutes les tâches sont réussies.
  • Réussite avec échecs : certaines tâches ont échoué, mais toutes les tâches feuille sont réussies.
  • Échec : une ou plusieurs tâches feuille ont échoué.
  • Ignoré : l’exécution d'un travail a été ignorée (par exemple, une exécution peut être ignorée parce que vous avez dépassé le nombre maximal d'exécutions simultanées pour votre travail ou votre espace de travail).
  • Délai d’attente expiré : l’exécution du travail a été trop longue et a expiré.
  • Annulé : l’exécution du travail a été annulée (par exemple, un utilisateur a annulé manuellement l’exécution en cours).

Afficher les métriques pour les tâches de streaming

Important

L’observabilité de streaming pour les travaux Lakeflow est disponible en préversion publique.

Lorsque vous affichez les détails de l’exécution des tâches, vous pouvez obtenir des données sur les charges de travail de streaming avec des métriques d’observabilité en streaming dans l’interface utilisateur des tâches. Ces métriques incluent les secondes de backlog, les octets de backlog, les enregistrements de backlog et les fichiers de backlog pour les sources prises en charge par Spark Structured Streaming, notamment Apache Kafka, Amazon Kinesis, Auto Loader, Google Pub/Sub et les tables Delta. Les métriques sont affichées sous forme de graphiques dans le volet droit lorsque vous affichez les détails de l’exécution d’une tâche. Les métriques affichées dans chaque graphique sont des valeurs maximales agrégées par minute et peuvent inclure jusqu’aux 48 heures précédentes.

Chaque source de diffusion en continu prend uniquement en charge des métriques spécifiques. Les métriques non prises en charge par une source de diffusion en continu ne sont pas disponibles pour l’affichage dans l’interface utilisateur. Le tableau suivant présente les métriques disponibles pour les sources de diffusion en continu prises en charge :

source octets de backlog enregistrements de backlog secondes de backlog fichiers en retard
Kafka
Cinèse
Delta
Chargeur automatique
Google Pub/Sub

Vous pouvez également spécifier des seuils pour chaque métrique de streaming et configurer des notifications si un flux dépasse un seuil pendant l’exécution d’une tâche. Voir Configurer les notifications pour les travaux lents.

Pour afficher les métriques de diffusion en continu pour une exécution de tâche qui diffuse des données à partir de l’une des sources Structured Streaming prises en charge :

  1. Sur la page des détails de l'exécution de la tâche , cliquez sur la tâche pour laquelle vous souhaitez afficher les mesures.
  2. Cliquez sur l’onglet Métriques dans le volet Tâche d’exécution.
  3. Pour ouvrir le graphique d’une métrique, cliquez sur Right Caret en regard du nom de la métrique.
  4. Pour afficher les métriques d’un flux spécifique, entrez l’ID du flux dans la zone de texte Filtrer par stream_id. Vous trouverez l’ID de flux dans la sortie pour l’exécution du travail.
  5. Pour modifier la période des graphiques de métriques, utilisez le menu déroulant de temps.
  6. Pour parcourir les flux si l’exécution contient plus de dix flux, cliquez sur Suivant ou Précédent.

Limitations de l’observabilité du streaming

  • Les métriques sont mises à jour toutes les minutes, sauf si une exécution comporte plus de quatre flux. Si une exécution comporte plus de quatre flux, les métriques sont mises à jour toutes les cinq minutes.
  • Les métriques sont collectées uniquement pour les cinquante premiers flux de chaque exécution.
  • Les métriques sont collectées à intervalles d’une seconde. Les métriques peuvent ne pas être visibles si votre triggerInterval paramètre est inférieur à une seconde.
  • La plupart des sources de données collectent les métriques de streaming par défaut. Toutefois, pour d’autres, vous devez activer cette fonctionnalité. Si votre source de données ne collecte pas de métriques de streaming, définissez le spark.sql.streaming.metricsEnabled drapeau à True.

Afficher l’historique des exécutions de tâches

Pour visualiser l’historique des exécutions d’une tâche, y compris les exécutions réussies et en échec :

  1. Cliquez sur une tâche dans la page Détails de l’exécution du travail. La page Détails d’exécution des tâches apparaît.
  2. Sélectionnez l’exécution de tâche dans le menu déroulant de l’historique des exécutions.

Afficher l’historique des exécutions de tâche pour une tâche For each

L’accès à l’historique des exécutions d’une For each tâche est identique à une tâche de travaux Lakeflow standard. Vous pouvez cliquer sur le nœud de tâche For each sur la page Détails d’exécution des travaux ou sur la cellule correspondante dans la vue matricielle. Toutefois, contrairement à une tâche standard, les détails d’exécution d’une For each tâche sont présentés sous la forme d’une table des itérations de la tâche imbriquée.

Pour afficher uniquement les itérations ayant échoué, cliquez sur Itérations ayant échoué uniquement.

Pour afficher la sortie d’une itération, cliquez sur les valeurs Heure de début ou Heure de fin de l’itération.

Travaux pour chaque historique d’exécution des tâches.

Afficher les exécutions récentes pour tous les travaux

Important

Cette fonctionnalité est disponible en préversion publique.

Vous pouvez afficher la liste des exécutions en cours et de celles qui se sont récemment terminées pour tous les travaux d’un espace de travail auquel vous avez accès, y compris les exécutions démarrées par des outils d’orchestration externes comme Apache Airflow ou Azure Data Factory. Pour afficher la liste des exécutions de travaux récentes :

  1. Cliquez sur l’icône Flux de travail.Travaux & Pipelines dans la barre latérale.
  2. Cliquez sur l’onglet Exécutions pour afficher le graphique du nombre d’exécutions terminé et la liste des exécutions de travaux et de pipelines.
  3. (Facultatif) Cliquez sur Travaux pour filtrer uniquement les travaux.

Note

Si l’aperçu de la liste des exécutions unifiées est désactivé, l’onglet est appelé Exécutions de travaux à la place et affiche une liste de seules exécutions de travaux.

Liste des exécutions unifiées.

La liste des exécutions comprend des options de filtrage en haut, un graphique des exécutions récemment terminées et des 5 principales erreurs, ainsi qu’une liste des exécutions récemment terminées.

Vous pouvez filtrer par :

  • Nom de la tâche ou du pipeline.
  • Tous, les tâches, ou pipelines.
  • Type de pipeline (ETL, Ingestion, MV/ST ou Database Table Sync).
  • Exécuter en tant qu’utilisateur.
  • Heure de début de l’exécution (au cours des 48 dernières heures).
  • État d’exécution.
  • Code d’erreur pour les exécutions ayant échoué.

Les filtres s’appliquent au graphique, aux codes d’erreur et à la liste des exécutions.

Graphique du nombre d’exécutions terminées

Le graphique du nombre d'exécutions terminées affiche le nombre d'exécutions de tâches terminées au cours des dernières 48 heures. Par défaut, le graphique affiche les exécutions de tâches ayant échoué, ignorées et réussies. Vous pouvez également filtrer le graphique pour afficher des statuts d'exécution spécifiques ou restreindre le graphique à une plage de temps spécifique. L’onglet Exécutions inclut également une table des exécutions de travaux des 67 derniers jours. Par défaut, le tableau inclut des détails sur les exécutions de tâches ayant échoué, ignorées et réussies.

Graphique du nombre d'exécutions terminées.

Note

Le graphique du nombre d’exécutions terminé est affiché pour les administrateurs pour toutes les exécutions. Pour les non-administrateurs, il faut cliquer sur Exécuter sous et sélectionner me.

Les filtres en haut de l’onglet Exécutions s’appliquent au graphique.

Pour limiter l’intervalle de temps affiché dans le graphique du nombre d’exécutions terminés , vous pouvez sélectionner un intervalle de temps dans le filtre ci-dessus. Vous pouvez également cliquer et faire glisser votre curseur dans le graphique pour sélectionner l’intervalle de temps. Le graphique et le tableau des exécutions sont mis à jour pour afficher les exécutions uniquement à partir de la plage de temps sélectionnée.

Le tableau des 5 principaux types d'erreurs affiche une liste des types d'erreurs les plus fréquents pour la plage de temps sélectionnée, vous permettant de voir rapidement les causes les plus courantes des problèmes de tâches dans votre espace de travail.

Liste des exécutions de travaux

L’onglet Exécutions du travail inclut également une table des exécutions de travaux des 60 derniers jours. Par défaut, le tableau inclut des détails sur les exécutions de tâches ayant échoué, ignorées et réussies.

Liste des exécutions de travaux.

Les filtres en haut de l’onglet Exécutions s’appliquent à la liste.

Par défaut, la liste des exécutions dans le tableau des exécutions affiche les éléments suivants :

  • L’heure de début de l’exécution.
  • Le nom du travail associé à l’exécution.
  • Type (travail ou pipeline) de l’exécution.
  • Le nom d’utilisateur sous lequel le travail s’exécute.
  • Comment l’exécution a été déclenchée (lancée), par une planification de travail ou une demande d’API, ou a été démarrée manuellement.
  • Le temps écoulé pour un travail en cours d’exécution ou la durée totale d’exécution pour une exécution terminée. Un avertissement s'affiche si la durée dépasse une heure d'achèvement prévue configurée.
  • État de l’exécution : mis en file d’attente, en attente, en cours d’exécution, ignoré, réussi, échec, expiré, en cours d'annulation ou annulé.
  • Tout code d’erreur avec lequel l’exécution s’est terminée.
  • Tous les paramètres de l’exécution.
  • Pour arrêter un travail en cours d’exécution, cliquez sur le bouton Arrêter. Pour accéder aux actions du travail, cliquez sur l’icône de menu Kebab. (par exemple, pour arrêter une exécution active ou supprimer une exécution terminée).

Pour modifier les colonnes affichées dans la liste des exécutions, cliquez sur l’icône Colonnes, puis sélectionnez ou désélectionnez les colonnes.

Pour voir les détails de l’exécution du travail, cliquez sur le lien dans la colonne Heure de début pour l’exécution. Pour voir les détails du travail, cliquez sur le nom du travail dans la colonne Travail.

Afficher les informations de traçabilité d’un travail

Si Unity Catalog est activé dans votre espace de travail, vous pouvez afficher les informations de traçabilité pour toutes les tables Unity Catalog de votre flux de travail. Si des informations de traçabilité sont disponibles pour votre flux de travail, vous verrez un lien avec un nombre de tables en amont et en aval dans le panneau Détails de la tâche pour votre travail, dans le panneau Détails de l’exécution de la tâche pour une exécution de travail ou dans le panneau Détails de l’exécution de la tâche pour une exécution de tâche. Cliquez sur le lien pour afficher la liste des tables. Cliquez sur une table pour afficher des informations détaillées dans Catalog Explorer.

Afficher et exécuter un travail créé avec databricks Asset Bundles

Vous pouvez utiliser l’interface utilisateur des travaux Lakeflow pour afficher et exécuter des travaux déployés par databricks Asset Bundles. Par défaut, ces travaux sont en lecture seule dans l’interface utilisateur des travaux. Pour modifier un travail déployé par un pack, modifiez le fichier de configuration du pack et redéployez le travail. Appliquer des modifications uniquement à la configuration du pack garantit que les fichiers sources du pack capturent toujours la configuration actuelle du travail.

Toutefois, si vous devez apporter des modifications immédiates à un travail, vous pouvez déconnecter le travail de la configuration du pack pour activer la modification des paramètres de travail dans l’interface utilisateur. Pour déconnecter le travail, cliquez sur Déconnecter de la source. Dans la boîte de dialogue Déconnecter de la source, cliquez sur Déconnecter pour confirmer.

Les modifications que vous apportez au travail dans l’interface utilisateur ne sont pas appliquées à la configuration du pack. Pour appliquer les modifications que vous apportez au pack dans l’interface utilisateur, vous devez mettre à jour manuellement la configuration du pack. Pour reconnecter le travail à la configuration du pack, redéployez le travail à l’aide du pack.

Exporter les résultats de l’exécution d’un travail

Vous pouvez exporter les résultats de l’exécution d’un notebook et les journaux d’exécution d’un travail pour tous les types de travaux.

Exporter les résultats de l’exécution d’un notebook

Vous pouvez conserver les exécutions d’un travail en exportant leurs résultats. Pour les exécutions de travaux d’un notebook, vous pouvez exporter un notebook rendu pouvant être importé ultérieurement dans votre espace de travail Azure Databricks.

Pour exporter les résultats de l’exécution du notebook pour un travail avec une seule tâche :

  1. Sur la page des détails du travail, cliquez sur le lien Afficher les détails de l’exécution dans la colonne Exécuter de la table Completed Runs (past 60 days) [Exécutions terminées (60 derniers jours)].
  2. Cliquez sur Exporter au format CSV.

Pour exporter les résultats de l’exécution du notebook pour un travail avec plusieurs tâches :

  1. Sur la page des détails du travail, cliquez sur le lien Afficher les détails de l’exécution dans la colonne Exécuter de la table Completed Runs (past 60 days) [Exécutions terminées (60 derniers jours)].
  2. Cliquez sur la tâche du notebook à exporter.
  3. Cliquez sur Exporter au format CSV.

Exporter les journaux de l’exécution d’un travail

Vous pouvez également exporter les journaux de l’exécution de votre travail. Vous pouvez configurer votre travail pour fournir automatiquement des journaux à DBFS lors de la configuration du calcul des travaux (consultez référence de configuration de calcul) ou via l’API de travail. Consultez l'objet new_cluster.cluster_log_conf dans le corps de la demande passé à l’opération Create a new job (Créer un travail) (POST /jobs/create) dans l’API Travaux.