Surveillance et observabilité des projets Databricks
Cet article décrit les fonctionnalités disponibles dans l’interface utilisateur Azure Databricks pour afficher les tâches auxquelles vous avez accès, afficher l’historique des exécutions d’une tâche et afficher les détails des exécutions de tâches. Pour configurer des notifications pour les tâches, consultez Ajouter des notifications à une tâche.
Pour en savoir plus sur l’utilisation de l’interface CLI Databricks pour afficher et exécuter des tâches, exécutez les commandes CLI databricks jobs list -h
, databricks jobs get -h
et databricks jobs run-now -h
. Pour en savoir plus sur l’utilisation de l’API Travaux, consultez API Travaux.
Si vous avez accès au schéma system.lakeflow
, vous pouvez également afficher et interroger les enregistrements des exécutions de travaux et des tâches à partir de votre compte. Consultez Référence de la table du système des travaux. Vous pouvez également associer les tables système des tâches avec des tables de facturation pour surveiller le coût des tâches sur votre compte. Consultez Surveiller les coûts des travaux & performances avec les tables système.
Voir les emplois
Pour afficher la liste des tâches auquel vous avez accès, cliquez sur Workflows dans la barre latérale. L’onglet Travaux dans l’interface utilisateur flux de travail répertorie des informations sur tous les travaux disponibles, tels que le créateur du travail, le déclencheur du travail, le cas échéant, et le résultat des cinq dernières exécutions.
Pour modifier les colonnes affichées dans la liste des tâches, cliquez sur l' et sélectionnez ou désélectionnez les colonnes.
Vous pouvez filtrer les travaux dans la liste Travaux, comme illustré dans la capture d’écran suivante.
- Recherche sur les mots clés. La recherche de mots clés est prise en charge pour les champs nom, ID de travail et balise de travail. Pour rechercher une étiquette créée avec une clé et une valeur, vous pouvez lancer une recherche par clé, valeur ou clé et valeur. Par exemple, pour une étiquette avec la clé
department
et la valeurfinance
, vous pouvez rechercherdepartment
oufinance
pour trouver les travaux correspondants. Pour effectuer une recherche par la clé et la valeur, entrez la clé et la valeur séparées par un signe deux-points (par exemple,department:finance
). - Sélection des travaux que vous possédez uniquement.
- Sélection de tous les travaux auxquels vous disposez des autorisations d’accès.
- Sélection de tous les travaux que vous avez marqués comme favoris.
- Utilisation d’étiquettes. Pour effectuer une recherche par balise, vous pouvez utiliser le menu déroulant des balises pour filtrer jusqu’à cinq balises en même temps ou utiliser directement la recherche de mots clés.
Vous pouvez également trier la liste des travaux (décroissant ou croissant) par les colonnes Nom, ID de tâcheou Créé par en cliquant sur l’en-tête de colonne correspondante. Par défaut, les travaux sont triés par Nom dans l’ordre croissant.
Pour démarrer un travail, cliquez sur le bouton lecture. Pour arrêter un travail, cliquez sur le bouton Arrêter. Pour accéder à d'autres actions liées à l'emploi, cliquez sur le menu kebab (par exemple, pour supprimer le poste).
Voir les exécutions pour une seule tâche
Vous pouvez afficher la liste des exécutions en cours d’exécution et récemment terminées pour un travail auquel vous avez accès, y compris les exécutions démarrées par des outils d’orchestration externes tels qu’Apache Airflow ou Azure Data Factory. Pour afficher la liste des exécutions de travaux récentes :
- Cliquez sur
Workflows dans la barre latérale.
- Dans la colonne Nom, cliquez sur le nom d’un travail. L'onglet Exécutions apparaît avec des vues matricielles et de liste des exécutions actives et terminées.
La vue matricielle montre un historique des exécutions pour le travail, avec chaque tâche du travail.
La ligne Durée totale de l’exécution de la matrice affiche la durée totale de l’exécution et l’état de l’exécution. Pour voir les détails de l’exécution, y compris l’heure de début, la durée et l’état, pointez sur la barre dans la ligne Durée totale de l’exécution.
Chaque cellule de la ligne Tâches représente une tâche et l’état correspondant de la tâche. Pour voir les détails de chaque tâche, y compris l’heure de début, la durée, le cluster et l’état, pointez sur la cellule pour cette tâche.
Les barres d’exécution du travail et d’exécution des tâches ont des codes couleur pour indiquer l’état de l’exécution. Les opérations réussies sont vertes. Les exécutions infructueuses sont rouges, les exécutions ignorées sont roses et l’attente d’une nouvelle tentative est jaune. En attente, annulé ou expiré sont grisés. La hauteur des barres d'exécution de tâches individuelles et d'exécution de tâches indique visuellement la durée de l'exécution.
Si vous avez configuré une heure d'achèvement prévue, la vue matricielle affiche un avertissement lorsque la durée d'une exécution dépasse la durée configurée.
Par défaut, l’affichage liste des exécutions affiche les éléments suivants :
- L’heure de début de l’exécution.
- L’identificateur de l'exécution.
- Si l’exécution a été déclenchée par une planification de travail ou par une demande d’API, ou si elle a été démarrée manuellement.
- Temps écoulé pour une tâche en cours d'exécution ou durée totale d'exécution pour une exécution terminée. Un avertissement s'affiche si la durée dépasse une heure d'achèvement prévue configurée.
- État de l’exécution, mis en file d’attente, en attente, en cours d’exécution, ignoré, réussi, échec, délai d’expiration, annulationou annulé.
- Code d’erreur avec lequel l’exécution s’est terminée.
- Paramètres d’exécution.
Actuellement, les exécutions actives affichent un bouton d’arrêt. Pour arrêter toutes les exécutions actives et mises en file d’attente, sélectionnez Annuler les exécutions ou Annuler toutes les exécutions mises en file d’attente dans le menu déroulant.
Utilisez le menu pour une exécution pour des actions spécifiques au contexte supplémentaires, telles que la suppression d’entrées pour les exécutions terminées.
Pour accéder aux actions spécifiques au contexte de l’exécution, cliquez sur le menu kebab (par exemple, pour arrêter une exécution active ou supprimer une exécution terminée).
Pour modifier les colonnes affichées dans la vue de la liste des exécutions, cliquez sur l' et sélectionnez ou désélectionnez les colonnes.
Pour voir les détails d’une exécution de travail, cliquez sur le lien de l’exécution dans la colonne Heure de début dans l’affichage de liste d’exécutions. Pour afficher les détails de l'exécution réussie la plus récente de cette tâche, cliquez sur Accéder à la dernière exécution réussie.
Azure Databricks conserve un historique de vos exécutions de travaux jusqu’à 60 jours. Si vous devez conserver les exécutions de tâches, Databricks recommande d'exporter les résultats avant leur expiration. Pour plus d’informations, consultez Exporter les résultats de l’exécution d’un travail.
Afficher les détails de l’exécution d’un travail
La page de détails de l’exécution du travail contient la sortie du travail et des liens vers des journaux, y compris des informations sur la réussite ou l’échec de chaque tâche dans l’exécution du travail. Vous pouvez accéder aux détails de l’exécution d’un travail à partir de l’onglet Exécutions du travail.
Pour voir les détails d’une exécution de travail à partir de l’onglet Exécutions, cliquez sur le lien de l’exécution dans la colonne Heure de début dans l’affichage de liste d’exécutions. Pour revenir à l’onglet Exécutions du travail, cliquez sur la valeur ID du travail.
Les travaux avec plusieurs tâches disposent également d’un graphique, d’une chronologie et d’une vue de liste.
Affichage du graphique
Cliquez sur un nœud de tâche dans le graphique pour afficher les détails de l’exécution des tâches, notamment :
- Détails de la tâche, notamment l’exécution, la façon dont le travail a été lancé, l’heure de début, l’heure de fin, la durée et l’état.
- Code source.
- Le cluster qui a exécuté la tâche et des liens vers son historique des requêtes et ses journaux d’activité.
- Métriques pour la tâche.
Timeline view
Les travaux qui contiennent plusieurs tâches ont une vue de chronologie pour identifier les tâches qui prennent beaucoup de temps, comprendre les dépendances et le chevauchement pour aider à déboguer et à optimiser ces travaux.
Mode Liste
Par défaut, l’affichage liste affiche l’état, le nom, le type, la ressource, la durée et les dépendances. Vous pouvez ajouter et supprimer des colonnes dans cette vue.
Vous pouvez rechercher une tâche par nom, filtrer par état ou type de tâche, et trier les tâches par état, nom ou durée.
Cliquez sur la valeur ID du travail pour revenir à l’onglet Exécutions.
Comment Azure Databricks détermine-t-il l’état d’exécution des projets ?
Azure Databricks détermine si l’exécution d’un projet a réussi en fonction du résultat des tâches du nœud terminal du projet. Une tâche du nœud terminal est une tâche qui n’a aucune dépendance en aval. Une exécution de travail peut aboutir à l’un des trois résultats suivants :
- Réussite : toutes les tâches ont réussi.
- Réussite avec échecs : certaines tâches ont échoué, mais toutes les tâches du nœud terminal ont réussi.
- Échec : une ou plusieurs tâches du nœud terminal ont échoué.
- Ignoré : l’exécution d'un travail a été ignorée (par exemple, une exécution peut être ignorée parce que vous avez dépassé le nombre maximal d'exécutions simultanées pour votre travail ou votre espace de travail).
- Délai d’attente : l’exécution du travail a été trop longue et a expiré.
- Annulé : l’exécution du travail a été annulée (par exemple, un utilisateur a annulé manuellement l’exécution en cours).
Afficher les métriques pour les tâches de streaming
Essentiel
L’observabilité de la diffusion en continu pour les travaux Databricks se trouve dans préversion publique.
Lorsque vous affichez les détails de l’exécution des tâches, vous pouvez obtenir des données sur les charges de travail de streaming avec des métriques d’observabilité en streaming dans l’interface utilisateur des tâches. Ces métriques incluent les secondes de backlog, les octets de backlog, les enregistrements de backlog et les fichiers de backlog pour les sources prises en charge par Spark Structured Streaming, notamment Apache Kafka, Amazon Kinesis, Auto Loader, Google Pub/Sub et les tables Delta. Les métriques sont affichées sous forme de graphiques dans le volet droit lorsque vous affichez les détails de l’exécution d’une tâche. Les métriques affichées dans chaque graphique sont des valeurs maximales agrégées par minute et peuvent inclure jusqu’aux 48 heures précédentes.
Chaque source de diffusion en continu prend uniquement en charge des métriques spécifiques. Les métriques non prises en charge par une source de diffusion en continu ne sont pas disponibles pour l’affichage dans l’interface utilisateur. Le tableau suivant présente les métriques disponibles pour les sources de diffusion en continu prises en charge :
source | octets de backlog | enregistrements de backlog | secondes de backlog | fichiers en retard |
---|---|---|---|---|
Kafka | ✓ | ✓ | ||
Kinesis | ✓ | ✓ | ||
Delta | ✓ | ✓ | ||
Chargeur automatique | ✓ | ✓ | ||
Google Pub/Sub | ✓ | ✓ |
Vous pouvez également spécifier des seuils pour chaque métrique de streaming et configurer des notifications si un flux dépasse un seuil pendant l’exécution d’une tâche. Voir Configurer les notifications pour les travaux lents.
Pour afficher les métriques de diffusion en continu pour une exécution de tâche qui diffuse des données à partir de l’une des sources Structured Streaming prises en charge :
- Sur la page des détails de l'exécution de la tâche , cliquez sur la tâche pour laquelle vous souhaitez afficher les mesures.
- Cliquez sur l’onglet Métriques dans le volet Tâche d’exécution.
- Pour ouvrir le graphique d’une métrique, cliquez sur
en regard du nom de la métrique.
- Pour afficher les métriques d’un flux spécifique, entrez l’ID du flux dans la zone de texte Filtrer par stream_id. Vous trouverez l’ID de flux dans la sortie pour l’exécution du travail.
- Pour modifier la période des graphiques de métriques, utilisez le menu déroulant de temps.
- Pour parcourir les flux si l’exécution contient plus de dix flux, cliquez sur Suivant ou Précédent.
Limitations de l’observabilité du streaming
- Les métriques sont mises à jour toutes les minutes, sauf si une exécution comporte plus de quatre flux. Si une exécution comporte plus de quatre flux, les métriques sont mises à jour toutes les cinq minutes.
- Les métriques sont collectées uniquement pour les cinquante premiers flux de chaque exécution.
Afficher l’historique des exécutions des tâches
Pour visualiser l’historique des exécutions d’une tâche, y compris les exécutions réussies et en échec :
- Cliquez sur une tâche dans la page Détails de l’exécution du travail. La page Détails d’exécution des tâches apparaît.
- Sélectionnez l’exécution de tâche dans la liste déroulante de l’historique des exécutions.
Afficher l’historique des exécutions de tâche pour une tâche For each
L’accès à l’historique des exécutions d’une tâche For each
est identique à une tâche de travaux Azure Databricks standard. Vous pouvez cliquer sur le nœud de tâche For each
sur la page Détails d’exécution des travaux ou sur la cellule correspondante dans la vue matrice. Toutefois, contrairement à une tâche standard, les détails d’exécution d’une tâche For each
sont présentés sous la forme d’un tableau des itérations de la tâche imbriquée.
Pour afficher uniquement les itérations ayant échoué, cliquez sur Itérations ayant échoué uniquement.
Pour afficher la sortie d’une itération, cliquez sur les valeurs Heure de début ou Heure de fin de l’itération.
Afficher les exécutions récentes de toutes les tâches
Vous pouvez afficher la liste des exécutions en cours et de celles qui se sont récemment terminées pour tous les travaux d’un espace de travail auquel vous avez accès, y compris les exécutions démarrées par des outils d’orchestration externes comme Apache Airflow ou Azure Data Factory. Pour afficher la liste des exécutions de travaux récentes :
- Cliquez sur
Workflows dans la barre latérale.
- Cliquez sur l'onglet Exécutions de tâches pour afficher le graphique du nombre d’exécutions terminées et la liste des exécutions de tâches.
Graphique des exécutions terminées
Le graphique du nombre d'exécutions terminées affiche le nombre d'exécutions de tâches terminées au cours des dernières 48 heures. Par défaut, le graphique affiche les exécutions de tâches ayant échoué, ignorées et réussies. Vous pouvez également filtrer le graphique pour afficher des statuts d'exécution spécifiques ou restreindre le graphique à une plage de temps spécifique. L'onglet Exécutions de tâches comprend également un tableau des exécutions de tâches des 67 derniers jours. Par défaut, le tableau inclut des détails sur les exécutions de tâches ayant échoué, ignorées et réussies.
Remarque
Le graphique du nombre d’exécutions terminées s’affiche uniquement lorsque vous cliquez sur Propriété de moi.
Vous pouvez filtrer le nombre d'exécutions terminées par statut d'exécution :
- Pour mettre à jour le graphique afin d'afficher les tâches en cours d'exécution ou en attente d'exécution, cliquez sur Exécutions actives.
- Pour mettre à jour le graphique afin d'afficher uniquement les exécutions terminées, y compris les exécutions ayant échoué, réussies et ignorées, cliquez sur Exécutions terminées.
- Pour mettre à jour le graphique afin d'afficher uniquement les exécutions terminées avec succès au cours des dernières 48 heures, cliquez sur Exécutions réussies.
- Pour mettre à jour le graphique afin d'afficher uniquement les exécutions ignorées, cliquez sur Exécutions ignorées. Les exécutions sont ignorées car vous avez dépassé le nombre maximum d'exécutions simultanées dans votre espace de travail ou parce que la tâche a dépassé le nombre maximum d'exécutions simultanées spécifié par la configuration de la tâche.
- Pour mettre à jour le graphique afin d'afficher uniquement les exécutions terminées dans un état d'erreur, cliquez sur Exécutions ayant échoué.
Lorsque vous cliquez sur l'un des boutons de filtre, la liste des exécutions dans le tableau des exécutions est également mise à jour pour afficher uniquement les exécutions de tâches correspondant au statut sélectionné.
Pour limiter la plage de temps affichée dans le graphique du nombre d'exécutions terminées, cliquez et faites glisser votre curseur dans le graphique pour sélectionner la plage de temps. Le graphique et le tableau des exécutions sont mis à jour pour afficher les exécutions uniquement à partir de la plage de temps sélectionnée.
Le tableau des 5 principaux types d'erreurs affiche une liste des types d'erreurs les plus fréquents pour la plage de temps sélectionnée, vous permettant de voir rapidement les causes les plus courantes des problèmes de tâches dans votre espace de travail.
Liste des exécutions de travaux
L’onglet Exécutions du travail inclut également une table des exécutions de travaux des 60 derniers jours. Par défaut, le tableau inclut des détails sur les exécutions de tâches ayant échoué, ignorées et réussies.
Vous pouvez filtrer la liste des exécutions affichées dans la liste en fonction des éléments suivants :
- Tâche : sélectionnez jusqu’à 3 tâches et voyez uniquement les exécutions de ces tâches.
- Exécuter en tant que : sélectionnez jusqu’à 3 identités d’exécution et n'affichez que les exécutions réalisées en tant que ces utilisateurs.
- Fenêtre d’heure : sélectionnez et commencez et terminez la date et l’heure pour limiter les exécutions de travaux qui se sont produites dans cet intervalle.
- État de l’exécution : filtrez pour afficher uniquement les exécutions actives (actuellement en cours d’exécution), terminées (exécution réussie et infructueuse), réussite, échec et exécutions ignorées.
- Code d’erreur : filtrez la liste en fonction du code d’erreur pour voir tous les travaux ayant échoué avec le même code d’erreur.
Par défaut, la liste des exécutions dans le tableau des exécutions affiche les éléments suivants :
- L’heure de début de l’exécution.
- Le nom du travail associé à l’exécution.
- Le nom d’utilisateur sous lequel le travail s’exécute.
- Si l’exécution a été déclenchée par une planification de travail ou par une demande d’API, ou si elle a été démarrée manuellement.
- Temps écoulé pour une tâche en cours d'exécution ou durée totale d'exécution pour une exécution terminée. Un avertissement s'affiche si la durée dépasse une heure d'achèvement prévue configurée.
- État de l’exécution, mis en file d’attente, en attente, en cours d’exécution, ignoré, réussi, échec, délai d’expiration, annulationou annulé.
- Tout code d’erreur avec lequel l’exécution s’est terminée.
- Tous les paramètres de l’exécution.
- Pour arrêter un travail en cours d’exécution, cliquez sur le bouton Arrêter. Pour accéder aux actions du travail, cliquez sur le menu
(par exemple, pour arrêter une exécution active ou supprimer une exécution terminée).
Pour modifier les colonnes affichées dans la liste des analyses, cliquez sur l' et sélectionnez ou désélectionnez les colonnes.
Pour voir les détails de l’exécution du travail, cliquez sur le lien dans la colonne Heure de début pour l’exécution. Pour voir les détails du travail, cliquez sur le nom du travail dans la colonne Travail.
Afficher les informations de traçabilité d’un travail
Si Unity Catalog est activé dans votre espace de travail, vous pouvez afficher les informations de traçabilité pour toutes les tables Unity Catalog de votre workflow. Si des informations de traçabilité sont disponibles pour votre workflow, vous voyez un lien avec un nombre de tables en amont et en aval dans le panneau Détails du travail pour votre travail, dans le volet Détails de l’exécution du travail pour une exécution de travail ou dans le panneau Détails de l’exécution de la tâche pour une exécution de tâche. Cliquez sur le lien pour afficher la liste des tables. Cliquez sur une table pour afficher des informations détaillées dans Catalog Explorer.
Afficher et exécuter une tâche créée à l’aide d’un pack de ressources Databricks
Vous pouvez utiliser l’interface utilisateur des travaux Azure Databricks pour afficher et exécuter des travaux déployés par un Pack de ressources Databricks. Par défaut, ces travaux sont en lecture seule dans l’interface utilisateur des travaux. Pour modifier un travail déployé par un pack, modifiez le fichier de configuration du pack et redéployez le travail. Appliquer des modifications uniquement à la configuration du bundle garantit que les fichiers sources du pack capturent toujours la configuration actuelle du travail.
Toutefois, si vous devez apporter des modifications immédiates à un travail, vous pouvez déconnecter le travail de la configuration du pack pour activer la modification des paramètres de travail dans l’interface utilisateur. Pour déconnecter le travail, cliquez sur Déconnecter de la source. Dans la boîte de dialogue Déconnecter de la source, cliquez sur Déconnecter pour confirmer.
Les modifications que vous apportez au travail dans l’interface utilisateur ne sont pas appliquées à la configuration du pack. Pour appliquer les modifications que vous apportez au pack dans l’interface utilisateur, vous devez mettre à jour manuellement la configuration du pack. Pour reconnecter le travail à la configuration du pack, redéployez le travail à l’aide du pack.
Exporter les résultats de l'exécution du travail
Vous pouvez exporter les résultats de l’exécution d’un notebook et les journaux d’exécution d’un travail pour tous les types de travaux.
Exporter les résultats de l’exécution d’un notebook
Vous pouvez conserver les exécutions d’un travail en exportant leurs résultats. Pour les exécutions de travaux d’un notebook, vous pouvez exporter un notebook rendu pouvant être importé ultérieurement dans votre espace de travail Azure Databricks.
Pour exporter les résultats de l’exécution du notebook pour un travail avec une seule tâche :
- Sur la page des détails du travail, cliquez sur le lien Afficher les détails de l’exécution dans la colonne Exécuter de la table Completed Runs (past 60 days) [Exécutions terminées (60 derniers jours)].
- Cliquez sur Exporter au format CSV.
Pour exporter les résultats de l’exécution du notebook pour un travail avec plusieurs tâches :
- Sur la page des détails du travail, cliquez sur le lien Afficher les détails de l’exécution dans la colonne Exécuter de la table Completed Runs (past 60 days) [Exécutions terminées (60 derniers jours)].
- Cliquez sur la tâche du notebook à exporter.
- Cliquez sur Exporter au format CSV.
Exporter les journaux de l’exécution d’un travail
Vous pouvez également exporter les journaux de l’exécution de votre travail. Vous pouvez configurer votre travail pour fournir automatiquement des journaux à DBFS lors de la configuration du calcul des travaux (consultez référence de configuration de calcul) ou via l’API de travail. Consultez l'objet new_cluster.cluster_log_conf
dans le corps de la demande passé à l’opération Create a new job (Créer un travail) (POST /jobs/create
) dans l’API Travaux.