Entrainement
Module
Automatiser des charges de travail avec des travaux Azure Databricks - Training
Automatiser des charges de travail avec des travaux Azure Databricks
Ce navigateur n’est plus pris en charge.
Effectuez une mise à niveau vers Microsoft Edge pour tirer parti des dernières fonctionnalités, des mises à jour de sécurité et du support technique.
Cet article décrit les fonctionnalités disponibles dans l’interface utilisateur Azure Databricks pour afficher les tâches auxquelles vous avez accès, afficher l’historique des exécutions d’une tâche et afficher les détails des exécutions de tâches. Pour configurer des notifications pour les tâches, consultez Ajouter des notifications à une tâche.
Pour en savoir plus sur l’utilisation de l’interface CLI Databricks pour afficher et exécuter des tâches, exécutez les commandes CLI databricks jobs list -h
, databricks jobs get -h
et databricks jobs run-now -h
. Pour en savoir plus sur l’utilisation de l’API Travaux, consultez API Travaux.
Si vous avez accès au schéma system.lakeflow
, vous pouvez également afficher et interroger les enregistrements des exécutions de travaux et des tâches à partir de votre compte. Consultez Référence de la table du système des travaux. Vous pouvez également associer les tables système des tâches avec des tables de facturation pour surveiller le coût des tâches sur votre compte. Consultez Surveiller les coûts des travaux & performances avec les tables système.
Pour afficher la liste des tâches auquel vous avez accès, cliquez sur Workflows dans la barre latérale. L’onglet Travaux dans l’interface utilisateur flux de travail répertorie des informations sur tous les travaux disponibles, tels que le créateur du travail, le déclencheur du travail, le cas échéant, et le résultat des cinq dernières exécutions.
Pour modifier les colonnes affichées dans la liste des tâches, cliquez sur l' et sélectionnez ou désélectionnez les colonnes.
Vous pouvez filtrer les travaux dans la liste Travaux, comme illustré dans la capture d’écran suivante.
department
et la valeur finance
, vous pouvez rechercher department
ou finance
pour trouver les travaux correspondants. Pour effectuer une recherche par la clé et la valeur, entrez la clé et la valeur séparées par un signe deux-points (par exemple, department:finance
).Vous pouvez également trier la liste des travaux (décroissant ou croissant) par les colonnes Nom, ID de tâcheou Créé par en cliquant sur l’en-tête de colonne correspondante. Par défaut, les travaux sont triés par Nom dans l’ordre croissant.
Pour démarrer un travail, cliquez sur le bouton lecture. Pour arrêter un travail, cliquez sur le bouton Arrêter. Pour accéder à d'autres actions liées à l'emploi, cliquez sur le menu kebab (par exemple, pour supprimer le poste).
Vous pouvez afficher la liste des exécutions en cours d’exécution et récemment terminées pour un travail auquel vous avez accès, y compris les exécutions démarrées par des outils d’orchestration externes tels qu’Apache Airflow ou Azure Data Factory. Pour afficher la liste des exécutions de travaux récentes :
La vue matricielle montre un historique des exécutions pour le travail, avec chaque tâche du travail.
La ligne Durée totale de l’exécution de la matrice affiche la durée totale de l’exécution et l’état de l’exécution. Pour voir les détails de l’exécution, y compris l’heure de début, la durée et l’état, pointez sur la barre dans la ligne Durée totale de l’exécution.
Chaque cellule de la ligne Tâches représente une tâche et l’état correspondant de la tâche. Pour voir les détails de chaque tâche, y compris l’heure de début, la durée, le cluster et l’état, pointez sur la cellule pour cette tâche.
Les barres d’exécution du travail et d’exécution des tâches ont des codes couleur pour indiquer l’état de l’exécution. Les opérations réussies sont vertes. Les exécutions infructueuses sont rouges, les exécutions ignorées sont roses et l’attente d’une nouvelle tentative est jaune. En attente, annulé ou expiré sont grisés. La hauteur des barres d'exécution de tâches individuelles et d'exécution de tâches indique visuellement la durée de l'exécution.
Si vous avez configuré une heure d'achèvement prévue, la vue matricielle affiche un avertissement lorsque la durée d'une exécution dépasse la durée configurée.
Par défaut, l’affichage liste des exécutions affiche les éléments suivants :
Actuellement, les exécutions actives affichent un bouton d’arrêt. Pour arrêter toutes les exécutions actives et mises en file d’attente, sélectionnez Annuler les exécutions ou Annuler toutes les exécutions mises en file d’attente dans le menu déroulant.
Utilisez le menu pour une exécution pour des actions spécifiques au contexte supplémentaires, telles que la suppression d’entrées pour les exécutions terminées.
Pour accéder aux actions spécifiques au contexte de l’exécution, cliquez sur le menu kebab (par exemple, pour arrêter une exécution active ou supprimer une exécution terminée).
Pour modifier les colonnes affichées dans la vue de la liste des exécutions, cliquez sur l' et sélectionnez ou désélectionnez les colonnes.
Pour voir les détails d’une exécution de travail, cliquez sur le lien de l’exécution dans la colonne Heure de début dans l’affichage de liste d’exécutions. Pour afficher les détails de l'exécution réussie la plus récente de cette tâche, cliquez sur Accéder à la dernière exécution réussie.
Azure Databricks conserve un historique de vos exécutions de travaux jusqu’à 60 jours. Si vous devez conserver les exécutions de tâches, Databricks recommande d'exporter les résultats avant leur expiration. Pour plus d’informations, consultez Exporter les résultats de l’exécution d’un travail.
La page de détails de l’exécution du travail contient la sortie du travail et des liens vers des journaux, y compris des informations sur la réussite ou l’échec de chaque tâche dans l’exécution du travail. Vous pouvez accéder aux détails de l’exécution d’un travail à partir de l’onglet Exécutions du travail.
Pour voir les détails d’une exécution de travail à partir de l’onglet Exécutions, cliquez sur le lien de l’exécution dans la colonne Heure de début dans l’affichage de liste d’exécutions. Pour revenir à l’onglet Exécutions du travail, cliquez sur la valeur ID du travail.
Les travaux avec plusieurs tâches disposent également d’un graphique, d’une chronologie et d’une vue de liste.
Cliquez sur un nœud de tâche dans le graphique pour afficher les détails de l’exécution des tâches, notamment :
Les travaux qui contiennent plusieurs tâches ont une vue de chronologie pour identifier les tâches qui prennent beaucoup de temps, comprendre les dépendances et le chevauchement pour aider à déboguer et à optimiser ces travaux.
Par défaut, l’affichage liste affiche l’état, le nom, le type, la ressource, la durée et les dépendances. Vous pouvez ajouter et supprimer des colonnes dans cette vue.
Vous pouvez rechercher une tâche par nom, filtrer par état ou type de tâche, et trier les tâches par état, nom ou durée.
Cliquez sur la valeur ID du travail pour revenir à l’onglet Exécutions.
Azure Databricks détermine si l’exécution d’un projet a réussi en fonction du résultat des tâches du nœud terminal du projet. Une tâche du nœud terminal est une tâche qui n’a aucune dépendance en aval. Une exécution de travail peut aboutir à l’un des trois résultats suivants :
Important
L’observabilité de la diffusion en continu pour les travaux Databricks se trouve dans préversion publique.
Lorsque vous affichez les détails de l’exécution des tâches, vous pouvez obtenir des données sur les charges de travail de streaming avec des métriques d’observabilité en streaming dans l’interface utilisateur des tâches. Ces métriques incluent les secondes de backlog, les octets de backlog, les enregistrements de backlog et les fichiers de backlog pour les sources prises en charge par Spark Structured Streaming, notamment Apache Kafka, Amazon Kinesis, Auto Loader, Google Pub/Sub et les tables Delta. Les métriques sont affichées sous forme de graphiques dans le volet droit lorsque vous affichez les détails de l’exécution d’une tâche. Les métriques affichées dans chaque graphique sont des valeurs maximales agrégées par minute et peuvent inclure jusqu’aux 48 heures précédentes.
Chaque source de diffusion en continu prend uniquement en charge des métriques spécifiques. Les métriques non prises en charge par une source de diffusion en continu ne sont pas disponibles pour l’affichage dans l’interface utilisateur. Le tableau suivant présente les métriques disponibles pour les sources de diffusion en continu prises en charge :
source | octets de backlog | enregistrements de backlog | secondes de backlog | fichiers en retard |
---|---|---|---|---|
Kafka | ✓ | ✓ | ||
Kinesis | ✓ | ✓ | ||
Delta | ✓ | ✓ | ||
Chargeur automatique | ✓ | ✓ | ||
Google Pub/Sub | ✓ | ✓ |
Vous pouvez également spécifier des seuils pour chaque métrique de streaming et configurer des notifications si un flux dépasse un seuil pendant l’exécution d’une tâche. Voir Configurer les notifications pour les travaux lents.
Pour afficher les métriques de diffusion en continu pour une exécution de tâche qui diffuse des données à partir de l’une des sources Structured Streaming prises en charge :
Pour visualiser l’historique des exécutions d’une tâche, y compris les exécutions réussies et en échec :
L’accès à l’historique des exécutions d’une tâche For each
est identique à une tâche de travaux Azure Databricks standard. Vous pouvez cliquer sur le nœud de tâche For each
sur la page Détails d’exécution des travaux ou sur la cellule correspondante dans la vue matrice. Toutefois, contrairement à une tâche standard, les détails d’exécution d’une tâche For each
sont présentés sous la forme d’un tableau des itérations de la tâche imbriquée.
Pour afficher uniquement les itérations ayant échoué, cliquez sur Itérations ayant échoué uniquement.
Pour afficher la sortie d’une itération, cliquez sur les valeurs Heure de début ou Heure de fin de l’itération.
Vous pouvez afficher la liste des exécutions en cours et de celles qui se sont récemment terminées pour tous les travaux d’un espace de travail auquel vous avez accès, y compris les exécutions démarrées par des outils d’orchestration externes comme Apache Airflow ou Azure Data Factory. Pour afficher la liste des exécutions de travaux récentes :
Le graphique du nombre d'exécutions terminées affiche le nombre d'exécutions de tâches terminées au cours des dernières 48 heures. Par défaut, le graphique affiche les exécutions de tâches ayant échoué, ignorées et réussies. Vous pouvez également filtrer le graphique pour afficher des statuts d'exécution spécifiques ou restreindre le graphique à une plage de temps spécifique. L'onglet Exécutions de tâches comprend également un tableau des exécutions de tâches des 67 derniers jours. Par défaut, le tableau inclut des détails sur les exécutions de tâches ayant échoué, ignorées et réussies.
Notes
Le graphique du nombre d’exécutions terminées s’affiche uniquement lorsque vous cliquez sur Propriété de moi.
Vous pouvez filtrer le nombre d'exécutions terminées par statut d'exécution :
Lorsque vous cliquez sur l'un des boutons de filtre, la liste des exécutions dans le tableau des exécutions est également mise à jour pour afficher uniquement les exécutions de tâches correspondant au statut sélectionné.
Pour limiter la plage de temps affichée dans le graphique du nombre d'exécutions terminées, cliquez et faites glisser votre curseur dans le graphique pour sélectionner la plage de temps. Le graphique et le tableau des exécutions sont mis à jour pour afficher les exécutions uniquement à partir de la plage de temps sélectionnée.
Le tableau des 5 principaux types d'erreurs affiche une liste des types d'erreurs les plus fréquents pour la plage de temps sélectionnée, vous permettant de voir rapidement les causes les plus courantes des problèmes de tâches dans votre espace de travail.
L’onglet Exécutions du travail inclut également une table des exécutions de travaux des 60 derniers jours. Par défaut, le tableau inclut des détails sur les exécutions de tâches ayant échoué, ignorées et réussies.
Vous pouvez filtrer la liste des exécutions affichées dans la liste en fonction des éléments suivants :
Par défaut, la liste des exécutions dans le tableau des exécutions affiche les éléments suivants :
Pour modifier les colonnes affichées dans la liste des analyses, cliquez sur l' et sélectionnez ou désélectionnez les colonnes.
Pour voir les détails de l’exécution du travail, cliquez sur le lien dans la colonne Heure de début pour l’exécution. Pour voir les détails du travail, cliquez sur le nom du travail dans la colonne Travail.
Si Unity Catalog est activé dans votre espace de travail, vous pouvez afficher les informations de traçabilité pour toutes les tables Unity Catalog de votre workflow. Si des informations de traçabilité sont disponibles pour votre workflow, vous voyez un lien avec un nombre de tables en amont et en aval dans le panneau Détails du travail pour votre travail, dans le volet Détails de l’exécution du travail pour une exécution de travail ou dans le panneau Détails de l’exécution de la tâche pour une exécution de tâche. Cliquez sur le lien pour afficher la liste des tables. Cliquez sur une table pour afficher des informations détaillées dans Catalog Explorer.
Vous pouvez utiliser l’interface utilisateur des travaux Azure Databricks pour afficher et exécuter des travaux déployés par un Pack de ressources Databricks. Par défaut, ces travaux sont en lecture seule dans l’interface utilisateur des travaux. Pour modifier un travail déployé par un pack, modifiez le fichier de configuration du pack et redéployez le travail. Appliquer des modifications uniquement à la configuration du bundle garantit que les fichiers sources du pack capturent toujours la configuration actuelle du travail.
Toutefois, si vous devez apporter des modifications immédiates à un travail, vous pouvez déconnecter le travail de la configuration du pack pour activer la modification des paramètres de travail dans l’interface utilisateur. Pour déconnecter le travail, cliquez sur Déconnecter de la source. Dans la boîte de dialogue Déconnecter de la source, cliquez sur Déconnecter pour confirmer.
Les modifications que vous apportez au travail dans l’interface utilisateur ne sont pas appliquées à la configuration du pack. Pour appliquer les modifications que vous apportez au pack dans l’interface utilisateur, vous devez mettre à jour manuellement la configuration du pack. Pour reconnecter le travail à la configuration du pack, redéployez le travail à l’aide du pack.
Vous pouvez exporter les résultats de l’exécution d’un notebook et les journaux d’exécution d’un travail pour tous les types de travaux.
Vous pouvez conserver les exécutions d’un travail en exportant leurs résultats. Pour les exécutions de travaux d’un notebook, vous pouvez exporter un notebook rendu pouvant être importé ultérieurement dans votre espace de travail Azure Databricks.
Pour exporter les résultats de l’exécution du notebook pour un travail avec une seule tâche :
Pour exporter les résultats de l’exécution du notebook pour un travail avec plusieurs tâches :
Vous pouvez également exporter les journaux de l’exécution de votre travail. Vous pouvez configurer votre travail pour fournir automatiquement des journaux à DBFS lors de la configuration du calcul des travaux (consultez référence de configuration de calcul) ou via l’API de travail. Consultez l'objet new_cluster.cluster_log_conf
dans le corps de la demande passé à l’opération Create a new job (Créer un travail) (POST /jobs/create
) dans l’API Travaux.
Entrainement
Module
Automatiser des charges de travail avec des travaux Azure Databricks - Training
Automatiser des charges de travail avec des travaux Azure Databricks
Documentation
Résoudre les problèmes et réparer les échecs de travaux - Azure Databricks
Découvrez comment utiliser les outils et fonctionnalités de l’interface utilisateur Azure Databricks pour résoudre les problèmes et les échecs dans vos travaux Azure Databricks.
Informations de référence sur la configuration du calcul – Azure Databricks
Découvrez les paramètres de configuration de calcul disponibles dans Databricks.
Vue d’ensemble de l’orchestration sur Databricks - Azure Databricks
Découvrez comment orchestrer des workflows d’analyse de données, de Machine Learning et de traitement des données sur Travaux Databricks.