Partager via


Configurer et modifier des projets Databricks

Vous pouvez créer et exécuter un travail à l’aide de l’interface utilisateur des travaux ou des outils de développement tels que l’interface CLI Databricks ou l’API REST. À l’aide de l’interface utilisateur ou de l’API, vous pouvez réparer et réexécuter un travail ayant échoué ou annulé. Cet article explique comment créer, configurer et modifier des travaux en utilisant l'interface utilisateur de l'espace de travail Workflows. Pour plus d’informations sur d’autres outils, consultez les rubriques suivantes :

  • Pour en savoir plus sur l’utilisation de l’interface CLI Databricks pour créer et exécuter des tâches, consultez l’article Qu’est-ce que la CLI Databricks ?.
  • Pour en savoir plus sur l’utilisation de l’API Travaux pour créer et exécuter des travaux, consultez Travaux dans la référence de l’API REST.
  • Si vous préférez une approche IaC (infrastructure-as-code) pour configurer des tâches, vous pouvez utiliser Databricks Asset Bundles (DABs). Pour en savoir plus sur l’utilisation des daBs pour configurer et orchestrer vos travaux, consultez Databricks Asset Bundles.
  • Pour savoir comment exécuter et planifier des travaux directement dans un notebook Databricks, consultez Créer et gérer des travaux de notebook planifiés.

Conseil

Pour afficher un travail en tant que YAML, cliquez sur le menu kebab à gauche de Exécuter maintenant pour le travail, puis cliquez sur Basculer vers la version de code (YAML).

Quelle est la configuration minimale nécessaire pour un travail ?

Tous les travaux sur Azure Databricks nécessitent les éléments suivants :

  • Tâche qui contient une logique à exécuter, comme un notebook Databricks. Pour plus d'informations, voir Configurer et modifier des tâches Databricks
  • Ressource de calcul pour exécuter la logique. La ressource de calcul peut être un calcul serverless, un calcul des travaux classique ou un calcul à usage général. Consultez Configurer le calcul pour les projets.
  • Planification spécifiée pour l’exécution du travail. Si vous le souhaitez, vous pouvez omettre de définir une planification et déclencher le travail manuellement.
  • Nom unique.

Créer un projet

Cette section décrit les étapes à suivre pour créer un nouveau travail avec une tâche de notebook et le planifier à l'aide de l'interface utilisateur de l'espace de travail.

Les projets incluent une ou plusieurs tâches. Vous créez un projet en configurant la première tâche pour ce projet.

Remarque

Chaque type de tâche dispose d’options de configuration dynamiques dans l’IU de l’espace de travail. Consultez Configurer et modifier des tâches Databricks.

  1. Dans la barre latérale, cliquez sur Icône de flux de travailWorkflows, puis sur Bouton Créer un travail.
  2. Entrez un nom de tâche.
  3. Sélectionnez un Notebook pour le champ Chemin d’accès.
  4. Cliquez sur Create task.

Si votre espace de travail n’est pas activé pour le calcul serverless des projets, vous devez sélectionner une option Capacité de calcul. Databricks recommande de toujours utiliser Jobs Compute lors de la configuration des tâches.

Un nouveau projet apparaît dans la liste des projets de l’espace de travail avec le nom New Job <date> <time> par défaut.

Vous pouvez continuer à ajouter d’autres tâches au sein du même travail, si nécessaire pour votre flux de travail.

Planification d’une tâche

Vous pouvez décider quand votre travail est exécuté. Par défaut, elle s’exécute uniquement lorsque vous la démarrez manuellement, mais vous pouvez également la configurer pour qu’elle s’exécute automatiquement. Vous pouvez créer un déclencheur pour exécuter un travail selon une planification ou en fonction d’un événement.

Contrôle du flux des tâches au sein du travail

Lors de la configuration de plusieurs tâches dans des travaux, vous pouvez utiliser des tâches spécialisées pour contrôler la façon dont les tâches s’exécutent. Consultez Gérer le flux des tâches dans une tâche Databricks.

Sélectionner un projet à modifier dans l’espace de travail

Pour modifier un projet existant avec l’IU de l’espace de travail, procédez comme suit :

  1. Cliquez sur Icône de flux de travailWorkflows dans la barre latérale.
  2. Dans la colonne Nom, cliquez sur le nom d’un travail.

Utilisez l’IU des projets pour effectuer les opérations suivantes :

  • Modifier les paramètres de projet
  • Renommer, cloner ou supprimer un projet
  • Ajouter de nouvelles tâches à un projet existant
  • Modifier les paramètres de la tâche

Remarque

Vous pouvez également consulter les définitions JSON à utiliser avec les points de terminaison obtenir, créer, et réinitialiser l’API REST.

Modifier les paramètres de projet

Le panneau latéral affiche Détails du projet. Vous pouvez modifier le déclencheur de projet, la configuration de calcul, les notifications, le nombre maximum d'exécutions simultanées, configurer des seuils de durée et ajouter ou modifier des balises. Vous pouvez également modifier les autorisations du travail si le contrôle d’accès aux travaux est activé.

Ajouter des paramètres pour toutes les tâches

Les paramètres configurés au niveau du projet sont transférés aux tâches du projet qui acceptent des paramètres clé-valeur, y compris les fichiers roue Python configurés pour accepter des arguments de type mot clé. Consultez Définir les paramètres de projets.

Ajouter des balises à un travail

Pour ajouter des étiquettes ou des attributs clé-valeur à votre projet, vous pouvez ajouter des étiquettes lorsque vous modifiez le projet. Vous pouvez utiliser des balises pour filtrer les projets dans la liste des projets. Par exemple, vous pouvez utiliser une balise department pour filtrer tous les projets appartenant à une section spécifique.

Remarque

Les étiquettes de travail n’étant pas conçues pour stocker des informations sensibles telles que des informations d’identification personnelle ou des mots de passe, Databricks recommande de limiter l’utilisation des étiquettes aux valeurs non sensibles.

Les étiquettes se propagent également aux clusters de travaux créés lors de l’exécution d’un travail, ce qui vous permet d’utiliser des étiquettes avec votre monitoring de cluster existant.

Cliquez sur + Balise dans le panneau latéral Détails du projet pour ajouter ou modifier des balises. Vous pouvez ajouter la balise sous forme d'étiquette ou de paire clé-valeur. Pour ajouter un libellé, entrez-le dans le champ Clé et laissez le champ Valeur vide.

Ajouter une stratégie budgétaire à un travail

Essentiel

Cette fonctionnalité est disponible en préversion publique.

Si votre espace de travail utilise des politiques budgétaires pour l'attribution de l'utilisation serverless, vous pouvez sélectionner la politique budgétaire de vos tâches en utilisant le paramètre Politique budgétaire dans le panneau latéral des Détails du travail. Consultez 'utilisation serverless d’attribut avec des stratégies budgétaires.

Renommer, cloner ou supprimer un projet

Pour renommer un travail, accédez à l’interface utilisateur des travaux, puis cliquez sur le nom du travail.

Vous pouvez créer rapidement un nouveau travail en clonant un travail existant. Le clonage d’un projet crée une copie identique du projet, à l’exception de l’ID tâche. Pour cloner un projet, procédez comme suit :

  1. Accédez à l’IU des projets pour le projet.
  2. Cliquez sur Menu kebab près du bouton Run now.
  3. Sélectionnez Cloner le projet dans le menu déroulant.
  4. Entrez un nom pour le projet cloné.
  5. Cliquez sur Cloner.

Supprimer une tâche

Pour supprimer un projet, accédez à la page du projet, cliquez sur Menu kebab près du nom du projet et sélectionnez Supprimer le projet dans le menu déroulant.

Utiliser Git avec des projets

Si votre projet contient des tâches qui prennent en charge l’utilisation d'un fournisseur Git distant, l’IU des projets contient un champ Git et la possibilité d’ajouter ou de modifier les paramètres Git.

Vous pouvez configurer les types de tâches suivants pour utiliser un référentiel Git distant :

  • Blocs-notes
  • Scripts Python
  • Fichiers SQL
  • dbt

Toutes les tâches d’un projet doivent faire référence au même commit dans le dépôt distant. Vous ne devez spécifier qu’un des éléments suivants pour un projet qui utilise un dépôt distant :

  • branche : nom de la branche, par exemple main.
  • balise : nom de la balise, par exemple release-1.0.0.
  • commit : code de hachage d’un commit spécifique, par exemple e0056d01.

Lorsqu’un projet est en cours d’exécution, Databricks prend un commit instantané du dépôt distant afin de s’assurer que l’ensemble du projet s’exécute avec la même version du code.

Lorsque vous consultez l’historique des exécutions d’une tâche qui exécute du code stocké dans un dépôt Git distant, le panneau Détails de l’exécution de la tâche inclut les détails Git, y compris le commit SHA associé à l’exécution. Consultez Afficher l’historique des exécutions des tâches.

Remarque

Les tâches configurées pour utiliser un dépôt Git distant ne peuvent pas écrire dans les fichiers d’espace de travail. Ces tâches doivent écrire des données temporaires dans un stockage éphémère attaché au nœud de pilote du calcul configuré pour exécuter la tâche et les données persistantes dans un volume ou une table.

Databricks recommande de référencer les chemins d’espace de travail dans les dossiers Git uniquement pour une itération et un test rapides pendant le développement. Lorsque vous déplacez des travaux en préproduction et en production, Databricks recommande de configurer ces travaux pour référencer un référentiel Git distant. Pour en savoir plus sur l’utilisation d’un référentiel Git distant avec un travail Databricks, consultez la section suivante.

Configurer un fournisseur Git

L’IU des projets comporte une boîte de dialogue permettant de configurer un dépôt Git distant. Cette boîte de dialogue est accessible à partir du panneau Détails du projet sous le titre Git ou dans n’importe quelle tâche configurée pour utiliser un fournisseur Git.

Les options affichées pour accéder à la boîte de dialogue varient en fonction du type de tâche et du fait qu’une référence git a déjà été configurée ou non pour le projet. Les boutons permettant de lancer la boîte de dialogue incluent Ajouter des paramètres Git, Modifier ou Ajouter une référence Git.

Dans la boîte de dialogue Informations Git (simplement étiquetée Git si l’accès se fait par le panneau Détails du projet), saisissez les informations suivantes :

  • l’URL du référentiel Git.
  • Sélectionnez votre fournisseur Git dans la liste déroulante.
  • Dans le champ Référence Git, saisissez l’identifiant d’une branche, d’une balise ou d’un commit correspondant à la version du code source que vous souhaitez exécuter.
  • Sélectionnez la branche, la balise ou le commit dans la liste déroulante.

Remarque

La boîte de dialogue peut vous demander ce qui suit : Il manque des identifiants Git pour ce compte. Veuillez ajouter ces identifiants. Vous devez configurer un dépôt Git distant avant de l’utiliser comme référence. Consultez Configurer les dossiers Git (Repos) Databricks.

Configurer des seuils pour la durée d'exécution de la tâche ou les métriques du backlog de flux

Essentiel

L’observabilité de la diffusion en continu pour les travaux Databricks se trouve dans préversion publique.

Vous pouvez configurer des seuils facultatifs pour la durée d’exécution des tâches ou les métriques de streaming backlog. Pour configurer des seuils de durée ou de métriques de diffusion en continu, cliquez sur Seuils de durée et de diffusion en continu dans le panneau Détails du travail .

Pour configurer les seuils de durée de la tâche, y compris les durées d’achèvement attendues et maximales de la tâche, sélectionnez Durée d’exécution dans le menu déroulant Métrique. Saisissez une durée dans le champ Avertissement pour configurer la durée d’achèvement prévue du projet. Si le projet dépasse ce seuil, un événement est déclenché. Vous pouvez utiliser cet événement pour avertir lorsqu’un projet s’exécute lentement. Voir Configurer les notifications pour les travaux lents. Pour configurer un délai d'exécution maximum pour une tâche, entrez la durée maximale dans le champ Délai d'expiration. Si le travail n’est pas terminé dans ce délai, Azure Databricks définit son état sur « Expiré ».

Pour configurer un seuil pour une métrique de backlog de diffusion en continu, sélectionnez la métrique dans le menu déroulant Metric et entrez une valeur pour le seuil. Pour en savoir plus sur les métriques spécifiques prises en charge par une source de diffusion en continu, consultez Afficher les métriques pour les tâches de diffusion en continu.

Si un événement est déclenché, car un seuil est dépassé, vous pouvez utiliser l’événement pour envoyer une notification. Voir Configurer les notifications pour les travaux lents.

Vous pouvez éventuellement spécifier des seuils de durée pour les tâches. Consultez Configurer les seuils de durée d'exécution des tâches ou les métriques de retard de diffusion en continu.