Configurer et modifier des travaux Lakeflow

Vous pouvez créer et exécuter un travail à l’aide de l’interface utilisateur des travaux ou des outils de développement tels que l’interface CLI Databricks ou l’API REST. À l’aide de l’interface utilisateur ou de l’API, vous pouvez réparer et réexécuter un travail ayant échoué ou annulé. Cet article explique comment créer, configurer et modifier des travaux à l’aide de l’interface utilisateur de l’espace de travail Travaux &Pipelines . Pour plus d’informations sur d’autres outils, consultez les rubriques suivantes :

  • Pour en savoir plus sur l’utilisation de l’interface CLI Databricks pour créer et exécuter des travaux, consultez l’interface CLI Databricks.
  • Pour en savoir plus sur l’utilisation de l’API Travaux pour créer et exécuter des travaux, consultez Travaux dans la référence de l’API REST.
  • Si vous préférez une approche IaC (Infrastructure-as-code) pour configurer des travaux, vous pouvez utiliser des lots d'automatisation déclarative. Pour en savoir plus sur l’utilisation d’ensembles pour configurer et orchestrer vos tâches, consultez Ensembles d'automatisation déclarative.
  • Pour savoir comment exécuter et planifier des travaux directement dans un notebook Databricks, consultez Créer et gérer des travaux de notebook planifiés.

Conseil

Pour afficher un travail en tant que YAML, cliquez sur le menu kebab à gauche de Exécuter maintenant pour le travail, puis cliquez sur Basculer vers la version de code (YAML).

Quelle est la configuration minimale nécessaire pour un travail ?

Tous les travaux sur Azure Databricks nécessitent les éléments suivants :

  • Tâche qui contient une logique à exécuter, comme un notebook Databricks. Voir Configurer et modifier des tâches dans Lakeflow Jobs
  • Ressource de calcul pour exécuter la logique. La ressource de calcul peut être un calcul serverless, un calcul de tâches classique ou un calcul à usage général. Consultez Configurer le calcul pour les projets.
  • Planification spécifiée pour l’exécution du travail. Si vous le souhaitez, vous pouvez omettre de définir une planification et déclencher le travail manuellement.
  • Nom unique.

Créer un nouvel emploi

Cette section décrit les étapes à suivre pour créer un nouveau travail avec une tâche de notebook et le planifier à l'aide de l'interface utilisateur de l'espace de travail.

Les projets incluent une ou plusieurs tâches. Vous créez un projet en configurant la première tâche pour ce projet.

Remarque

Chaque type de tâche dispose d’options de configuration dynamiques dans l’IU de l’espace de travail. Consultez Configurer et modifier des tâches dans les travaux Lakeflow.

  1. Dans votre espace de travail, cliquez sur l’icône Flux de travail.Travaux & Pipelines dans la barre latérale.
  2. Cliquez sur Créer, puis Travail.
  3. Cliquez sur la vignette Notebook pour configurer la première tâche. Si la vignette Notebook n’est pas disponible, cliquez sur Ajouter un autre type de tâche et recherchez Notebook.
  4. Entrez un nom de tâche.
  5. Sélectionnez un carnet pour le champ Chemin d’accès.
  6. Cliquez sur Create task.

Si votre espace de travail n’est pas activé pour le calcul serverless des projets, vous devez sélectionner une option Capacité de calcul. Databricks recommande de toujours utiliser Jobs Compute lors de la configuration des tâches.

Un nouveau projet apparaît dans la liste des projets de l’espace de travail avec le nom New Job <date> <time> par défaut.

Vous pouvez continuer à ajouter d’autres tâches au sein du même travail, si nécessaire pour votre flux de travail. Les travaux avec plus de 100 tâches peuvent avoir des exigences particulières. Pour plus d’informations, consultez Travaux avec un grand nombre de tâches.

Planification d’une tâche

Vous pouvez décider quand votre travail est exécuté. Par défaut, elle s’exécute uniquement lorsque vous la démarrez manuellement, mais vous pouvez également la configurer pour qu’elle s’exécute automatiquement. Vous pouvez créer un déclencheur pour exécuter un travail selon une planification ou en fonction d’un événement.

Contrôle du flux des tâches au sein du travail

Lors de la configuration de plusieurs tâches dans des travaux, vous pouvez utiliser des tâches spécialisées pour contrôler la façon dont les tâches s’exécutent. Consultez Contrôler le flux des tâches dans les travaux Lakeflow.

Sélectionner un projet à modifier dans l’espace de travail

Pour modifier un projet existant avec l’IU de l’espace de travail, procédez comme suit :

  1. Dans la barre latérale de votre espace de travail Azure Databricks, cliquez sur Jobs & Pipelines.
  2. Vous pouvez aussi sélectionner les filtres Travaux et Je suis le propriétaire.
  3. Cliquez sur le lien Nom de votre travail.

Utilisez l’IU des projets pour effectuer les opérations suivantes :

  • Modifier les paramètres de projet
  • Renommer, cloner ou supprimer un projet
  • Ajouter de nouvelles tâches à un projet existant
  • Modifier les paramètres de la tâche

Remarque

Vous pouvez également consulter les définitions JSON à utiliser avec les endpoints de l'API REST pour les actions get, create, et reset.

Modifier les paramètres de projet

Le panneau latéral affiche Détails du projet. Vous pouvez modifier la planification ou le déclencheur du travail, les paramètres de travail, la configuration du calcul, les balises, les notifications, le nombre maximal d’exécutions simultanées, les seuils de durée et les paramètres Git. Vous pouvez également modifier les autorisations du travail si le contrôle d’accès aux travaux est activé.

Ajouter des paramètres pour toutes les tâches

Les paramètres configurés au niveau du travail sont passés aux tâches du travail qui acceptent les paramètres clé-valeur, y compris les fichiers de roue Python configurés pour accepter les arguments de mot clé. Consultez Définir les paramètres de projets.

Ajouter des balises à un travail

Pour ajouter des étiquettes ou des attributs clé-valeur à votre projet, vous pouvez ajouter des étiquettes lorsque vous modifiez le projet. Vous pouvez utiliser des balises pour filtrer les projets dans la liste des projets. Par exemple, vous pouvez utiliser une balise department pour filtrer tous les projets appartenant à une section spécifique.

Remarque

Les étiquettes de travail n’étant pas conçues pour stocker des informations sensibles telles que des informations d’identification personnelle ou des mots de passe, Databricks recommande de limiter l’utilisation des étiquettes aux valeurs non sensibles.

Les étiquettes se propagent également aux clusters de travaux créés lors de l’exécution d’un travail, ce qui vous permet d’utiliser des étiquettes avec votre surveillance de cluster existante.

Cliquez sur + Balise dans le panneau latéral Détails du projet pour ajouter ou modifier des balises. Vous pouvez ajouter la balise sous forme d'étiquette ou de paire clé-valeur. Pour ajouter un libellé, entrez-le dans le champ Clé et laissez le champ Valeur vide.

Utiliser Git avec des projets

Vous pouvez configurer des tâches de travail pour extraire le code source directement à partir d’un référentiel Git distant. Pour obtenir des instructions et des bonnes pratiques, notamment l'extraction éparse pour les dépôts volumineux, consultez Utiliser Git avec les tâches Lakeflow.

Ajouter une stratégie d’utilisation serverless à une tâche

Importante

Cette fonctionnalité est disponible en préversion publique.

Si votre espace de travail utilise des politiques d'utilisation serverless pour attribuer l'utilisation serverless, vous pouvez sélectionner la politique d'utilisation serverless de vos travaux à l'aide du paramètre Stratégie Budget dans le panneau latéral des détails du travail. Consultez l’utilisation des attributs avec des stratégies d’utilisation sans serveur.

Renommer, cloner ou supprimer un projet

Pour renommer un travail, accédez à l’interface utilisateur des travaux, puis cliquez sur le nom du travail.

Vous pouvez créer rapidement un nouveau travail en clonant un travail existant. Le clonage d’un projet crée une copie identique du projet, à l’exception de l’ID tâche. Pour cloner un projet, procédez comme suit :

  1. Cliquez sur l’icône Flux de travail. Travaux & Pipelines dans la barre latérale gauche.
  2. Cliquez sur le nom du travail que vous souhaitez cloner pour ouvrir l’interface utilisateur des travaux.
  3. Cliquez sur l’icône de menu Kebab. En regard du bouton Exécuter maintenant .
  4. Sélectionnez Cloner le projet dans le menu déroulant.
  5. Entrez un nom pour la tâche clonée.
  6. Cliquez sur Cloner.

Supprimer une tâche

Pour supprimer un travail, accédez à la page du travail, cliquez sur l’icône de menu Kebab. En regard du nom du travail, puis sélectionnez Supprimer le travail dans le menu déroulant.

Configuration des seuils pour la durée d'exécution du travail ou des indicateurs de performance du backlog de diffusion en continu

Importante

L’observabilité de streaming pour les travaux Lakeflow est disponible en préversion publique.

Vous pouvez configurer des seuils facultatifs pour la durée d’exécution des tâches ou les métriques de streaming backlog. Pour configurer des seuils de durée ou de métriques de diffusion en continu, cliquez sur Seuils de durée et de diffusion en continu dans le panneau Détails du travail .

Pour configurer les seuils de durée de la tâche, y compris les durées d’achèvement attendues et maximales de la tâche, sélectionnez Durée d’exécution dans le menu déroulant Métrique. Entrez une durée dans le champ Avertissement pour configurer l’heure d’achèvement attendue du travail. Si le projet dépasse ce seuil, un événement est déclenché. Vous pouvez utiliser cet événement pour avertir lorsqu’un projet s’exécute lentement. Voir Configurer les notifications pour les tâches lentes. Pour configurer un délai d'exécution maximum pour une tâche, entrez la durée maximale dans le champ Délai d'expiration. Si le travail ne se termine pas dans ce délai, Azure Databricks définit son état sur « Expiration du délai ».

Pour configurer un seuil pour une métrique de backlog de diffusion en continu, sélectionnez la métrique dans le menu déroulant Metric et entrez une valeur pour le seuil. Pour en savoir plus sur les métriques spécifiques prises en charge par une source de diffusion en continu, consultez Afficher les métriques pour les tâches de diffusion en continu.

Si un événement est déclenché, car un seuil est dépassé, vous pouvez utiliser l’événement pour envoyer une notification. Voir Configurer les notifications pour les tâches lentes.

Vous pouvez éventuellement spécifier des seuils de durée pour les tâches. Veuillez consulter Configuration des seuils pour la durée d'exécution de la tâche ou des indicateurs de performance de backlog de diffusion en continu.

Activer la mise en file d'attente des exécutions de tâches

Remarque

La mise en file d’attente est activée par défaut pour les projets créés via l’IU après le 15 avril 2024.

Pour empêcher les exécutions d’un travail d’être ignorées en raison de limites de concurrence, vous pouvez désormais activer la mise en file d’attente pour le travail. Lorsque la mise en file d'attente est activée, l'exécution d'un travail est mise en attente pendant jusqu'à 48 heures si les ressources ne sont pas disponibles. Quand la capacité est disponible, l’exécution de travail est annulée de la file d’attente et est exécutée. Les exécutions en file d’attente sont affichées dans la liste des exécutions pour le travail et la liste des exécutions de travaux récentes.

Une exécution est mise en file d’attente lorsque l’une des limites est atteinte :

  • Quantité maximale d’exécutions actives simultanées dans l’espace de travail.
  • quantité maximale d’exécutions de tâches Run Job simultanées dans l’espace de travail.
  • Le nombre maximal d'exécutions simultanées de la tâche.

La mise en file d’attente est une propriété au niveau du travail dont les files d’attente s’exécutent uniquement pour ce travail.

Pour activer ou désactiver la file d’attente, cliquez sur Paramètres avancés, puis cliquez sur le bouton bascule File d’attente dans le volet latéral Travail.

Configurer le nombre maximal d'exécutions simultanées

Par défaut, le nombre maximal d’exécutions simultanées pour tous les nouveaux projets est de 1.

Cliquez sur Modifier les exécutions simultanées sous Paramètres avancés pour définir le nombre maximal d’exécutions parallèles de ce travail.

Azure Databricks ignore l’exécution si le travail a déjà atteint son nombre maximal d’exécutions actives lors de la tentative de démarrage d’une nouvelle exécution.

Définissez cette valeur supérieure à 1 pour autoriser plusieurs exécutions simultanées du même travail. Cela est utile, par exemple, si vous déclenchez votre travail selon une planification fréquente et que vous souhaitez permettre aux exécutions consécutives de chevaucher ou de déclencher plusieurs exécutions qui diffèrent par leurs paramètres d’entrée.