Partager via


Utiliser l’agent d’ingénierie des données

Important

Cette fonctionnalité est disponible en préversion publique.

Cette page présente l’Agent d’ingénierie des données qui ajoute des fonctionnalités à l’Assistant Databricks. Pour utiliser l’Agent d’ingénierie des données, sélectionnez le mode Agent dans l’Assistant.

L’agent d’ingénierie des données est conçu spécifiquement pour les pipelines déclaratifs (SDP) Lakeflow Spark et l’éditeur de pipelines Lakeflow, il explore les données, génère et exécute du code de pipeline et corrige les erreurs, à partir d’une seule invite.

Qu’est-ce que l’Agent d’ingénierie des données ?

L’agent d’ingénierie des données est une fonctionnalité puissante dans le mode Agent Assistant Databricks qui transforme l’Assistant en partenaire autonome capable d’automatiser des workflows d’ingénierie de données en plusieurs étapes entières dans SDP et l’éditeur de pipelines Lakeflow.

Utilisez l’agent d’ingénierie des données.

Par rapport au mode de conversation Assistant, le mode agent offre des fonctionnalités étendues : planification d’une solution, récupération des ressources pertinentes, exécution de code, utilisation de sorties de pipeline pour améliorer les résultats, corriger automatiquement les erreurs et bien plus encore.

L’agent d’ingénierie des données peut planifier et générer des pipelines entiers de bout en bout à partir de zéro, ou accélérer le travail sur un pipeline existant. L’agent travaille avec vous pour approuver ses plans et confirmer ses prochaines étapes avant de continuer. Avec votre approbation, l’Agent d’ingénierie des données peut utiliser des outils pour effectuer des tâches telles que la recherche de tables, la modification d’un fichier source SQL ou Python, l’exécution des mises à jour de pipeline et la lecture des jeux de données de pipeline.

L’accès et les actions de l’Agent d’ingénierie des données sont régies par les autorisations de l’utilisateur. Il peut uniquement accéder aux données auxquelles vous avez accès et effectuer des opérations pour lesquelles vous disposez d’autorisations.

Note

Lorsque vous activez le mode agent dans l’Assistant, l’Assistant adapte ses fonctionnalités en fonction des fonctionnalités que vous utilisez actuellement dans Databricks. Par exemple, dans l’Éditeur de pipelines Lakeflow, l’Assistant se concentre sur les tâches d’édition de pipeline et d’ingénierie des données. Dans les cahiers et l’éditeur SQL, l’assistant prend en charge l’exploration et l’analyse des données. Pour plus d’informations, consultez l’Agent de science des données .

Spécifications

Pour utiliser l’Agent d’ingénierie des données, votre espace de travail a besoin des éléments suivants :

Utiliser l’agent d’ingénierie des données

Pour utiliser l’agent d’ingénierie des données :

  1. À partir de l’éditeur de pipelines Lakeflow, ouvrez le volet latéral de l’assistant en cliquant sur l’icône d’assistant Avatar.Assistant dans le coin supérieur droit de votre espace de travail.

  2. Dans le coin inférieur droit, sélectionnez Agent. Cela bascule sur le mode agent de l’Assistant, ce qui vous permet d’interagir avec l’agent d’ingénierie des données.

  3. Entrez une invite pour l’agent. Par exemple, vous pouvez lui poser des questions sur votre pipeline, par exemple « décrire ce pipeline ». Vous pouvez également lui demander d’ajouter de nouveaux jeux de données, par exemple « créer des silver_sales_data dans un nouveau fichier qui lit à partir de bronze_sales_data et nettoie les données et ajoute des attentes de qualité utiles ».

    Note

    L’agent respecte les autorisations du catalogue Unity de l’utilisateur. Il peut donc accéder uniquement aux données et à la source de pipeline auxquelles vous avez accès.

  4. Lorsque l’agent génère sa réponse, il s’interrompt souvent pour obtenir votre entrée :

    • Pour les tâches plus complexes, l’agent peut créer un plan pas à pas et poser des questions de clarification. Répondez aux questions de clarification de l’agent pour l’aider à affiner son plan.

    • Lorsque l’agent doit exécuter du code ou mettre à jour un pipeline, il demande votre approbation avant de continuer. Autoriser ou refuser sa demande. Vous pouvez également sélectionner Autoriser dans ce thread (faisant référence au thread de conversation Assistant) ou Toujours autoriser.

      Important

      L’agent d’ingénierie des données peut générer et exécuter du code dans votre pipeline. Bien qu’il ait des garde-fous pour empêcher les actions dangereuses, il y a encore des risques. Vous devez uniquement l’utiliser avec des données approuvées, et vous devez passer en revue le code avant de l’exécuter.

    • Lorsque l’agent continue son travail, vous pouvez être invité à sélectionner Continuer ou Rejeter. Passez en revue le travail existant de l’agent, puis sélectionnez Continuer pour autoriser l’agent à passer à ses étapes suivantes ou Rejeter pour lui indiquer d’essayer autre chose.

    • Pour arrêter l’agent pendant son fonctionnement, cliquez sur l’icône Arrêter rouge.

L’agent peut créer de nouveaux fichiers, générer du texte, des requêtes et du code, exécuter les fichiers ou pipelines et accéder aux jeux de données de sortie pour interpréter les résultats.

Note

Pour que l’agent d’ingénierie des données continue son travail et effectue les étapes suivantes, vous devez rester sous l’onglet actuel dans lequel l’agent fonctionne.

Conseil / Astuce

Vous pouvez ajouter des instructions permettant à l’agent d’utiliser dans la plupart des réponses. Par exemple, si vous avez des conventions de code que vous souhaitez utiliser ou des bibliothèques préférées à utiliser, vous pouvez ajouter ces instructions aux instructions de l’agent. Vous pouvez également créer des compétences pour étendre l’agent avec des fonctionnalités spécialisées pour vos tâches spécifiques au domaine. Pour plus d’informations et d’autres conseils, consultez Personnaliser et améliorer les réponses de l’Assistant Databricks.

Capacités

L’agent d’ingénierie des données peut vous aider à effectuer la plupart des tâches de développement de pipeline. Les fonctionnalités clés sont les suivantes :

  • Découverte des données : l’agent peut rechercher des tables dans l’espace de travail pour vous aider à trouver les données requises pour une tâche.
  • Modifications du code de pipeline : l’agent peut créer et modifier plusieurs fichiers à la fois. Il vous informe des fichiers qu’il modifie et affiche le différences de code dans chaque fichier. Vous pouvez donc passer en revue les modifications individuellement ou toutes ensemble à la fin.
  • Exécution du pipeline : l’agent peut exécuter des fichiers individuels, faire un test à sec/exécuter le pipeline ou effectuer une actualisation complète. Lorsque l’agent souhaite continuer, il demande votre confirmation avant de le faire.
  • Comprendre et améliorer le comportement du pipeline : l’agent peut inspecter les jeux de données et les sorties de pipeline pour vous aider à comprendre ce qu’un pipeline fait de bout en bout et pourquoi. Par exemple, il peut résumer les transformations, tracer la façon dont les données circulent dans des tables en aval et mettre en évidence des modifications inattendues dans les nombres de lignes ou les schémas. Lorsqu'il identifie des problèmes potentiels liés à la qualité des données, l'agent peut vous aider à analyser leur cause et à suggérer où et comment les résoudre dans le pipeline.

Ces fonctionnalités prennent en charge les cas d’usage courants tels que :

  • Création d’un nouveau pipeline : l’agent d’ingénierie des données peut vous aider à créer un pipeline d’architecture de médaillon, de l’ingestion de données, à la normalisation et au nettoyage des données, à la transformation et à l’analyse des données.
  • Expliquer un pipeline : l’agent peut analyser et expliquer un pipeline existant pour vous aider à monter rapidement en puissance.
  • Résoudre les problèmes : lorsque vous rencontrez des erreurs, l’agent peut vous aider à diagnostiquer et résoudre les problèmes, en effectuant une itération dans plusieurs fichiers jusqu’à ce que le problème soit résolu.

Examples

Essayez les invites suivantes pour commencer :

  • « Créez et exécutez un pipeline d’architecture de médaillon pour la détection des fraudes à l’aide des tables transactions et customers dans my_catalog.my_schema. »
  • Expliquez chaque étape de ce pipeline.
  • Corrigez la défaillance de ce pipeline.

Étapes suivantes