Partager via


Configurer un pipeline Delta Live Tables serverless

Cet article décrit les configurations des pipelines Delta Live Tables serverless.

Databricks recommande de développer de nouveaux pipelines à l’aide de serverless. Certaines charges de travail peuvent nécessiter la configuration du calcul classique ou l’utilisation du metastore Hive hérité. Consultez Configurer le calcul pour un pipeline Delta Live Tables et utiliser des pipelines Delta Live Tables avec un metastore Hive hérité.

Remarque

  • Les pipelines serverless utilisent toujours le catalogue Unity. Le catalogue Unity pour les tables dynamiques Delta est disponible en préversion publique et présente certaines limitations. Consultez Utiliser Unity Catalog avec vos pipelines Delta Live Tables.

  • Vous ne pouvez pas ajouter manuellement des paramètres de calcul dans un clusters objet dans la configuration JSON d’un pipeline serverless. Toute tentative en ce sens entraîne une erreur.

  • Pour plus d’informations sur l’éligibilité et l’activation pour les pipelines DLT serverless, consultez l’article Activer un calcul serverless.

  • Si vous devez utiliser une connexion Azure Private Link avec vos pipelines DLT serverless, contactez votre représentant Databricks.

Spécifications

  • Votre espace de travail doit avoir le catalogue Unity activé pour utiliser des pipelines serverless.

  • Votre espace de travail doit se trouver dans une région compatible avec le serverless.

Important

L’autorisation de création de cluster n’est pas nécessaire pour configurer des pipelines serverless. Par défaut, tous les utilisateurs de l’espace de travail peuvent utiliser des pipelines serverless.

Les pipelines serverless suppriment la plupart des options de configuration, car Azure Databricks gère toutes les infrastructures. Pour configurer un pipeline serverless, procédez comme suit :

  1. Cliquez sur Delta Live Tables dans la barre latérale.
  2. Cliquez sur Créer un pipeline.
  3. Fournissez un nom de pipeline unique.
  4. Cochez la case en regard de Serverless.
  5. Utilisez le icône Sélecteur de fichiers sélecteur de fichiers pour configurer des blocs-notes et des fichiers d’espace de travail en tant que code source.
    • Vous devez ajouter au moins une ressource de code source.
    • Utilisez le bouton Ajouter du code source pour ajouter des ressources de code source supplémentaires.
  6. Sélectionnez un catalogue pour publier des données.
  7. Sélectionnez un schéma dans le catalogue. Toutes les tables de streaming et vues matérialisées définies dans le pipeline sont créées dans ce schéma.
  8. Cliquez sur Créer.

Ces configurations recommandées créent un pipeline configuré pour s’exécuter en mode déclenché et le canal actuel . Cette configuration est recommandée pour de nombreux cas d’usage, notamment le développement et le test, et convient parfaitement aux charges de travail de production qui doivent s’exécuter selon une planification. Pour plus d’informations sur la planification des pipelines, consultez la tâche de pipeline Delta Live Tables pour les travaux.

Vous pouvez également convertir des pipelines existants configurés avec le catalogue Unity pour utiliser serverless. Consultez Convertir un pipeline existant pour utiliser serverless.

Autres considérations relatives à la configuration

Les options de configuration suivantes sont également disponibles pour les pipelines serverless :

  • Vous pouvez choisir d’utiliser le mode pipeline continu lors de l’exécution de pipelines en production. Consultez le mode de pipeline déclenché et continu.
  • Ajoutez des notifications pour les mises à jour par e-mail en fonction des conditions de réussite ou d’échec. Consultez Ajouter des notifications par e-mail pour les événements de pipeline.
  • Utilisez le champ Configuration pour définir des paires clé-valeur pour le pipeline. Ces configurations servent à deux fins :
  • Utilisez le canal de préversion pour tester votre pipeline par rapport aux modifications du runtime Delta Live Tables en attente et tester de nouvelles fonctionnalités.

Fonctionnalités de pipeline serverless

En plus de simplifier la configuration, les pipelines serverless ont les fonctionnalités suivantes :

  • Actualisation incrémentielle des vues matérialisées : les mises à jour des vues matérialisées sont actualisées de manière incrémentielle chaque fois que possible. L’actualisation incrémentielle a les mêmes résultats que la recomputation complète. La mise à jour utilise une actualisation complète si les résultats ne peuvent pas être calculés de manière incrémentielle. Consultez Opérations d’actualisation pour obtenir des vues matérialisées.
  • Traitement en pipeline des flux de données : pour améliorer l’utilisation, le débit et la latence des charges de travail de données en streaming telles que l’ingestion de données, les microlots sont dans le pipeline. En d’autres termes, au lieu d’exécuter des microbatches séquentiellement comme Spark Structured Streaming standard, les pipelines DLT serverless exécutent des microbatches simultanément, améliorant ainsi l’utilisation des ressources de calcul. Le traitement en pipeline des flux de données est activé par défaut dans les pipelines DLT serverless.
  • Mise à l’échelle automatique verticale : les pipelines DLT serverless ajoutent à la mise à l’échelle automatique horizontale fournie par Databricks amélioré la mise à l’échelle automatique en allouant automatiquement les types d’instances les plus rentables qui peuvent exécuter votre pipeline Delta Live Tables sans échouer en raison d’erreurs de mémoire insuffisante. Consultez Qu’est-ce que la mise à l’échelle automatique verticale ?

Qu’est-ce que la mise à l’échelle automatique verticale ?

La mise à l’échelle automatique verticale des pipelines DLT serverless alloue automatiquement les types d’instances disponibles les plus rentables pour exécuter vos mises à jour de pipeline Delta Live Tables sans échouer en raison d’erreurs de mémoire insuffisante. La mise à l’échelle automatique verticale augmente lorsque des types d’instances plus volumineux sont nécessaires pour exécuter la mise à jour d’un pipeline et effectue également un scale-down lorsqu’elle détermine que la mise à jour peut être exécutée avec des types d’instances plus petits. La mise à l’échelle automatique verticale détermine si les nœuds de pilote, les nœuds Worker ou les nœuds de pilote et Worker doivent être mis à l’échelle vers le haut ou le bas.

La mise à l’échelle automatique verticale est utilisée pour tous les pipelines DLT serverless, y compris les pipelines utilisés par les vues matérialisées Databricks SQL et les tables de diffusion en continu.

La mise à l’échelle automatique verticale fonctionne en détectant les mises à jour de pipeline qui ont échoué en raison d’erreurs de mémoire insuffisante. La mise à l’échelle automatique verticale alloue des types d’instances plus volumineux lorsque ces échecs sont détectés en fonction des données hors mémoire collectées à partir de la mise à jour ayant échoué. En mode de production, une nouvelle mise à jour qui utilise les nouvelles ressources de calcul est lancée automatiquement. En mode développement, les nouvelles ressources de calcul sont utilisées lorsque vous lancez manuellement une nouvelle mise à jour.

Si la mise à l’échelle automatique verticale détecte que la mémoire des instances allouées est constamment sous-utilisée, elle effectue un scale-down des types d’instances à utiliser dans la prochaine mise à jour du pipeline.

Convertir un pipeline existant pour utiliser serverless

Vous pouvez convertir des pipelines existants configurés avec le catalogue Unity en pipelines serverless. Suivez les étapes ci-dessous :

  1. Cliquez sur Delta Live Tables dans la barre latérale.
  2. Cliquez sur le nom du pipeline souhaité dans la liste.
  3. Cliquez sur Paramètres.
  4. Cochez la case en regard de Serverless.
  5. Cliquez sur Enregistrer et démarrer.

Important

Lorsque vous activez le serverless, tous les paramètres de calcul que vous avez configurés pour un pipeline sont supprimés. Si vous basculez un pipeline vers des mises à jour sans serveur, vous devez reconfigurer les paramètres de calcul souhaités en fonction de la configuration du pipeline.

Comment puis-je trouver l’utilisation de DBU d’un pipeline serverless ?

Vous trouverez l’utilisation de DBU des pipelines DLT serverless en interrogeant la table d’utilisation facturable, composante des tables système Azure Databricks. Consultez Quelle est la consommation DBU d’un pipeline DLT serverless ?