Partage via


Créer des pipelines entièrement managés à l’aide de Delta Live Tables avec un calcul serverless

Important

Les pipelines DLT serverless sont en préversion publique. Pour en savoir plus sur l’activation des pipelines DLT serverless, contactez votre équipe de compte Azure Databricks.

Cet article explique comment utiliser Delta Live Tables avec un calcul serverless pour exécuter vos mises à jour de pipeline avec un calcul entièrement managé et détaille les fonctionnalités de calcul serverless qui améliorent les performances de vos pipelines.

Utilisez des pipelines DLT serverless pour exécuter vos pipelines Delta Live Tables sans configurer et déployer d’infrastructure. Avec les pipelines DLT serverless, vous vous concentrez sur l’implémentation de la transformation et de l’ingestion des données, et Azure Databricks gère efficacement les ressources de calcul, notamment l’optimisation et la mise à l’échelle du calcul pour vos charges de travail. Les pipelines DLT serverless incluent les fonctionnalités suivantes :

  • Calcul optimisé automatiquement qui s’exécute uniquement si nécessaire.
  • Ressources de calcul fiables et entièrement managées.
  • Mises à jour des jeux de données plus efficaces avec actualisation incrémentielle pour les vues matérialisées.
  • Démarrage plus rapide pour les ressources de calcul qui exécutent une mise à jour du pipeline.

Les pipelines DLT serverless disposent également des fonctionnalités suivantes pour optimiser les performances de traitement des pipelines, prendre en charge l’utilisation plus efficace des ressources de calcul et réduire le coût d’exécution de votre pipeline :

  • Traitement en pipeline des flux de données : pour améliorer l’utilisation, le débit et la latence des charges de travail de données en streaming telles que l’ingestion de données, les microlots sont dans le pipeline. En d’autres termes, au lieu d’exécuter des microlots de manière séquentielle comme le Spark Structured Streaming standard, les pipelines DLT serverless exécutent simultanément des microlots, ce qui entraîne une meilleure utilisation des ressources de calcul. Le traitement en pipeline des flux de données est activé par défaut dans les pipelines DLT serverless.
  • Mise à l’échelle automatique verticale : les pipelines DLT serverless ajoutent à la mise à l’échelle automatique horizontale assurée par la mise à l’échelle automatique améliorée de Databricks en allouant automatiquement les types d’instances les plus rentables qui peuvent exécuter votre pipeline Delta Live Tables sans échouer en raison d’erreurs de mémoire insuffisante. Consultez Qu’est-ce que la mise à l’échelle automatique verticale ?

Étant donné que l’autorisation de création de clusters n’est pas nécessaire, tous les utilisateurs de l’espace de travail peuvent utiliser les pipelines DLT serverless pour exécuter leurs flux de travail.

Spécifications

Exécuter la mise à jour d’un pipeline grâce à des pipelines DLT serverless

Important

Étant donné que les ressources de calcul sont entièrement gérées pour les pipelines DLT serverless, les paramètres de capacité de calcul ne sont pas disponibles dans l’interface utilisateur de Delta Live Tables pour un pipeline serverless. Lorsque vous activez le serverless, tous les paramètres de calcul que vous avez configurés pour un pipeline sont supprimés. Si vous rétablissez les mises à jour non serverless dans un pipeline, ces paramètres de calcul doivent être ajoutés à nouveau à la configuration du pipeline. Vous ne pouvez pas non plus ajouter manuellement des paramètres de calcul dans un objet clusters dans la configuration JSON pour le pipeline.

Pour exécuter la mise à jour d’un pipeline qui utilise des pipelines DLT serverless, cochez la case Serverless lorsque vous créez ou modifiez un pipeline.

Comment les vues matérialisées sont-elles actualisées dans des pipelines DLT serverless ?

Si possible, les résultats de requête sont mis à jour de manière incrémentielle pour les vues matérialisées dans un pipeline serverless. Lorsqu’une actualisation incrémentielle est effectuée, les résultats sont équivalents à un recalcul complet. Si la vue matérialisée ne peut pas être actualisée de manière incrémentielle, le processus d’actualisation utilise une actualisation complète à la place. Consultez Opérations d’actualisation pour obtenir des vues matérialisées.

Qu’est-ce que la mise à l’échelle automatique verticale ?

La mise à l’échelle automatique verticale des pipelines DLT serverless alloue automatiquement les types d’instances disponibles les plus rentables pour exécuter vos mises à jour de pipeline Delta Live Tables sans échouer en raison d’erreurs de mémoire insuffisante. La mise à l’échelle automatique verticale augmente lorsque des types d’instances plus volumineux sont nécessaires pour exécuter la mise à jour d’un pipeline et effectue également un scale-down lorsqu’elle détermine que la mise à jour peut être exécutée avec des types d’instances plus petits. La mise à l’échelle automatique verticale détermine si les nœuds de pilote, les nœuds Worker ou les nœuds de pilote et Worker doivent être mis à l’échelle vers le haut ou le bas.

La mise à l’échelle automatique verticale est utilisée pour tous les pipelines DLT serverless, y compris les pipelines utilisés par les vues matérialisées Databricks SQL et les tables de diffusion en continu.

La mise à l’échelle automatique verticale fonctionne en détectant les mises à jour de pipeline qui ont échoué en raison d’erreurs de mémoire insuffisante. Lorsque ces défaillances sont détectées, la mise à l’échelle automatique verticale alloue des types d’instances plus volumineux en fonction des données hors mémoire collectées à partir de la mise à jour ayant échoué. En mode de production, une nouvelle mise à jour qui utilise les nouvelles ressources de calcul est lancée automatiquement. En mode développement, les nouvelles ressources de calcul sont utilisées lorsque vous lancez manuellement une nouvelle mise à jour.

Si la mise à l’échelle automatique verticale détecte que la mémoire des instances allouées est constamment sous-utilisée, elle effectue un scale-down des types d’instances à utiliser dans la prochaine mise à jour du pipeline.