Gérer la configuration des pipelines Delta Live Tables

Article
04/25/2024

Étant donné que Delta Live Tables automatise les complexités opérationnelles telles que la gestion de l’infrastructure, l’orchestration des tâches, la récupération des erreurs et l’optimisation des performances, la plupart de vos pipelines peuvent s’exécuter avec une configuration manuelle minimale. Toutefois, Delta Live Tables vous permet également de gérer la configuration des pipelines nécessitant des configurations qui ne sont pas par défaut ou d’optimiser les performances et l’utilisation des ressources. Ces articles fournissent des détails sur la gestion des configurations de vos pipelines Delta Live Tables, y compris les paramètres qui déterminent la façon dont les pipelines sont exécutés, les options pour le calcul qui exécute un pipeline et la gestion des dépendances externes telles que les bibliothèques Python.

Gérer les paramètres de pipeline

La configuration d’un pipeline Delta Live Tables inclut des paramètres qui définissent le code source mettant en œuvre le pipeline. Elle inclut également des paramètres qui contrôlent l’infrastructure de pipeline, la gestion des dépendances, le traitement des mises à jour et l’enregistrement des tables dans l’espace de travail. La plupart des configurations sont facultatives, mais certaines nécessitent une attention particulière.

Pour en savoir plus sur les options de configuration des pipelines et leur utilisation, consultez Configurer les paramètres de pipeline pour Delta Live Tables.

Pour obtenir des spécifications détaillées des paramètres Delta Live Tables, les propriétés qui contrôlent la gestion des tables, ainsi que des options de calcul non configurables, consultez Informations de référence sur les propriétés Delta Live Tables.

Gérer les dépendances externes pour les pipelines qui utilisent Python

Delta Live Tables prend en charge l’utilisation de dépendances externes dans vos pipelines, tels que les packages et bibliothèques Python. Pour en savoir plus sur les options et les recommandations relatives à l’utilisation des dépendances, consultez Gérer les dépendances Python pour les pipelines Delta Live Tables.

Utiliser des modules Python stockés dans votre espace de travail Azure Databricks

Outre l’implémentation de votre code Python dans les notebooks Databricks, vous pouvez utiliser des dossiers Git Databricks ou des fichiers d’espace de travail pour stocker votre code en tant que modules Python. Le stockage de votre code en tant que modules Python est particulièrement utile lorsque vous disposez de fonctionnalités courantes que vous souhaitez utiliser dans plusieurs pipelines ou plusieurs notebooks dans le même pipeline. Pour savoir comment utiliser des modules Python avec vos pipelines, consultez Importer des modules Python à partir de dossiers Git ou de fichiers d’espace de travail.

Optimiser l’utilisation du calcul du pipeline

Utilisez la mise à l’échelle automatique améliorée pour optimiser l’utilisation du cluster de vos pipelines. La mise à l’échelle automatique améliorée ajoute des ressources supplémentaires uniquement si le système détermine que ces ressources augmentent la vitesse de traitement du pipeline. Les ressources sont libérées lorsqu’elles ne sont plus nécessaires et les clusters sont arrêtés dès que toutes les mises à jour du pipeline se terminent.

Pour en savoir plus sur la mise à l’échelle automatique améliorée, y compris les détails de configuration, consultez Optimiser l’utilisation des clusters de pipelines Delta Live Tables avec la mise à l’échelle automatique améliorée.

Gérer la configuration des pipelines Delta Live Tables

Gérer les paramètres de pipeline

Gérer les dépendances externes pour les pipelines qui utilisent Python

Utiliser des modules Python stockés dans votre espace de travail Azure Databricks

Optimiser l’utilisation du calcul du pipeline

Ressources supplémentaires