Informations de référence sur les propriétés Delta Live Tables

Cet article fournit une référence pour la spécification de paramètre JSON delta Live Tables et les propriétés de table dans Azure Databricks. Pour plus d’informations sur l’utilisation de ces différentes propriétés et configurations, consultez les articles suivants :

Configurations de pipeline Delta Live Tables

Champs
id

Entrez : string

Identificateur global unique (GUID) pour ce pipeline. L’identificateur est attribué par le système et ne peut pas être modifié.
name

Entrez : string

Nom convivial pour ce pipeline. Le nom peut servir à identifier les travaux du pipeline dans l’interface utilisateur.
storage

Entrez : string

Emplacement dans DBFS ou le stockage cloud où sont stockées les données de sortie et les métadonnées requises pour l’exécution du pipeline. Les tables et les métadonnées sont stockées dans des sous-répertoires de cet emplacement.

Si le paramètre storage n’est pas spécifié, le système utilise par défaut un emplacement dans dbfs:/pipelines/.

Le paramètre storage ne peut pas être modifié une fois le pipeline créé.
configuration

Entrez : object

Liste facultative de paramètres à ajouter à la configuration Spark du cluster qui exécutera le pipeline. Ces paramètres sont lus par le runtime Delta Live Tables et sont utilisés dans les requêtes du pipeline via la configuration Spark.

Les éléments doivent être spécifiés sous la forme de paires key:value.
libraries

Entrez : array of objects

Tableau de notebooks contenant le code du pipeline et les artefacts requis.
clusters

Entrez : array of objects

Tableau de spécifications pour les clusters qui exécuteront le pipeline.

Si ce paramètre n’est pas spécifié, les pipelines sélectionnent automatiquement une configuration de cluster par défaut pour le pipeline.
development

Entrez : boolean

Un indicateur précisant s’il faut exécuter le pipeline
en mode development ou production.

La valeur par défaut est true.
notifications

Entrez : array of objects

Tableau facultatif de spécifications pour Notifications par e-mail lorsqu’une mise à jour de pipeline se termine, échoue avec une erreur pouvant faire de nouvelles tentatives, échoue avec une erreur non nouvelle tentative ou qu’un flux échoue.
continuous

Entrez : boolean

Indicateur précisant s’il faut exécuter le pipeline en continu.

La valeur par défaut est false.
target

Entrez : string

Nom d’une base de données où conserver les données de sortie du pipeline. La configuration du paramètre target vous permet d’afficher et d’interroger les données de sortie du pipeline à partir de l’interface utilisateur Azure Databricks.
channel

Entrez : string

Version du runtime Delta Live Tables à utiliser. Les valeurs prises en charge sont les suivantes :

* preview pour tester votre pipeline avec les modifications à venir de la version du runtime.
* current pour utiliser la version actuelle du runtime.

Le champ channel est facultatif. La valeur par défaut est
current. Databricks recommande d’utiliser la version actuelle du runtime pour les charges de travail de production.
edition

Tapez string.

Édition du produit Delta Live Tables sur laquelle exécuter le pipeline. Ce paramètre vous permet de choisir la meilleure édition du produit en fonction des exigences de votre pipeline :

* CORE pour exécuter des charges de travail d’ingestion de streaming.
* PRO pour exécuter des charges de travail d’ingestion de streaming et de capture des changements de données (CDC).
* ADVANCED pour exécuter des charges de travail d’ingestion de streaming, des charges de travail CDC et des charges de travail qui nécessitent que les attentes de Delta Live Tables appliquent des contraintes de qualité des données.

Le champ edition est facultatif. La valeur par défaut est
ADVANCED.
photon

Entrez : boolean

Indicateur précisant s’il faut utiliser Qu’est-ce que Photon ? pour exécuter le pipeline. Photon est le moteur Spark haute performance d’Azure Databricks. Les pipelines Photon sont facturés à un prix différent des pipelines non-Photon.

Le champ photon est facultatif. La valeur par défaut est false.
pipelines.maxFlowRetryAttempts

Entrez : int

Nombre maximal de nouvelles tentatives d’un flux avant l’échec d’une mise à jour de pipeline lorsqu’un échec avec nouvelle tentative possible se produit.

La valeur par défaut est de deux. Par défaut, lorsqu’un échec avec nouvelle tentative possible se produit, le runtime Delta Live Tables tente d’exécuter le flux trois fois, y compris la tentative d’origine.
pipelines.numUpdateRetryAttempts

Entrez : int

Nombre maximal de nouvelles tentatives de mise à jour avant l’échec d’une mise à jour lorsqu’un échec avec nouvelle tentative possible se produit. La nouvelle tentative est exécutée en tant que mise à jour complète.

La valeur par défaut est cinq. Ce paramètre s’applique uniquement aux mises à jour déclenchées exécutées en mode production. Aucune nouvelle tentative n’est possible lorsque votre pipeline s’exécute en mode développement.

Propriétés Delta Live Tables

Outre les propriétés des tables prises en charge par Delta Lake, vous pouvez définir les propriétés des tables suivantes.

Propriétés des tables
pipelines.autoOptimize.managed

Valeur par défaut : true

Active ou désactive automatiquement l’optimisation planifiée de cette table.
pipelines.autoOptimize.zOrderCols

Valeur par défaut : aucune

Une chaîne facultative contenant des noms de colonnes séparés par des virgules qui détermine l’ordre de plan de cette table. Par exemple : pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Valeur par défaut : true

Détermine si une actualisation complète de cette table est autorisée.

Propriétés de table CDC

Remarque : ces propriétés pour contrôler le comportement de gestion des objets tombstone sont déconseillées et remplacées par les paramètres de pipeline. Tous les pipelines existants ou nouveaux doivent utiliser les nouveaux paramètres de pipeline. Consultez Gestion des objets tombstone pour les requêtes SCD de type 1.

Les propriétés de table suivantes sont ajoutées pour contrôler le comportement de la gestion des objets tombstone pour les événements DELETE lors de l’utilisation de CDC :

Propriétés de la table
pipelines.cdc.tombstoneGCThresholdInSeconds

Par défaut : 5 minutes

Définissez cette valeur pour qu’elle corresponde à l’intervalle attendu le plus élevé entre données non ordonnées.
pipelines.cdc.tombstoneGCFrequencyInSeconds

Par défaut : 60 secondes.

Contrôle la fréquence à laquelle les objets tombstone sont vérifiés pour le nettoyage.

Consultez API APPLY CHANGES : Simplifier la capture des changements de données dans Delta Live Tables.

Intervalle de déclenchement des pipelines

Vous pouvez spécifier un intervalle de déclenchement de pipeline pour l’ensemble du pipeline Delta Live Tables ou dans le cadre d’une déclaration de jeu de données. Voir Intervalle de déclenchement des pipelines.

pipelines.trigger.interval
La valeur par défaut est basée sur le type de flux :

* Cinq secondes pour les requêtes de diffusion en continu.
* Une minute pour les requêtes complètes lorsque toutes les données d’entrée proviennent de sources Delta.
* Dix minutes pour les requêtes complètes lorsque certaines données d’entrée peuvent provenir de sources non Delta.

La valeur est un nombre exprimé dans l’unité de temps choisie. Les unités de temps valides sont les suivantes :

* second, seconds
* minute, minutes
* hour, hours
* day, days

Vous pouvez utiliser l’unité au singulier ou au pluriel lorsque vous définissez la valeur. Par exemple :

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Attributs de cluster qui ne sont pas définissables par l’utilisateur

Étant donné que Delta Live Tables gère les cycles de vie des clusters, de nombreux paramètres de cluster sont définis par Delta Live Tables et ne peuvent pas être configurés manuellement par les utilisateurs, soit dans une configuration du pipeline, soit dans une stratégie de cluster utilisée par un pipeline. Le tableau suivant répertorie ces paramètres et explique pourquoi ils ne peuvent pas être définis manuellement.

Champs
cluster_name

Delta Live Tables définit les noms des clusters utilisés pour exécuter les mises à jour de pipeline. Ces noms ne peuvent pas être remplacés.
data_security_mode
access_mode

Ces valeurs sont automatiquement définies par le système.
spark_version

Les clusters Delta Live Tables s’exécutent sur une version personnalisée de Databricks Runtime qui est continuellement mise à jour avec les fonctionnalités les plus récentes. La version de Spark est fournie avec la version Databricks Runtime et ne peut pas être remplacée.
autotermination_minutes

Étant donné que Delta Live Tables gère la logique d’arrêt automatique et de réutilisation du cluster, l’heure d’arrêt automatique du cluster ne peut pas être remplacée.
runtime_engine

Bien que vous puissiez contrôler ce champ en activant Photon pour votre pipeline, vous ne pouvez pas définir cette valeur directement.
effective_spark_version

Cette valeur est automatiquement définie par le système.
cluster_source

Ce champ est défini par le système et est en lecture seule.
docker_image

Étant donné que Delta Live Tables gère le cycle de vie du cluster, vous ne pouvez pas utiliser de conteneur personnalisé avec des clusters de pipeline.
workload_type

Cette valeur est définie par le système et ne peut pas être remplacée.