Guide de l’API Delta Live Tables

Important

Le contenu de cet article a été retiré et pourrait ne pas être mis à jour. Consultez Delta Live Tables dans la référence de l’API REST Databricks.

L’API tables dynamiques Delta vous permet de créer, de modifier, de supprimer, de démarrer et d’afficher des détails sur les pipelines.

Important

Pour accéder aux API REST Databricks, vous devez vous authentifier.

Créer un pipeline

Point de terminaison Méthode HTTP
2.0/pipelines POST

Crée un pipeline de tables dynamiques Delta.

Exemple

Cet exemple crée un pipeline déclenché.

Requête

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json

pipeline-settings.json:

{
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "continuous": false
}

Remplacez :

Cet exemple utilise un fichier .netrc.

response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}

Structure de la requête

Consultez PipelineSettings.

Structure de réponse

Nom du champ Type Description
pipeline_id STRING Identificateur unique du pipeline nouvellement créé.

Modifier un pipeline

Point de terminaison Méthode HTTP
2.0/pipelines/{pipeline_id} PUT

Met à jour les paramètres d’un pipeline existant.

Exemple

Cet exemple ajoute un target paramètre au pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json

pipeline-settings.json

{
  "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "target": "wikipedia_quickstart_data",
  "continuous": false
}

Remplacez :

Cet exemple utilise un fichier .netrc.

Structure de la requête

Consultez PipelineSettings.

Supprimer un pipeline

Point de terminaison Méthode HTTP
2.0/pipelines/{pipeline_id} DELETE

Supprime un pipeline du système de tables dynamiques Delta.

Exemple

Cet exemple supprime le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Remplacez :

Cet exemple utilise un fichier .netrc.

Démarrer une mise à jour de pipeline

Point de terminaison Méthode HTTP
2.0/pipelines/{pipeline_id}/updates POST

Démarre une mise à jour pour un pipeline. Vous pouvez démarrer une mise à jour pour l’ensemble du graphique de pipeline ou une mise à jour sélective de tables spécifiques.

Exemples

Démarrer une actualisation complète

Cet exemple démarre une mise à jour avec une actualisation complète pour le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'

Remplacez :

Cet exemple utilise un fichier .netrc.

response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Démarrer une mise à jour des tables sélectionnées

Cet exemple démarre une mise à jour qui actualise les tables sales_orders_cleaned et sales_order_in_chicago dans le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'

Remplacez :

Cet exemple utilise un fichier .netrc.

response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Démarrer une mise à jour complète des tables sélectionnées

Cet exemple démarre une mise à jour des tables sales_orders_cleaned et sales_order_in_chicago, et une mise à jour avec actualisation complète des tables customers et sales_orders_raw dans le pipeline avec l’IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Requête
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'

Remplacez :

Cet exemple utilise un fichier .netrc.

response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Structure de la requête

Nom du champ Type Description
full_refresh BOOLEAN Indique si toutes les données doivent être retraitées. Si la condition est true, le système de tables dynamiques Delta réinitialise toutes les tables avant d’exécuter le pipeline.

Ce champ est facultatif.

La valeur par défaut est false.

Une erreur est retournée si full_refesh est true et refresh_selection ou full_refresh_selection est définie.
refresh_selection Tableau de STRING Une liste des tables à mettre à jour. Utilisation
refresh_selection pour démarrer une actualisation d’un ensemble de tables sélectionné dans le graphique de pipeline.

Ce champ est facultatif. Si
refresh_selection et
full_refresh_selection sont vides, l’ensemble du graphique de pipeline est actualisé.

Une erreur est retournée si :

* full_refesh est vrai et
refresh_selection est défini.
* Une ou plusieurs des tables spécifiées n’existent pas dans le graphique de pipeline.
full_refresh_selection Tableau de STRING Liste des tables à mettre à jour avec actualisation complète. Utilisez full_refresh_selection pour démarrer une mise à jour d’un ensemble de tables sélectionné. Les états des tables spécifiées sont réinitialisés avant que le système Delta Live Tables démarre la mise à jour.

Ce champ est facultatif. Si
refresh_selection et
full_refresh_selection sont vides, l’ensemble du graphique de pipeline est actualisé.

Une erreur est retournée si :

* full_refesh est vrai et
refresh_selection est défini.
* Une ou plusieurs des tables spécifiées n’existent pas dans le graphique de pipeline.
* Une ou plusieurs des tables spécifiées ne sont pas réinitialisées.

Structure de réponse

Nom du champ Type Description
update_id STRING L'identifiant unique de la mise à jour nouvellement créée.
request_id STRING L’identificateur unique de la requête ayant commencé la mise à jour.

Récupérez l’état de la requête de mise à jour d’un pipeline.

Point de terminaison Méthode HTTP
2.0/pipelines/{pipeline_id}/requests/{request_id} GET

Obtient l’état et les informations de la mise à jour du pipeline associé avecrequest_id, où request_id est un identificateur unique pour la demande qui a lancé la mise à jour du pipeline. Si la mise à jour est retentée ou redémarrée, la nouvelle mise à jour hérite de la request_id (identifiant de requête)

Exemple

Pour le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5, cet exemple retourne l’état et les informations de la mise à jour associée à l’ID de requêtea83d9f7c-d798-4fd5-aa39-301b6e6f4429 :

Requête

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429

Remplacez :

Cet exemple utilise un fichier .netrc.

response

{
   "status": "TERMINATED",
   "latest_update":{
     "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
     "update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
     "config":{
       "id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
       "name": "Retail sales (SQL)",
       "storage": "/Users/username/data",
       "configuration":{
         "pipelines.numStreamRetryAttempts": "5"
       },
       "clusters":[
         {
           "label": "default",
           "autoscale":{
             "min_workers": 1,
             "max_workers": 5,
             "mode": "ENHANCED"
           }
         }
       ],
       "libraries":[
         {
           "notebook":{
             "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
           }
         }
       ],
       "continuous": false,
       "development": true,
       "photon": true,
       "edition": "advanced",
       "channel": "CURRENT"
     },
     "cause": "API_CALL",
     "state": "COMPLETED",
     "cluster_id": "1234-567891-abcde123",
     "creation_time": 1664304117145,
     "full_refresh": false,
     "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
   }
}

Structure de réponse

Nom du champ Type Description
status STRING L’état de la requête de mise à jour du pipeline. Valeurs possibles :

* ACTIVE : une mise à jour pour cette requête est en cours d’exécution ou peut être retentée par une nouvelle mise à jour.
* TERMINATED: la requête est terminée et ne sera pas retentée ou redémarrée.
pipeline_id STRING Identificateur unique de l’application.
update_id STRING L’identifiant unique de la mise à jour.
config PipelineSettings Paramètres du pipeline.
cause STRING Déclencheur de la mise à jour. Valeurs possibles API_CALL
RETRY_ON_FAILURE, SERVICE_UPGRADE, SCHEMA_CHANGE,
JOB_TASK, ou USER_ACTION.
state STRING L’état de l’appareil. Valeurs possibles : QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING,
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED,
FAILED, ou CANCELED.
cluster_id STRING Identificateur du cluster exécutant la mise à jour.
creation_time INT64 Horodatage de la création de la mise à jour.
full_refresh BOOLEAN Indique si cette mise à jour réinitialise tous les tableaux avant exécution
refresh_selection Tableau de STRING Liste des tableaux à mettre à jour sans actualisation complète.
full_refresh_selection Tableau de STRING Liste des tables à mettre à jour avec actualisation complète.
request_id STRING L’identificateur unique de la requête ayant commencé la mise à jour. Il s’agit de la valeur retournée par la requêtede mise à jour. Si la mise à jour est retentée ou redémarrée, la nouvelle mise à jour hérite de la request_id (identifiant de requête) Toutefois, le update_id sera différent.

Arrêter toute mise à jour du pipeline actif

Point de terminaison Méthode HTTP
2.0/pipelines/{pipeline_id}/stop POST

Arrête toute mise à jour active du pipeline. Si aucune mise à jour n’est en cours d’exécution, cette demande est une absence d’opération.

Pour un pipeline continu, l’exécution du pipeline est suspendue. Les tables qui traitent actuellement l’actualisation de fin, mais les tables en aval ne sont pas actualisées. Dans la prochaine mise à jour du pipeline, Delta Live Tables effectue une actualisation sélectionnée des tables qui n’ont pas terminé le traitement et reprend le traitement du DAG de pipeline restant.

Pour un pipeline déclenché, l’exécution du pipeline est arrêtée. Les tables qui traitent actuellement l’actualisation de fin, mais les tables en aval ne sont pas actualisées. Dans la mise à jour de pipeline suivante, les tables Delta Live actualisent toutes les tables.

Exemple

Cet exemple arrête une mise à jour du pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop

Remplacez :

Cet exemple utilise un fichier .netrc.

Répertorier les événements de pipeline

Point de terminaison Méthode HTTP
2.0/pipelines/{pipeline_id}/events GET

Récupère les événements pour un pipeline.

Exemple

Cet exemple récupère un maximum de 5 événements pour le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Requête

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5

Remplacez :

Cet exemple utilise un fichier .netrc.

Structure de la requête

Nom du champ Type Description
page_token STRING Jeton de page retourné par l’appel précédent. Ce champ s’exclut mutuellement avec tous les champs de cette demande, à l’exception de max_results. Une erreur est retournée si des champs autres que max_results sont définis lorsque ce champ est défini.

Ce champ est facultatif.
max_results INT32 Nombre maximal d’entrées à retourner dans une seule page. Le système peut retourner moins de événements max_results dans une réponse, même s’il y a plus d’événements disponibles.

Ce champ est facultatif.

La valeur par défaut est 25.

La valeur maximale est 100. Une erreur est retournée si la valeur de
max_results est supérieur à 100.
order_by STRING Chaîne indiquant un ordre de tri par horodateur pour les résultats, par exemple, ["timestamp asc"].

L’ordre de tri peut être croissant ou décroissant. Par défaut, les événements sont retournés dans l’ordre décroissant par horodateur.

Ce champ est facultatif.
filter STRING Critères permettant de sélectionner un sous-ensemble de résultats, exprimés à l'aide d'une syntaxe de type SQL. Les filtres pris en charge sont les suivants :

* level='INFO' (ou WARN ou ERROR)
* level in ('INFO', 'WARN')
* id='[event-id]'
* timestamp > 'TIMESTAMP' (ou >=,<,<=,=)

Les expressions composites sont prises en charge, par exemple :
level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z'

Ce champ est facultatif.

Structure de réponse

Nom du champ Type Description
events Tableau d’événements de pipeline. Liste des événements correspondant aux critères de demande.
next_page_token STRING Le cas échéant, jeton pour extraire la page suivante d’événements.
prev_page_token STRING Le cas échéant, jeton pour extraire la page suivante d’événements.

Détails du pipeline

Point de terminaison Méthode HTTP
2.0/pipelines/{pipeline_id} GET

Obtient des détails sur un pipeline, y compris les paramètres de pipeline et les mises à jour récentes.

Exemple

Cet exemple obtient les détails du pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Remplacez :

Cet exemple utilise un fichier .netrc.

response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "spec": {
    "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "name": "Wikipedia pipeline (SQL)",
    "storage": "/Users/username/data",
    "clusters": [
      {
        "label": "default",
        "autoscale": {
          "min_workers": 1,
          "max_workers": 5,
          "mode": "ENHANCED"
        }
      }
    ],
    "libraries": [
      {
        "notebook": {
          "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
        }
      }
    ],
    "target": "wikipedia_quickstart_data",
    "continuous": false
  },
  "state": "IDLE",
  "cluster_id": "1234-567891-abcde123",
  "name": "Wikipedia pipeline (SQL)",
  "creator_user_name": "username",
  "latest_updates": [
    {
      "update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
      "state": "COMPLETED",
      "creation_time": "2021-08-13T00:37:30.279Z"
    },
    {
      "update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
      "state": "CANCELED",
      "creation_time": "2021-08-13T00:35:51.902Z"
    },
    {
      "update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
      "state": "FAILED",
      "creation_time": "2021-08-13T00:33:38.565Z"
    }
  ],
  "run_as_user_name": "username"
}

Structure de réponse

Nom du champ Type Description
pipeline_id STRING Identificateur unique de l’application.
spec PipelineSettings Paramètres du pipeline.
state STRING État du pipeline Un de IDLE ou RUNNING.

Si State = RUNNING, il y a au moins une mise à jour active.
cluster_id STRING Identificateur du cluster exécutant le pipeline.
name STRING Le nom convivial de ce pipeline.
creator_user_name STRING Nom d’utilisateur du créateur de pipeline.
latest_updates Tableau de UpdateStateInfo État des mises à jour les plus récentes pour le pipeline, classées avec la mise à jour la plus récente en premier.
run_as_user_name STRING Nom d’utilisateur sous lequel le pipeline s’exécute.

Obtenir les détails de la mise à jour

Point de terminaison Méthode HTTP
2.0/pipelines/{pipeline_id}/updates/{update_id} GET

Obtient les détails d’une mise à jour de pipeline.

Exemple

Cet exemple obtient les détails de la mise à jour 9a84f906-fc51-11eb-9a03-0242ac130003 pour le pipeline avec l'ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003

Remplacez :

Cet exemple utilise un fichier .netrc.

response

{
  "update": {
    "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
    "config": {
      "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
      "name": "Wikipedia pipeline (SQL)",
      "storage": "/Users/username/data",
      "configuration": {
        "pipelines.numStreamRetryAttempts": "5"
      },
      "clusters": [
        {
          "label": "default",
          "autoscale": {
            "min_workers": 1,
            "max_workers": 5,
            "mode": "ENHANCED"
          }
        }
      ],
      "libraries": [
        {
          "notebook": {
            "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
          }
        }
      ],
      "target": "wikipedia_quickstart_data",
      "continuous": false,
      "development": false
    },
    "cause": "API_CALL",
    "state": "COMPLETED",
    "creation_time": 1628815050279,
    "full_refresh": true,
    "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
  }
}

Structure de réponse

Nom du champ Type Description
pipeline_id STRING Identificateur unique de l’application.
update_id STRING L'identifiant unique de cette mise à jour.
config PipelineSettings Paramètres du pipeline.
cause STRING Déclencheur de la mise à jour. Valeurs possibles API_CALL
RETRY_ON_FAILURE, SERVICE_UPGRADE.
state STRING L’état de l’appareil. Valeurs possibles : QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING,
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED,
FAILED, ou CANCELED.
cluster_id STRING Identificateur du cluster exécutant le pipeline.
creation_time INT64 Horodatage de la création de la mise à jour.
full_refresh BOOLEAN Indique s’il s’agissait d’une actualisation complète. Si la valeur est true, toutes les tables de pipeline étaient réinitialisées avant l’exécution de la mise à jour

Lister les pipelines

Point de terminaison Méthode HTTP
2.0/pipelines/ GET

Répertorie les pipelines définis dans le système de tables dynamiques Delta.

Exemple

Cet exemple récupère les détails des pipelines où le nom contient quickstart :

Requête

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27

Remplacez :

Cet exemple utilise un fichier .netrc.

response

{
  "statuses": [
    {
      "pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "DLT quickstart (Python)",
      "latest_updates": [
        {
          "update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
          "state": "COMPLETED",
          "creation_time": "2021-08-13T00:34:21.871Z"
        }
      ],
      "creator_user_name": "username"
    },
    {
      "pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "My DLT quickstart example",
      "creator_user_name": "username"
    }
  ],
  "next_page_token": "eyJ...==",
  "prev_page_token": "eyJ..x9"
}

Structure de la requête

Nom du champ Type Description
page_token STRING Jeton de page retourné par l’appel précédent.

Ce champ est facultatif.
max_results INT32 Nombre maximal d’entrées à retourner dans une seule page. Le système peut retourner moins de événements max_results dans une réponse, même s’il y a plus d’événements disponibles.

Ce champ est facultatif.

La valeur par défaut est 25.

La valeur maximale est 100. Une erreur est retournée si la valeur de
max_results est supérieur à 100.
order_by Tableau de STRING Liste de chaînes spécifiant l’ordre des résultats, par exemple,
["name asc"]. Les champs pris en charge order_by sont id et
name. Par défaut, il s’agit de id asc.

Ce champ est facultatif.
filter STRING Sélectionnez un sous-ensemble de résultats en fonction des critères spécifiés.

Les filtres pris en charge sont les suivants :

"notebook='<path>'" pour sélectionner des pipelines qui référencent le chemin d’accès du bloc-notes fourni.

name LIKE '[pattern]' pour sélectionner des pipelines dont le nom correspond pattern à. Les caractères génériques sont pris en charge, par exemple :
name LIKE '%shopping%'

Les filtres composites ne sont pas pris en charge.

Ce champ est facultatif.

Structure de réponse

Nom du champ Type Description
statuses Tableau de PipelineStateInfo Liste des événements correspondant aux critères de demande.
next_page_token STRING Le cas échéant, jeton pour extraire la page suivante d’événements.
prev_page_token STRING Le cas échéant, jeton pour extraire la page suivante d’événements.

Structures de données

Dans cette section :

ABFSSStorageInfo

Informations de stockage Azure Data Lake Storage (ADLS).

Nom du champ Type Description
destination STRING Destination du fichier. Exemple : abfss://...

ClusterLogConf

Chemin du journal de cluster.

Nom du champ Type Description
dbfs DbfsStorageInfo Emplacement DBFS du journal de cluster. La destination doit être fournie. Par exemple :
{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

DbfsStorageInfo

Informations de stockage DBFS.

Nom du champ Type Description
destination STRING Destination DBFS. Exemple : dbfs:/my/path

FileStorageInfo

Informations sur le stockage de fichier.

Notes

Ce type d’emplacement n’est disponible que pour les clusters configurés à l’aide de Databricks Container Services.

Nom du champ Type Description
destination STRING Destination du fichier. Exemple : file:/my/file.sh

InitScriptInfo

Chemin d’un script d’initialisation.

Pour obtenir des instructions sur l’utilisation de scripts d’initialisation avec Databricks Container Services, consultez Utiliser un script d’initialisation.

Notes

Le type de stockage de fichier (nom de champ : file) n’est disponible que pour les clusters configurés à l’aide de Databricks Container Services. Voir FileStorageInfo.

Nom du champ Type Description
workspace OU
dbfs (déconseillé)

OR
abfss
WorkspaceStorageInfo

DbfsStorageInfo (déconseillé)

ABFSSStorageInfo
Emplacement d’espace de travail du script d’initialisation. La destination doit être fournie. Par exemple,
{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }

(Déconseillé) Emplacement DBFS du script d’initialisation. La destination doit être fournie. Par exemple,
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }

Emplacement Azure Data Lake Storage (ADLS) du script d’initialisation. La destination doit être fournie. Par exemple : { "abfss": { "destination" : "abfss://..." } }

KeyValue

Paire clé-valeur qui spécifie les paramètres de configuration.

Nom du champ Type Description
key STRING Nom d’une propriété de configuration.
value STRING Valeur de la propriété de configuration.

NotebookLibrary

Spécification d’un notebook contenant du code de pipeline.

Nom du champ Type Description
path STRING Chemin d’accès absolu au bloc-notes.

Ce champ est obligatoire.

PipelinesAutoScale

Attributs définissant un cluster de mise à l’échelle automatique.

Nom du champ Type Description
min_workers INT32 Quantité minimale de Workers à laquelle le cluster peut être réduit (scale-down) lorsqu’il est sous-exploité. C’est également le nombre initial de Workers que le cluster aura après sa création.
max_workers INT32 Quantité maximale de Workers à laquelle le cluster peut être agrandi (scale-up) en cas de surcharge. max_workers doit être strictement supérieur à min_workers.
mode STRING Mode de mise à l’échelle automatique pour le cluster :

* ENHANCED pour utiliser la mise à l’échelle automatique améliorée.
* LEGACY pour utiliser la fonctionnalité de mise à l’échelle automatique du cluster.

PipelineLibrary

Spécification des dépendances de pipeline.

Nom du champ Type Description
notebook NotebookLibrary Chemin d’accès à un bloc-notes définissant les jeux de données de tables dynamiques Delta. Le chemin d’accès doit se trouver dans l’espace de travail Databricks, par exemple :
{ "notebook" : { "path" : "/my-pipeline-notebook-path" } }.

PipelinesNewCluster

Spécification de cluster de pipeline.

Le système de tables dynamiques Delta définit les attributs suivants. Ces attributs ne peuvent pas être configurés par les utilisateurs :

  • spark_version
Nom du champ Type Description
label STRING Une étiquette pour la spécification de cluster,
default pour configurer le cluster par défaut, ou
maintenance pour configurer le cluster de maintenance.

Ce champ est facultatif. La valeur par défaut est default.
spark_conf KeyValue Objet contenant un ensemble de paires clé-valeur de configuration Spark spécifiées par l’utilisateur et facultatives. Vous pouvez également transmettre une chaîne d’options JVM supplémentaires au pilote et aux exécuteurs, respectivement via
spark.driver.extraJavaOptions et spark.executor.extraJavaOptions.

Exemples de configurations Spark :
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} ou
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Ce champ code, via une seule valeur, les ressources disponibles pour chacun des nœuds Spark de ce cluster. Par exemple, les nœuds Spark peuvent être provisionnés et optimisés pour les charges de travail gourmandes en mémoire ou en calcul. Une liste des types de nœuds disponibles peut être récupérée à l'aide de l'appel d'API Clusters.
driver_node_type_id STRING Type de nœud du pilote Spark. Ce champ est facultatif. S’il n’est pas défini, le type de nœud du pilote est défini sur la même valeur que le node_type_id défini ci-dessus.
ssh_public_keys Tableau de STRING Contenu de la clé publique SSH qui sera ajouté à chaque nœud Spark dans ce cluster. Les clés privées correspondantes peuvent être utilisées pour se connecter avec le nom d’utilisateur ubuntu sur le port 2200. Vous pouvez spécifier jusqu’à 10 clés.
custom_tags KeyValue Objet contenant un ensemble d’étiquettes pour les ressources de cluster. Databricks marque toutes les ressources de cluster avec ces étiquettes en plus de default_tags.

Remarque :

* Les étiquettes ne sont pas prises en charge sur les types de nœuds hérités tels que les nœuds à calcul optimisé et à mémoire optimisée
* Azure Databricks autorise au maximum 45 étiquettes personnalisées.
cluster_log_conf ClusterLogConf Configuration pour la remise des journaux Spark à une destination de stockage à long terme. Une seule destination peut être spécifiée pour un cluster. Si cette configuration est fournie, les journaux sont remis à la destination toutes les
5 mins. La destination des journaux de pilote est <destination>/<cluster-ID>/driver, tandis que celle des journaux d’exécuteur est <destination>/<cluster-ID>/executor.
spark_env_vars KeyValue Objet contenant un ensemble de paires clé-valeur de variables d’environnement facultatives spécifiées par l’utilisateur. Les paires clé-valeur de la forme (X,Y) sont exportées telles quelles (autrement dit,
export X='Y') lors du lancement du pilote et des Workers.

Pour spécifier un ensemble supplémentaire de SPARK_DAEMON_JAVA_OPTS, Databricks recommande de les ajouter à $SPARK_DAEMON_JAVA_OPTS comme indiqué dans l’exemple suivant. Cela permet de s’assurer que toutes les variables d’environnement gérées par Azure Databricks par défaut sont également incluses.

Exemples de variables d’environnement Spark :
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} ou
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
init_scripts Tableau de InitScriptInfo Configuration pour le stockage des scripts d’initialisation. Vous pouvez spécifier n’importe quel nombre de destinations. Les scripts sont exécutés séquentiellement dans l’ordre indiqué. Si cluster_log_conf est spécifié, les journaux des scripts d’initialisation sont envoyés à
<destination>/<cluster-ID>/init_scripts.
instance_pool_id STRING ID facultatif du pool d’instances auquel le cluster appartient. Consultez Informations de référence sur la configuration de pool.
driver_instance_pool_id STRING ID facultatif du pool d’instances à utiliser pour les nœuds de pilote. Vous devez également indiquer
instance_pool_id. Voir API des pools d'instances.
policy_id STRING ID de stratégie de cluster.
num_workers OR autoscale INT32 OU InitScriptInfo Si num_workers, nombre de nœuds Worker que ce cluster doit avoir. Un cluster dispose d’un pilote Spark et de num_workers exécuteurs, pour un total de num_workers + 1 nœuds Spark.

Lors de la lecture des propriétés d’un cluster, ce champ reflète le nombre souhaité de Workers plutôt que le nombre réel de Workers. Par exemple, si un cluster est redimensionné de 5 à 10 Workers, ce champ est mis à jour pour refléter la taille cible de 10 Workers, tandis que les Workers listés dans les exécuteurs augmentent progressivement de 5 à 10 à mesure que les nouveaux nœuds sont provisionnés.

En cas de mise à l’échelle automatique, les paramètres nécessaires pour effectuer automatiquement un scale-up ou un scale-down des clusters en fonction de la charge.

Ce champ est facultatif.
apply_policy_default_values BOOLEAN Indique s’il faut utiliser les valeurs par défaut de la stratégie pour les attributs de cluster manquants.

PipelineSettings

Paramètres d’un déploiement de pipeline.

Nom du champ Type Description
id STRING L'identifiant unique de ce pipeline.

L’identificateur est créé par le système de tables dynamiques Delta et ne doit pas être fourni lors de la création d’un pipeline.
name STRING Un nom convivial pour ce pipeline.

Ce champ est facultatif.

Par défaut, le nom du pipeline doit être unique. Pour utiliser un nom en double, attribuez à allow_duplicate_names la valeur true dans la configuration du pipeline.
storage STRING Chemin d’accès à un répertoire DBFS pour le stockage des points de contrôle et des tables créés par le pipeline.

Ce champ est facultatif.

Le système utilise un emplacement par défaut si ce champ est vide.
configuration Une carte de STRING:STRING Une liste de paires clé-valeur à ajouter à la configuration Spark du cluster qui exécutera le pipeline.

Ce champ est facultatif.

Les éléments doivent être mis en forme en tant que paires clé-valeur.
clusters Tableau de PipelinesNewCluster Tableau de spécifications pour les clusters qui exécuteront le pipeline.

Ce champ est facultatif.

Si ce paramètre n’est pas spécifié, le système sélectionne une configuration de cluster par défaut pour le pipeline.
libraries Tableau de PipelineLibrary Les blocs-notes contenant le code de pipeline et toutes les dépendances requises pour exécuter le pipeline.
target STRING Un nom de base de données pour la persistance des données de sortie du pipeline.

Consultez Publier des données de Delta Live Tables vers le metastore Hive pour plus d’informations.
continuous BOOLEAN Indique s’il s’agit d’un pipeline continu.

Ce champ est facultatif.

La valeur par défaut est false.
development BOOLEAN Indique s’il faut exécuter le pipeline en mode de développement.

Ce champ est facultatif.

La valeur par défaut est false.
photon BOOLEAN Indique si l’accélération photon est activée pour ce pipeline.

Ce champ est facultatif.

La valeur par défaut est false.
channel STRING Le canal de publication Delta Live Tables spécifiant la version du runtime à utiliser pour ce pipeline. Les valeurs prises en charge sont les suivantes :

* preview pour tester le pipeline avec les modifications à venir apportées au runtime Delta Live Tables.
* current pour utiliser la version actuelle du runtime Delta Live Tables.

Ce champ est facultatif.

La valeur par défaut est current.
edition STRING Édition du produit Delta Live Tables sur laquelle exécuter le pipeline :

* CORE prend en charge les charges de travail d’ingestion de streaming.
* PRO prend également en charge la diffusion en continu des charges de travail d’ingestion et ajoute la prise en charge du traitement de capture de données modifiées (CDC).
* ADVANCED prend en charge toutes les fonctionnalités de l’édition PRO et ajoute la prise en charge des charges de travail qui nécessitent des attentes de tables dynamiques Delta pour appliquer des contraintes de qualité des données.

Ce champ est facultatif.

La valeur par défaut est advanced.

PipelineStateInfo

État d’un pipeline, état des mises à jour les plus récentes et informations sur les ressources associées.

Nom du champ Type Description
state STRING État du pipeline Un de IDLE ou RUNNING.
pipeline_id STRING Identificateur unique de l’application.
cluster_id STRING L'identifiant unique du cluster qui exécute le pipeline.
name STRING Le nom convivial du pipeline.
latest_updates Tableau de UpdateStateInfo État des mises à jour les plus récentes pour le pipeline, classées avec la mise à jour la plus récente en premier.
creator_user_name STRING Nom d’utilisateur du créateur de pipeline.
run_as_user_name STRING Nom d’utilisateur sous lequel le pipeline s’exécute. Il s’agit d’une valeur en lecture seule dérivée du propriétaire du pipeline.

UpdateStateInfo

État actuel de la mise à jour d’un pipeline.

Nom du champ Type Description
update_id STRING Identificateur unique de cette mise à jour.
state STRING L’état de l’appareil. Valeurs possibles : QUEUED, CREATED,
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING,
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED,
FAILED, ou CANCELED.
creation_time STRING Horodatage de la création de la mise à jour.

WorkspaceStorageInfo

Informations de stockage de l’espace de travail.

Nom du champ Type Description
destination STRING Destination du fichier. Exemple : /Users/someone@domain.com/init_script.sh