Guide de l’API Delta Live Tables

Article
05/03/2024

Important

Le contenu de cet article a été retiré et pourrait ne pas être mis à jour. Consultez Delta Live Tables dans la référence de l’API REST Databricks.

L’API tables dynamiques Delta vous permet de créer, de modifier, de supprimer, de démarrer et d’afficher des détails sur les pipelines.

Important

Pour accéder aux API REST Databricks, vous devez vous authentifier.

Créer un pipeline

Point de terminaison	Méthode HTTP
`2.0/pipelines`	`POST`

Crée un pipeline de tables dynamiques Delta.

Exemple

Cet exemple crée un pipeline déclenché.

Requête

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json

pipeline-settings.json:

{
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "continuous": false
}

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}

Structure de la requête

Consultez PipelineSettings.

Structure de réponse

Nom du champ	Type	Description
pipeline_id	`STRING`	Identificateur unique du pipeline nouvellement créé.

Modifier un pipeline

Point de terminaison	Méthode HTTP
`2.0/pipelines/{pipeline_id}`	`PUT`

Met à jour les paramètres d’un pipeline existant.

Exemple

Cet exemple ajoute un target paramètre au pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json

pipeline-settings.json

{
  "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "target": "wikipedia_quickstart_data",
  "continuous": false
}

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

Structure de la requête

Consultez PipelineSettings.

Supprimer un pipeline

Point de terminaison	Méthode HTTP
`2.0/pipelines/{pipeline_id}`	`DELETE`

Supprime un pipeline du système de tables dynamiques Delta.

Exemple

Cet exemple supprime le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

Démarrer une mise à jour de pipeline

Point de terminaison	Méthode HTTP
`2.0/pipelines/{pipeline_id}/updates`	`POST`

Démarre une mise à jour pour un pipeline. Vous pouvez démarrer une mise à jour pour l’ensemble du graphique de pipeline ou une mise à jour sélective de tables spécifiques.

Exemples

Démarrer une actualisation complète

Cet exemple démarre une mise à jour avec une actualisation complète pour le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

response

{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Démarrer une mise à jour des tables sélectionnées

Cet exemple démarre une mise à jour qui actualise les tables sales_orders_cleaned et sales_order_in_chicago dans le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

response

{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Démarrer une mise à jour complète des tables sélectionnées

Cet exemple démarre une mise à jour des tables sales_orders_cleaned et sales_order_in_chicago, et une mise à jour avec actualisation complète des tables customers et sales_orders_raw dans le pipeline avec l’IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Requête

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

response

{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Structure de la requête

Nom du champ	Type	Description
`full_refresh`	`BOOLEAN`	Indique si toutes les données doivent être retraitées. Si la condition est `true`, le système de tables dynamiques Delta réinitialise toutes les tables avant d’exécuter le pipeline. Ce champ est facultatif. La valeur par défaut est `false`. Une erreur est retournée si `full_refesh` est true et `refresh_selection` ou `full_refresh_selection` est définie.
`refresh_selection`	Tableau de `STRING`	Une liste des tables à mettre à jour. Utilisation `refresh_selection` pour démarrer une actualisation d’un ensemble de tables sélectionné dans le graphique de pipeline. Ce champ est facultatif. Si `refresh_selection` et `full_refresh_selection` sont vides, l’ensemble du graphique de pipeline est actualisé. Une erreur est retournée si : * `full_refesh` est vrai et `refresh_selection` est défini. * Une ou plusieurs des tables spécifiées n’existent pas dans le graphique de pipeline.
`full_refresh_selection`	Tableau de `STRING`	Liste des tables à mettre à jour avec actualisation complète. Utilisez `full_refresh_selection` pour démarrer une mise à jour d’un ensemble de tables sélectionné. Les états des tables spécifiées sont réinitialisés avant que le système Delta Live Tables démarre la mise à jour. Ce champ est facultatif. Si `refresh_selection` et `full_refresh_selection` sont vides, l’ensemble du graphique de pipeline est actualisé. Une erreur est retournée si : * `full_refesh` est vrai et `refresh_selection` est défini. * Une ou plusieurs des tables spécifiées n’existent pas dans le graphique de pipeline. * Une ou plusieurs des tables spécifiées ne sont pas réinitialisées.

Structure de réponse

Nom du champ	Type	Description
`update_id`	`STRING`	L'identifiant unique de la mise à jour nouvellement créée.
`request_id`	`STRING`	L’identificateur unique de la requête ayant commencé la mise à jour.

Récupérez l’état de la requête de mise à jour d’un pipeline.

Point de terminaison	Méthode HTTP
`2.0/pipelines/{pipeline_id}/requests/{request_id}`	`GET`

Obtient l’état et les informations de la mise à jour du pipeline associé avecrequest_id, où request_id est un identificateur unique pour la demande qui a lancé la mise à jour du pipeline. Si la mise à jour est retentée ou redémarrée, la nouvelle mise à jour hérite de la request_id (identifiant de requête)

Exemple

Pour le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5, cet exemple retourne l’état et les informations de la mise à jour associée à l’ID de requêtea83d9f7c-d798-4fd5-aa39-301b6e6f4429 :

Requête

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

response

{
   "status": "TERMINATED",
   "latest_update":{
     "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
     "update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
     "config":{
       "id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
       "name": "Retail sales (SQL)",
       "storage": "/Users/username/data",
       "configuration":{
         "pipelines.numStreamRetryAttempts": "5"
       },
       "clusters":[
         {
           "label": "default",
           "autoscale":{
             "min_workers": 1,
             "max_workers": 5,
             "mode": "ENHANCED"
           }
         }
       ],
       "libraries":[
         {
           "notebook":{
             "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
           }
         }
       ],
       "continuous": false,
       "development": true,
       "photon": true,
       "edition": "advanced",
       "channel": "CURRENT"
     },
     "cause": "API_CALL",
     "state": "COMPLETED",
     "cluster_id": "1234-567891-abcde123",
     "creation_time": 1664304117145,
     "full_refresh": false,
     "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
   }
}

Structure de réponse

Nom du champ	Type	Description
`status`	`STRING`	L’état de la requête de mise à jour du pipeline. Valeurs possibles : * `ACTIVE` : une mise à jour pour cette requête est en cours d’exécution ou peut être retentée par une nouvelle mise à jour. * `TERMINATED`: la requête est terminée et ne sera pas retentée ou redémarrée.
`pipeline_id`	`STRING`	Identificateur unique de l’application.
`update_id`	`STRING`	L’identifiant unique de la mise à jour.
`config`	PipelineSettings	Paramètres du pipeline.
`cause`	`STRING`	Déclencheur de la mise à jour. Valeurs possibles `API_CALL` `RETRY_ON_FAILURE`, `SERVICE_UPGRADE`, `SCHEMA_CHANGE`, `JOB_TASK`, ou `USER_ACTION`.
`state`	`STRING`	L’état de l’appareil. Valeurs possibles : `QUEUED`, `CREATED` `WAITING_FOR_RESOURCES`, `INITIALIZING`, `RESETTING`, `SETTING_UP_TABLES`, `RUNNING`, `STOPPING`, `COMPLETED`, `FAILED`, ou `CANCELED`.
`cluster_id`	`STRING`	Identificateur du cluster exécutant la mise à jour.
`creation_time`	`INT64`	Horodatage de la création de la mise à jour.
`full_refresh`	`BOOLEAN`	Indique si cette mise à jour réinitialise tous les tableaux avant exécution
`refresh_selection`	Tableau de `STRING`	Liste des tableaux à mettre à jour sans actualisation complète.
`full_refresh_selection`	Tableau de `STRING`	Liste des tables à mettre à jour avec actualisation complète.
`request_id`	`STRING`	L’identificateur unique de la requête ayant commencé la mise à jour. Il s’agit de la valeur retournée par la requêtede mise à jour. Si la mise à jour est retentée ou redémarrée, la nouvelle mise à jour hérite de la request_id (identifiant de requête) Toutefois, le `update_id` sera différent.

Arrêter toute mise à jour du pipeline actif

Point de terminaison	Méthode HTTP
`2.0/pipelines/{pipeline_id}/stop`	`POST`

Arrête toute mise à jour active du pipeline. Si aucune mise à jour n’est en cours d’exécution, cette demande est une absence d’opération.

Pour un pipeline continu, l’exécution du pipeline est suspendue. Les tables qui traitent actuellement l’actualisation de fin, mais les tables en aval ne sont pas actualisées. Dans la prochaine mise à jour du pipeline, Delta Live Tables effectue une actualisation sélectionnée des tables qui n’ont pas terminé le traitement et reprend le traitement du DAG de pipeline restant.

Pour un pipeline déclenché, l’exécution du pipeline est arrêtée. Les tables qui traitent actuellement l’actualisation de fin, mais les tables en aval ne sont pas actualisées. Dans la mise à jour de pipeline suivante, les tables Delta Live actualisent toutes les tables.

Exemple

Cet exemple arrête une mise à jour du pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

Répertorier les événements de pipeline

Point de terminaison	Méthode HTTP
`2.0/pipelines/{pipeline_id}/events`	`GET`

Récupère les événements pour un pipeline.

Exemple

Cet exemple récupère un maximum de 5 événements pour le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Requête

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

Structure de la requête

Nom du champ	Type	Description
`page_token`	`STRING`	Jeton de page retourné par l’appel précédent. Ce champ s’exclut mutuellement avec tous les champs de cette demande, à l’exception de max_results. Une erreur est retournée si des champs autres que max_results sont définis lorsque ce champ est défini. Ce champ est facultatif.
`max_results`	`INT32`	Nombre maximal d’entrées à retourner dans une seule page. Le système peut retourner moins de événements `max_results` dans une réponse, même s’il y a plus d’événements disponibles. Ce champ est facultatif. La valeur par défaut est 25. La valeur maximale est 100. Une erreur est retournée si la valeur de `max_results` est supérieur à 100.
`order_by`	`STRING`	Chaîne indiquant un ordre de tri par horodateur pour les résultats, par exemple, `["timestamp asc"]`. L’ordre de tri peut être croissant ou décroissant. Par défaut, les événements sont retournés dans l’ordre décroissant par horodateur. Ce champ est facultatif.
`filter`	`STRING`	Critères permettant de sélectionner un sous-ensemble de résultats, exprimés à l'aide d'une syntaxe de type SQL. Les filtres pris en charge sont les suivants : * `level='INFO'` (ou `WARN` ou `ERROR`) * `level in ('INFO', 'WARN')` * `id='[event-id]'` * `timestamp > 'TIMESTAMP'` (ou `>=`,`<`,`<=`,`=`) Les expressions composites sont prises en charge, par exemple : `level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z'` Ce champ est facultatif.

Structure de réponse

Nom du champ	Type	Description
`events`	Tableau d’événements de pipeline.	Liste des événements correspondant aux critères de demande.
`next_page_token`	`STRING`	Le cas échéant, jeton pour extraire la page suivante d’événements.
`prev_page_token`	`STRING`	Le cas échéant, jeton pour extraire la page suivante d’événements.

Détails du pipeline

Point de terminaison	Méthode HTTP
`2.0/pipelines/{pipeline_id}`	`GET`

Obtient des détails sur un pipeline, y compris les paramètres de pipeline et les mises à jour récentes.

Exemple

Cet exemple obtient les détails du pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "spec": {
    "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "name": "Wikipedia pipeline (SQL)",
    "storage": "/Users/username/data",
    "clusters": [
      {
        "label": "default",
        "autoscale": {
          "min_workers": 1,
          "max_workers": 5,
          "mode": "ENHANCED"
        }
      }
    ],
    "libraries": [
      {
        "notebook": {
          "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
        }
      }
    ],
    "target": "wikipedia_quickstart_data",
    "continuous": false
  },
  "state": "IDLE",
  "cluster_id": "1234-567891-abcde123",
  "name": "Wikipedia pipeline (SQL)",
  "creator_user_name": "username",
  "latest_updates": [
    {
      "update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
      "state": "COMPLETED",
      "creation_time": "2021-08-13T00:37:30.279Z"
    },
    {
      "update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
      "state": "CANCELED",
      "creation_time": "2021-08-13T00:35:51.902Z"
    },
    {
      "update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
      "state": "FAILED",
      "creation_time": "2021-08-13T00:33:38.565Z"
    }
  ],
  "run_as_user_name": "username"
}

Structure de réponse

Nom du champ	Type	Description
`pipeline_id`	`STRING`	Identificateur unique de l’application.
`spec`	PipelineSettings	Paramètres du pipeline.
`state`	`STRING`	État du pipeline Un de `IDLE` ou `RUNNING`. Si State = `RUNNING`, il y a au moins une mise à jour active.
`cluster_id`	`STRING`	Identificateur du cluster exécutant le pipeline.
`name`	`STRING`	Le nom convivial de ce pipeline.
`creator_user_name`	`STRING`	Nom d’utilisateur du créateur de pipeline.
`latest_updates`	Tableau de UpdateStateInfo	État des mises à jour les plus récentes pour le pipeline, classées avec la mise à jour la plus récente en premier.
`run_as_user_name`	`STRING`	Nom d’utilisateur sous lequel le pipeline s’exécute.

Obtenir les détails de la mise à jour

Point de terminaison	Méthode HTTP
`2.0/pipelines/{pipeline_id}/updates/{update_id}`	`GET`

Obtient les détails d’une mise à jour de pipeline.

Exemple

Cet exemple obtient les détails de la mise à jour 9a84f906-fc51-11eb-9a03-0242ac130003 pour le pipeline avec l'ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 :

Requête

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

response

{
  "update": {
    "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
    "config": {
      "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
      "name": "Wikipedia pipeline (SQL)",
      "storage": "/Users/username/data",
      "configuration": {
        "pipelines.numStreamRetryAttempts": "5"
      },
      "clusters": [
        {
          "label": "default",
          "autoscale": {
            "min_workers": 1,
            "max_workers": 5,
            "mode": "ENHANCED"
          }
        }
      ],
      "libraries": [
        {
          "notebook": {
            "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
          }
        }
      ],
      "target": "wikipedia_quickstart_data",
      "continuous": false,
      "development": false
    },
    "cause": "API_CALL",
    "state": "COMPLETED",
    "creation_time": 1628815050279,
    "full_refresh": true,
    "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
  }
}

Structure de réponse

Nom du champ	Type	Description
`pipeline_id`	`STRING`	Identificateur unique de l’application.
`update_id`	`STRING`	L'identifiant unique de cette mise à jour.
`config`	PipelineSettings	Paramètres du pipeline.
`cause`	`STRING`	Déclencheur de la mise à jour. Valeurs possibles `API_CALL` `RETRY_ON_FAILURE`, `SERVICE_UPGRADE`.
`state`	`STRING`	L’état de l’appareil. Valeurs possibles : `QUEUED`, `CREATED` `WAITING_FOR_RESOURCES`, `INITIALIZING`, `RESETTING`, `SETTING_UP_TABLES`, `RUNNING`, `STOPPING`, `COMPLETED`, `FAILED`, ou `CANCELED`.
`cluster_id`	`STRING`	Identificateur du cluster exécutant le pipeline.
`creation_time`	`INT64`	Horodatage de la création de la mise à jour.
`full_refresh`	`BOOLEAN`	Indique s’il s’agissait d’une actualisation complète. Si la valeur est true, toutes les tables de pipeline étaient réinitialisées avant l’exécution de la mise à jour

Lister les pipelines

Point de terminaison	Méthode HTTP
`2.0/pipelines/`	`GET`

Répertorie les pipelines définis dans le système de tables dynamiques Delta.

Exemple

Cet exemple récupère les détails des pipelines où le nom contient quickstart :

Requête

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27

Remplacez :

<databricks-instance> avec le nom de l'instance de l'espace de travail Azure Databricks, par exemple adb-1234567890123456.7.azuredatabricks.net.

Cet exemple utilise un fichier .netrc.

response

{
  "statuses": [
    {
      "pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "DLT quickstart (Python)",
      "latest_updates": [
        {
          "update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
          "state": "COMPLETED",
          "creation_time": "2021-08-13T00:34:21.871Z"
        }
      ],
      "creator_user_name": "username"
    },
    {
      "pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "My DLT quickstart example",
      "creator_user_name": "username"
    }
  ],
  "next_page_token": "eyJ...==",
  "prev_page_token": "eyJ..x9"
}

Structure de la requête

Nom du champ	Type	Description
`page_token`	`STRING`	Jeton de page retourné par l’appel précédent. Ce champ est facultatif.
`max_results`	`INT32`	Nombre maximal d’entrées à retourner dans une seule page. Le système peut retourner moins de événements `max_results` dans une réponse, même s’il y a plus d’événements disponibles. Ce champ est facultatif. La valeur par défaut est 25. La valeur maximale est 100. Une erreur est retournée si la valeur de `max_results` est supérieur à 100.
`order_by`	Tableau de `STRING`	Liste de chaînes spécifiant l’ordre des résultats, par exemple, `["name asc"]`. Les champs pris en charge `order_by` sont `id` et `name`. Par défaut, il s’agit de `id asc`. Ce champ est facultatif.
`filter`	`STRING`	Sélectionnez un sous-ensemble de résultats en fonction des critères spécifiés. Les filtres pris en charge sont les suivants : `"notebook='<path>'"` pour sélectionner des pipelines qui référencent le chemin d’accès du bloc-notes fourni. `name LIKE '[pattern]'` pour sélectionner des pipelines dont le nom correspond `pattern` à. Les caractères génériques sont pris en charge, par exemple : `name LIKE '%shopping%'` Les filtres composites ne sont pas pris en charge. Ce champ est facultatif.

Structure de réponse

Nom du champ	Type	Description
`statuses`	Tableau de PipelineStateInfo	Liste des événements correspondant aux critères de demande.
`next_page_token`	`STRING`	Le cas échéant, jeton pour extraire la page suivante d’événements.
`prev_page_token`	`STRING`	Le cas échéant, jeton pour extraire la page suivante d’événements.

Structures de données

ABFSSStorageInfo

Informations de stockage Azure Data Lake Storage (ADLS).

Nom du champ	Type	Description
`destination`	`STRING`	Destination du fichier. Exemple : `abfss://...`

ClusterLogConf

Chemin du journal de cluster.

Nom du champ	Type	Description
`dbfs`	DbfsStorageInfo	Emplacement DBFS du journal de cluster. La destination doit être fournie. Par exemple : `{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }`

DbfsStorageInfo

Informations de stockage DBFS.

Nom du champ	Type	Description
`destination`	`STRING`	Destination DBFS. Exemple : `dbfs:/my/path`

FileStorageInfo

Informations sur le stockage de fichier.

Notes

Ce type d’emplacement n’est disponible que pour les clusters configurés à l’aide de Databricks Container Services.

Nom du champ	Type	Description
`destination`	`STRING`	Destination du fichier. Exemple : `file:/my/file.sh`

InitScriptInfo

Chemin d’un script d’initialisation.

Pour obtenir des instructions sur l’utilisation de scripts d’initialisation avec Databricks Container Services, consultez Utiliser un script d’initialisation.

Notes

Le type de stockage de fichier (nom de champ : file) n’est disponible que pour les clusters configurés à l’aide de Databricks Container Services. Voir FileStorageInfo.

Nom du champ	Type	Description
`workspace` OU `dbfs` (déconseillé) OR `abfss`	WorkspaceStorageInfo DbfsStorageInfo (déconseillé) ABFSSStorageInfo	Emplacement d’espace de travail du script d’initialisation. La destination doit être fournie. Par exemple, `{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }` (Déconseillé) Emplacement DBFS du script d’initialisation. La destination doit être fournie. Par exemple, `{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }` Emplacement Azure Data Lake Storage (ADLS) du script d’initialisation. La destination doit être fournie. Par exemple : `{ "abfss": { "destination" : "abfss://..." } }`

KeyValue

Paire clé-valeur qui spécifie les paramètres de configuration.

Nom du champ	Type	Description
`key`	`STRING`	Nom d’une propriété de configuration.
`value`	`STRING`	Valeur de la propriété de configuration.

NotebookLibrary

Spécification d’un notebook contenant du code de pipeline.

Nom du champ	Type	Description
`path`	`STRING`	Chemin d’accès absolu au bloc-notes. Ce champ est obligatoire.

PipelinesAutoScale

Attributs définissant un cluster de mise à l’échelle automatique.

Nom du champ	Type	Description
`min_workers`	`INT32`	Quantité minimale de Workers à laquelle le cluster peut être réduit (scale-down) lorsqu’il est sous-exploité. C’est également le nombre initial de Workers que le cluster aura après sa création.
`max_workers`	`INT32`	Quantité maximale de Workers à laquelle le cluster peut être agrandi (scale-up) en cas de surcharge. max_workers doit être strictement supérieur à min_workers.
`mode`	`STRING`	Mode de mise à l’échelle automatique pour le cluster : * `ENHANCED` pour utiliser la mise à l’échelle automatique améliorée. * `LEGACY` pour utiliser la fonctionnalité de mise à l’échelle automatique du cluster.

PipelineLibrary

Spécification des dépendances de pipeline.

Nom du champ	Type	Description
`notebook`	NotebookLibrary	Chemin d’accès à un bloc-notes définissant les jeux de données de tables dynamiques Delta. Le chemin d’accès doit se trouver dans l’espace de travail Databricks, par exemple : `{ "notebook" : { "path" : "/my-pipeline-notebook-path" } }`.

PipelinesNewCluster

Spécification de cluster de pipeline.

Le système de tables dynamiques Delta définit les attributs suivants. Ces attributs ne peuvent pas être configurés par les utilisateurs :

spark_version

Nom du champ	Type	Description
`label`	`STRING`	Une étiquette pour la spécification de cluster, `default` pour configurer le cluster par défaut, ou `maintenance` pour configurer le cluster de maintenance. Ce champ est facultatif. La valeur par défaut est `default`.
`spark_conf`	KeyValue	Objet contenant un ensemble de paires clé-valeur de configuration Spark spécifiées par l’utilisateur et facultatives. Vous pouvez également transmettre une chaîne d’options JVM supplémentaires au pilote et aux exécuteurs, respectivement via `spark.driver.extraJavaOptions` et `spark.executor.extraJavaOptions`. Exemples de configurations Spark : `{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5}` ou `{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}`
`node_type_id`	`STRING`	Ce champ code, via une seule valeur, les ressources disponibles pour chacun des nœuds Spark de ce cluster. Par exemple, les nœuds Spark peuvent être provisionnés et optimisés pour les charges de travail gourmandes en mémoire ou en calcul. Une liste des types de nœuds disponibles peut être récupérée à l'aide de l'appel d'API Clusters.
`driver_node_type_id`	`STRING`	Type de nœud du pilote Spark. Ce champ est facultatif. S’il n’est pas défini, le type de nœud du pilote est défini sur la même valeur que le `node_type_id` défini ci-dessus.
`ssh_public_keys`	Tableau de `STRING`	Contenu de la clé publique SSH qui sera ajouté à chaque nœud Spark dans ce cluster. Les clés privées correspondantes peuvent être utilisées pour se connecter avec le nom d’utilisateur `ubuntu` sur le port `2200`. Vous pouvez spécifier jusqu’à 10 clés.
`custom_tags`	KeyValue	Objet contenant un ensemble d’étiquettes pour les ressources de cluster. Databricks marque toutes les ressources de cluster avec ces étiquettes en plus de default_tags. Remarque : * Les étiquettes ne sont pas prises en charge sur les types de nœuds hérités tels que les nœuds à calcul optimisé et à mémoire optimisée * Azure Databricks autorise au maximum 45 étiquettes personnalisées.
`cluster_log_conf`	ClusterLogConf	Configuration pour la remise des journaux Spark à une destination de stockage à long terme. Une seule destination peut être spécifiée pour un cluster. Si cette configuration est fournie, les journaux sont remis à la destination toutes les `5 mins`. La destination des journaux de pilote est `<destination>/<cluster-ID>/driver`, tandis que celle des journaux d’exécuteur est `<destination>/<cluster-ID>/executor`.
`spark_env_vars`	KeyValue	Objet contenant un ensemble de paires clé-valeur de variables d’environnement facultatives spécifiées par l’utilisateur. Les paires clé-valeur de la forme (X,Y) sont exportées telles quelles (autrement dit, `export X='Y'`) lors du lancement du pilote et des Workers. Pour spécifier un ensemble supplémentaire de `SPARK_DAEMON_JAVA_OPTS`, Databricks recommande de les ajouter à `$SPARK_DAEMON_JAVA_OPTS` comme indiqué dans l’exemple suivant. Cela permet de s’assurer que toutes les variables d’environnement gérées par Azure Databricks par défaut sont également incluses. Exemples de variables d’environnement Spark : `{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"}` ou `{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}`
`init_scripts`	Tableau de InitScriptInfo	Configuration pour le stockage des scripts d’initialisation. Vous pouvez spécifier n’importe quel nombre de destinations. Les scripts sont exécutés séquentiellement dans l’ordre indiqué. Si `cluster_log_conf` est spécifié, les journaux des scripts d’initialisation sont envoyés à `<destination>/<cluster-ID>/init_scripts`.
`instance_pool_id`	`STRING`	ID facultatif du pool d’instances auquel le cluster appartient. Consultez Informations de référence sur la configuration de pool.
`driver_instance_pool_id`	`STRING`	ID facultatif du pool d’instances à utiliser pour les nœuds de pilote. Vous devez également indiquer `instance_pool_id`. Voir API des pools d'instances.
`policy_id`	`STRING`	ID de stratégie de cluster.
`num_workers OR autoscale`	`INT32` OU InitScriptInfo	Si num_workers, nombre de nœuds Worker que ce cluster doit avoir. Un cluster dispose d’un pilote Spark et de num_workers exécuteurs, pour un total de num_workers + 1 nœuds Spark. Lors de la lecture des propriétés d’un cluster, ce champ reflète le nombre souhaité de Workers plutôt que le nombre réel de Workers. Par exemple, si un cluster est redimensionné de 5 à 10 Workers, ce champ est mis à jour pour refléter la taille cible de 10 Workers, tandis que les Workers listés dans les exécuteurs augmentent progressivement de 5 à 10 à mesure que les nouveaux nœuds sont provisionnés. En cas de mise à l’échelle automatique, les paramètres nécessaires pour effectuer automatiquement un scale-up ou un scale-down des clusters en fonction de la charge. Ce champ est facultatif.
`apply_policy_default_values`	`BOOLEAN`	Indique s’il faut utiliser les valeurs par défaut de la stratégie pour les attributs de cluster manquants.

PipelineSettings

Paramètres d’un déploiement de pipeline.

Nom du champ	Type	Description
`id`	`STRING`	L'identifiant unique de ce pipeline. L’identificateur est créé par le système de tables dynamiques Delta et ne doit pas être fourni lors de la création d’un pipeline.
`name`	`STRING`	Un nom convivial pour ce pipeline. Ce champ est facultatif. Par défaut, le nom du pipeline doit être unique. Pour utiliser un nom en double, attribuez à `allow_duplicate_names` la valeur `true` dans la configuration du pipeline.
`storage`	`STRING`	Chemin d’accès à un répertoire DBFS pour le stockage des points de contrôle et des tables créés par le pipeline. Ce champ est facultatif. Le système utilise un emplacement par défaut si ce champ est vide.
`configuration`	Une carte de `STRING:STRING`	Une liste de paires clé-valeur à ajouter à la configuration Spark du cluster qui exécutera le pipeline. Ce champ est facultatif. Les éléments doivent être mis en forme en tant que paires clé-valeur.
`clusters`	Tableau de PipelinesNewCluster	Tableau de spécifications pour les clusters qui exécuteront le pipeline. Ce champ est facultatif. Si ce paramètre n’est pas spécifié, le système sélectionne une configuration de cluster par défaut pour le pipeline.
`libraries`	Tableau de PipelineLibrary	Les blocs-notes contenant le code de pipeline et toutes les dépendances requises pour exécuter le pipeline.
`target`	`STRING`	Un nom de base de données pour la persistance des données de sortie du pipeline. Consultez Publier des données de Delta Live Tables vers le metastore Hive pour plus d’informations.
`continuous`	`BOOLEAN`	Indique s’il s’agit d’un pipeline continu. Ce champ est facultatif. La valeur par défaut est `false`.
`development`	`BOOLEAN`	Indique s’il faut exécuter le pipeline en mode de développement. Ce champ est facultatif. La valeur par défaut est `false`.
`photon`	`BOOLEAN`	Indique si l’accélération photon est activée pour ce pipeline. Ce champ est facultatif. La valeur par défaut est `false`.
`channel`	`STRING`	Le canal de publication Delta Live Tables spécifiant la version du runtime à utiliser pour ce pipeline. Les valeurs prises en charge sont les suivantes : * `preview` pour tester le pipeline avec les modifications à venir apportées au runtime Delta Live Tables. * `current` pour utiliser la version actuelle du runtime Delta Live Tables. Ce champ est facultatif. La valeur par défaut est `current`.
`edition`	`STRING`	Édition du produit Delta Live Tables sur laquelle exécuter le pipeline : * `CORE` prend en charge les charges de travail d’ingestion de streaming. * `PRO` prend également en charge la diffusion en continu des charges de travail d’ingestion et ajoute la prise en charge du traitement de capture de données modifiées (CDC). * `ADVANCED` prend en charge toutes les fonctionnalités de l’édition `PRO` et ajoute la prise en charge des charges de travail qui nécessitent des attentes de tables dynamiques Delta pour appliquer des contraintes de qualité des données. Ce champ est facultatif. La valeur par défaut est `advanced`.

PipelineStateInfo

État d’un pipeline, état des mises à jour les plus récentes et informations sur les ressources associées.

Nom du champ	Type	Description
`state`	`STRING`	État du pipeline Un de `IDLE` ou `RUNNING`.
`pipeline_id`	`STRING`	Identificateur unique de l’application.
`cluster_id`	`STRING`	L'identifiant unique du cluster qui exécute le pipeline.
`name`	`STRING`	Le nom convivial du pipeline.
`latest_updates`	Tableau de UpdateStateInfo	État des mises à jour les plus récentes pour le pipeline, classées avec la mise à jour la plus récente en premier.
`creator_user_name`	`STRING`	Nom d’utilisateur du créateur de pipeline.
`run_as_user_name`	`STRING`	Nom d’utilisateur sous lequel le pipeline s’exécute. Il s’agit d’une valeur en lecture seule dérivée du propriétaire du pipeline.

UpdateStateInfo

État actuel de la mise à jour d’un pipeline.

Nom du champ	Type	Description
`update_id`	`STRING`	Identificateur unique de cette mise à jour.
`state`	`STRING`	L’état de l’appareil. Valeurs possibles : `QUEUED`, `CREATED`, `WAITING_FOR_RESOURCES`, `INITIALIZING`, `RESETTING`, `SETTING_UP_TABLES`, `RUNNING`, `STOPPING`, `COMPLETED`, `FAILED`, ou `CANCELED`.
`creation_time`	`STRING`	Horodatage de la création de la mise à jour.

WorkspaceStorageInfo

Informations de stockage de l’espace de travail.

Nom du champ	Type	Description
`destination`	`STRING`	Destination du fichier. Exemple : `/Users/someone@domain.com/init_script.sh`

Guide de l’API Delta Live Tables

Créer un pipeline

Exemple

Requête

response

Structure de la requête

Structure de réponse

Modifier un pipeline

Exemple

Requête

Structure de la requête

Supprimer un pipeline

Exemple

Requête

Démarrer une mise à jour de pipeline

Exemples

Démarrer une actualisation complète

Requête

response

Démarrer une mise à jour des tables sélectionnées

Requête

response

Démarrer une mise à jour complète des tables sélectionnées

Requête

response

Structure de la requête

Structure de réponse

Récupérez l’état de la requête de mise à jour d’un pipeline.

Exemple

Requête

response

Structure de réponse

Arrêter toute mise à jour du pipeline actif

Exemple

Requête

Répertorier les événements de pipeline

Exemple

Requête

Structure de la requête

Structure de réponse

Détails du pipeline

Exemple

Requête

response

Structure de réponse

Obtenir les détails de la mise à jour

Exemple

Requête

response

Structure de réponse

Lister les pipelines

Exemple

Requête

response

Structure de la requête

Structure de réponse

Structures de données

Dans cette section :

ABFSSStorageInfo

ClusterLogConf

DbfsStorageInfo

FileStorageInfo

InitScriptInfo

KeyValue

NotebookLibrary

PipelinesAutoScale

PipelineLibrary

PipelinesNewCluster

PipelineSettings

PipelineStateInfo

UpdateStateInfo

WorkspaceStorageInfo

Commentaires

Commentaires

Ressources supplémentaires