Guide de l’API Delta Live Tables
Important
Le contenu de cet article a été retiré et pourrait ne pas être mis à jour. Consultez Delta Live Tables dans la référence de l’API REST Databricks.
L’API tables dynamiques Delta vous permet de créer, de modifier, de supprimer, de démarrer et d’afficher des détails sur les pipelines.
Important
Pour accéder aux API REST Databricks, vous devez vous authentifier.
Créer un pipeline
Point de terminaison | Méthode HTTP |
---|---|
2.0/pipelines |
POST |
Crée un pipeline de tables dynamiques Delta.
Exemple
Cet exemple crée un pipeline déclenché.
Requête
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json
pipeline-settings.json
:
{
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false
}
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
response
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}
Structure de la requête
Consultez PipelineSettings.
Structure de réponse
Nom du champ | Type | Description |
---|---|---|
pipeline_id | STRING |
Identificateur unique du pipeline nouvellement créé. |
Modifier un pipeline
Point de terminaison | Méthode HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
PUT |
Met à jour les paramètres d’un pipeline existant.
Exemple
Cet exemple ajoute un target
paramètre au pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Requête
curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json
pipeline-settings.json
{
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
}
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
Structure de la requête
Consultez PipelineSettings.
Supprimer un pipeline
Point de terminaison | Méthode HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
DELETE |
Supprime un pipeline du système de tables dynamiques Delta.
Exemple
Cet exemple supprime le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Requête
curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
Démarrer une mise à jour de pipeline
Point de terminaison | Méthode HTTP |
---|---|
2.0/pipelines/{pipeline_id}/updates |
POST |
Démarre une mise à jour pour un pipeline. Vous pouvez démarrer une mise à jour pour l’ensemble du graphique de pipeline ou une mise à jour sélective de tables spécifiques.
Exemples
Démarrer une actualisation complète
Cet exemple démarre une mise à jour avec une actualisation complète pour le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Requête
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Démarrer une mise à jour des tables sélectionnées
Cet exemple démarre une mise à jour qui actualise les tables sales_orders_cleaned
et sales_order_in_chicago
dans le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Requête
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Démarrer une mise à jour complète des tables sélectionnées
Cet exemple démarre une mise à jour des tables sales_orders_cleaned
et sales_order_in_chicago
, et une mise à jour avec actualisation complète des tables customers
et sales_orders_raw
dans le pipeline avec l’IDa12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Requête
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Structure de la requête
Nom du champ | Type | Description |
---|---|---|
full_refresh |
BOOLEAN |
Indique si toutes les données doivent être retraitées. Si la condition est true , le système de tables dynamiques Delta réinitialise toutes les tables avant d’exécuter le pipeline.Ce champ est facultatif. La valeur par défaut est false .Une erreur est retournée si full_refesh est true et refresh_selection ou full_refresh_selection est définie. |
refresh_selection |
Tableau de STRING |
Une liste des tables à mettre à jour. Utilisationrefresh_selection pour démarrer une actualisation d’un ensemble de tables sélectionné dans le graphique de pipeline.Ce champ est facultatif. Si refresh_selection etfull_refresh_selection sont vides, l’ensemble du graphique de pipeline est actualisé.Une erreur est retournée si : * full_refesh est vrai etrefresh_selection est défini.* Une ou plusieurs des tables spécifiées n’existent pas dans le graphique de pipeline. |
full_refresh_selection |
Tableau de STRING |
Liste des tables à mettre à jour avec actualisation complète. Utilisez full_refresh_selection pour démarrer une mise à jour d’un ensemble de tables sélectionné. Les états des tables spécifiées sont réinitialisés avant que le système Delta Live Tables démarre la mise à jour.Ce champ est facultatif. Si refresh_selection etfull_refresh_selection sont vides, l’ensemble du graphique de pipeline est actualisé.Une erreur est retournée si : * full_refesh est vrai etrefresh_selection est défini.* Une ou plusieurs des tables spécifiées n’existent pas dans le graphique de pipeline. * Une ou plusieurs des tables spécifiées ne sont pas réinitialisées. |
Structure de réponse
Nom du champ | Type | Description |
---|---|---|
update_id |
STRING |
L'identifiant unique de la mise à jour nouvellement créée. |
request_id |
STRING |
L’identificateur unique de la requête ayant commencé la mise à jour. |
Récupérez l’état de la requête de mise à jour d’un pipeline.
Point de terminaison | Méthode HTTP |
---|---|
2.0/pipelines/{pipeline_id}/requests/{request_id} |
GET |
Obtient l’état et les informations de la mise à jour du pipeline associé avecrequest_id
, où request_id
est un identificateur unique pour la demande qui a lancé la mise à jour du pipeline. Si la mise à jour est retentée ou redémarrée, la nouvelle mise à jour hérite de la request_id (identifiant de requête)
Exemple
Pour le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
, cet exemple retourne l’état et les informations de la mise à jour associée à l’ID de requêtea83d9f7c-d798-4fd5-aa39-301b6e6f4429
:
Requête
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
response
{
"status": "TERMINATED",
"latest_update":{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
"config":{
"id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
"name": "Retail sales (SQL)",
"storage": "/Users/username/data",
"configuration":{
"pipelines.numStreamRetryAttempts": "5"
},
"clusters":[
{
"label": "default",
"autoscale":{
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries":[
{
"notebook":{
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false,
"development": true,
"photon": true,
"edition": "advanced",
"channel": "CURRENT"
},
"cause": "API_CALL",
"state": "COMPLETED",
"cluster_id": "1234-567891-abcde123",
"creation_time": 1664304117145,
"full_refresh": false,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Structure de réponse
Nom du champ | Type | Description |
---|---|---|
status |
STRING |
L’état de la requête de mise à jour du pipeline. Valeurs possibles : * ACTIVE : une mise à jour pour cette requête est en cours d’exécution ou peut être retentée par une nouvelle mise à jour.* TERMINATED : la requête est terminée et ne sera pas retentée ou redémarrée. |
pipeline_id |
STRING |
Identificateur unique de l’application. |
update_id |
STRING |
L’identifiant unique de la mise à jour. |
config |
PipelineSettings | Paramètres du pipeline. |
cause |
STRING |
Déclencheur de la mise à jour. Valeurs possibles API_CALL RETRY_ON_FAILURE , SERVICE_UPGRADE , SCHEMA_CHANGE ,JOB_TASK , ou USER_ACTION . |
state |
STRING |
L’état de l’appareil. Valeurs possibles : QUEUED , CREATED WAITING_FOR_RESOURCES , INITIALIZING , RESETTING ,SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED ,FAILED , ou CANCELED . |
cluster_id |
STRING |
Identificateur du cluster exécutant la mise à jour. |
creation_time |
INT64 |
Horodatage de la création de la mise à jour. |
full_refresh |
BOOLEAN |
Indique si cette mise à jour réinitialise tous les tableaux avant exécution |
refresh_selection |
Tableau de STRING |
Liste des tableaux à mettre à jour sans actualisation complète. |
full_refresh_selection |
Tableau de STRING |
Liste des tables à mettre à jour avec actualisation complète. |
request_id |
STRING |
L’identificateur unique de la requête ayant commencé la mise à jour. Il s’agit de la valeur retournée par la requêtede mise à jour. Si la mise à jour est retentée ou redémarrée, la nouvelle mise à jour hérite de la request_id (identifiant de requête) Toutefois, le update_id sera différent. |
Arrêter toute mise à jour du pipeline actif
Point de terminaison | Méthode HTTP |
---|---|
2.0/pipelines/{pipeline_id}/stop |
POST |
Arrête toute mise à jour active du pipeline. Si aucune mise à jour n’est en cours d’exécution, cette demande est une absence d’opération.
Pour un pipeline continu, l’exécution du pipeline est suspendue. Les tables qui traitent actuellement l’actualisation de fin, mais les tables en aval ne sont pas actualisées. Dans la prochaine mise à jour du pipeline, Delta Live Tables effectue une actualisation sélectionnée des tables qui n’ont pas terminé le traitement et reprend le traitement du DAG de pipeline restant.
Pour un pipeline déclenché, l’exécution du pipeline est arrêtée. Les tables qui traitent actuellement l’actualisation de fin, mais les tables en aval ne sont pas actualisées. Dans la mise à jour de pipeline suivante, les tables Delta Live actualisent toutes les tables.
Exemple
Cet exemple arrête une mise à jour du pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Requête
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
Répertorier les événements de pipeline
Point de terminaison | Méthode HTTP |
---|---|
2.0/pipelines/{pipeline_id}/events |
GET |
Récupère les événements pour un pipeline.
Exemple
Cet exemple récupère un maximum de 5 événements pour le pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Requête
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
Structure de la requête
Nom du champ | Type | Description |
---|---|---|
page_token |
STRING |
Jeton de page retourné par l’appel précédent. Ce champ s’exclut mutuellement avec tous les champs de cette demande, à l’exception de max_results. Une erreur est retournée si des champs autres que max_results sont définis lorsque ce champ est défini. Ce champ est facultatif. |
max_results |
INT32 |
Nombre maximal d’entrées à retourner dans une seule page. Le système peut retourner moins de événements max_results dans une réponse, même s’il y a plus d’événements disponibles.Ce champ est facultatif. La valeur par défaut est 25. La valeur maximale est 100. Une erreur est retournée si la valeur de max_results est supérieur à 100. |
order_by |
STRING |
Chaîne indiquant un ordre de tri par horodateur pour les résultats, par exemple, ["timestamp asc"] .L’ordre de tri peut être croissant ou décroissant. Par défaut, les événements sont retournés dans l’ordre décroissant par horodateur. Ce champ est facultatif. |
filter |
STRING |
Critères permettant de sélectionner un sous-ensemble de résultats, exprimés à l'aide d'une syntaxe de type SQL. Les filtres pris en charge sont les suivants : * level='INFO' (ou WARN ou ERROR )* level in ('INFO', 'WARN') * id='[event-id]' * timestamp > 'TIMESTAMP' (ou >= ,< ,<= ,= )Les expressions composites sont prises en charge, par exemple : level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z' Ce champ est facultatif. |
Structure de réponse
Nom du champ | Type | Description |
---|---|---|
events |
Tableau d’événements de pipeline. | Liste des événements correspondant aux critères de demande. |
next_page_token |
STRING |
Le cas échéant, jeton pour extraire la page suivante d’événements. |
prev_page_token |
STRING |
Le cas échéant, jeton pour extraire la page suivante d’événements. |
Détails du pipeline
Point de terminaison | Méthode HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
GET |
Obtient des détails sur un pipeline, y compris les paramètres de pipeline et les mises à jour récentes.
Exemple
Cet exemple obtient les détails du pipeline avec l’ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Requête
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
response
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"spec": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
},
"state": "IDLE",
"cluster_id": "1234-567891-abcde123",
"name": "Wikipedia pipeline (SQL)",
"creator_user_name": "username",
"latest_updates": [
{
"update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:37:30.279Z"
},
{
"update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
"state": "CANCELED",
"creation_time": "2021-08-13T00:35:51.902Z"
},
{
"update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
"state": "FAILED",
"creation_time": "2021-08-13T00:33:38.565Z"
}
],
"run_as_user_name": "username"
}
Structure de réponse
Nom du champ | Type | Description |
---|---|---|
pipeline_id |
STRING |
Identificateur unique de l’application. |
spec |
PipelineSettings | Paramètres du pipeline. |
state |
STRING |
État du pipeline Un de IDLE ou RUNNING .Si State = RUNNING , il y a au moins une mise à jour active. |
cluster_id |
STRING |
Identificateur du cluster exécutant le pipeline. |
name |
STRING |
Le nom convivial de ce pipeline. |
creator_user_name |
STRING |
Nom d’utilisateur du créateur de pipeline. |
latest_updates |
Tableau de UpdateStateInfo | État des mises à jour les plus récentes pour le pipeline, classées avec la mise à jour la plus récente en premier. |
run_as_user_name |
STRING |
Nom d’utilisateur sous lequel le pipeline s’exécute. |
Obtenir les détails de la mise à jour
Point de terminaison | Méthode HTTP |
---|---|
2.0/pipelines/{pipeline_id}/updates/{update_id} |
GET |
Obtient les détails d’une mise à jour de pipeline.
Exemple
Cet exemple obtient les détails de la mise à jour 9a84f906-fc51-11eb-9a03-0242ac130003
pour le pipeline avec l'ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Requête
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
response
{
"update": {
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
"config": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"configuration": {
"pipelines.numStreamRetryAttempts": "5"
},
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false,
"development": false
},
"cause": "API_CALL",
"state": "COMPLETED",
"creation_time": 1628815050279,
"full_refresh": true,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Structure de réponse
Nom du champ | Type | Description |
---|---|---|
pipeline_id |
STRING |
Identificateur unique de l’application. |
update_id |
STRING |
L'identifiant unique de cette mise à jour. |
config |
PipelineSettings | Paramètres du pipeline. |
cause |
STRING |
Déclencheur de la mise à jour. Valeurs possibles API_CALL RETRY_ON_FAILURE , SERVICE_UPGRADE . |
state |
STRING |
L’état de l’appareil. Valeurs possibles : QUEUED , CREATED WAITING_FOR_RESOURCES , INITIALIZING , RESETTING ,SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED ,FAILED , ou CANCELED . |
cluster_id |
STRING |
Identificateur du cluster exécutant le pipeline. |
creation_time |
INT64 |
Horodatage de la création de la mise à jour. |
full_refresh |
BOOLEAN |
Indique s’il s’agissait d’une actualisation complète. Si la valeur est true, toutes les tables de pipeline étaient réinitialisées avant l’exécution de la mise à jour |
Lister les pipelines
Point de terminaison | Méthode HTTP |
---|---|
2.0/pipelines/ |
GET |
Répertorie les pipelines définis dans le système de tables dynamiques Delta.
Exemple
Cet exemple récupère les détails des pipelines où le nom contient quickstart
:
Requête
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27
Remplacez :
<databricks-instance>
avec le nom de l'instance de l'espace de travail Azure Databricks, par exempleadb-1234567890123456.7.azuredatabricks.net
.
Cet exemple utilise un fichier .netrc.
response
{
"statuses": [
{
"pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "DLT quickstart (Python)",
"latest_updates": [
{
"update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:34:21.871Z"
}
],
"creator_user_name": "username"
},
{
"pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "My DLT quickstart example",
"creator_user_name": "username"
}
],
"next_page_token": "eyJ...==",
"prev_page_token": "eyJ..x9"
}
Structure de la requête
Nom du champ | Type | Description |
---|---|---|
page_token |
STRING |
Jeton de page retourné par l’appel précédent. Ce champ est facultatif. |
max_results |
INT32 |
Nombre maximal d’entrées à retourner dans une seule page. Le système peut retourner moins de événements max_results dans une réponse, même s’il y a plus d’événements disponibles.Ce champ est facultatif. La valeur par défaut est 25. La valeur maximale est 100. Une erreur est retournée si la valeur de max_results est supérieur à 100. |
order_by |
Tableau de STRING |
Liste de chaînes spécifiant l’ordre des résultats, par exemple,["name asc"] . Les champs pris en charge order_by sont id etname . Par défaut, il s’agit de id asc .Ce champ est facultatif. |
filter |
STRING |
Sélectionnez un sous-ensemble de résultats en fonction des critères spécifiés. Les filtres pris en charge sont les suivants : "notebook='<path>'" pour sélectionner des pipelines qui référencent le chemin d’accès du bloc-notes fourni.name LIKE '[pattern]' pour sélectionner des pipelines dont le nom correspond pattern à. Les caractères génériques sont pris en charge, par exemple :name LIKE '%shopping%' Les filtres composites ne sont pas pris en charge. Ce champ est facultatif. |
Structure de réponse
Nom du champ | Type | Description |
---|---|---|
statuses |
Tableau de PipelineStateInfo | Liste des événements correspondant aux critères de demande. |
next_page_token |
STRING |
Le cas échéant, jeton pour extraire la page suivante d’événements. |
prev_page_token |
STRING |
Le cas échéant, jeton pour extraire la page suivante d’événements. |
Structures de données
Dans cette section :
- ABFSSStorageInfo
- ClusterLogConf
- DbfsStorageInfo
- FileStorageInfo
- InitScriptInfo
- KeyValue
- NotebookLibrary
- PipelinesAutoScale
- PipelineLibrary
- PipelinesNewCluster
- PipelineSettings
- PipelineStateInfo
- UpdateStateInfo
- WorkspaceStorageInfo
ABFSSStorageInfo
Informations de stockage Azure Data Lake Storage (ADLS).
Nom du champ | Type | Description |
---|---|---|
destination |
STRING |
Destination du fichier. Exemple : abfss://... |
ClusterLogConf
Chemin du journal de cluster.
Nom du champ | Type | Description |
---|---|---|
dbfs |
DbfsStorageInfo | Emplacement DBFS du journal de cluster. La destination doit être fournie. Par exemple :{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } } |
DbfsStorageInfo
Informations de stockage DBFS.
Nom du champ | Type | Description |
---|---|---|
destination |
STRING |
Destination DBFS. Exemple : dbfs:/my/path |
FileStorageInfo
Informations sur le stockage de fichier.
Notes
Ce type d’emplacement n’est disponible que pour les clusters configurés à l’aide de Databricks Container Services.
Nom du champ | Type | Description |
---|---|---|
destination |
STRING |
Destination du fichier. Exemple : file:/my/file.sh |
InitScriptInfo
Chemin d’un script d’initialisation.
Pour obtenir des instructions sur l’utilisation de scripts d’initialisation avec Databricks Container Services, consultez Utiliser un script d’initialisation.
Notes
Le type de stockage de fichier (nom de champ : file
) n’est disponible que pour les clusters configurés à l’aide de Databricks Container Services. Voir FileStorageInfo.
Nom du champ | Type | Description |
---|---|---|
workspace OUdbfs (déconseillé)OR abfss |
WorkspaceStorageInfo DbfsStorageInfo (déconseillé) ABFSSStorageInfo |
Emplacement d’espace de travail du script d’initialisation. La destination doit être fournie. Par exemple,{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } } (Déconseillé) Emplacement DBFS du script d’initialisation. La destination doit être fournie. Par exemple, { "dbfs" : { "destination" : "dbfs:/home/init_script" } } Emplacement Azure Data Lake Storage (ADLS) du script d’initialisation. La destination doit être fournie. Par exemple : { "abfss": { "destination" : "abfss://..." } } |
KeyValue
Paire clé-valeur qui spécifie les paramètres de configuration.
Nom du champ | Type | Description |
---|---|---|
key |
STRING |
Nom d’une propriété de configuration. |
value |
STRING |
Valeur de la propriété de configuration. |
NotebookLibrary
Spécification d’un notebook contenant du code de pipeline.
Nom du champ | Type | Description |
---|---|---|
path |
STRING |
Chemin d’accès absolu au bloc-notes. Ce champ est obligatoire. |
PipelinesAutoScale
Attributs définissant un cluster de mise à l’échelle automatique.
Nom du champ | Type | Description |
---|---|---|
min_workers |
INT32 |
Quantité minimale de Workers à laquelle le cluster peut être réduit (scale-down) lorsqu’il est sous-exploité. C’est également le nombre initial de Workers que le cluster aura après sa création. |
max_workers |
INT32 |
Quantité maximale de Workers à laquelle le cluster peut être agrandi (scale-up) en cas de surcharge. max_workers doit être strictement supérieur à min_workers. |
mode |
STRING |
Mode de mise à l’échelle automatique pour le cluster : * ENHANCED pour utiliser la mise à l’échelle automatique améliorée.* LEGACY pour utiliser la fonctionnalité de mise à l’échelle automatique du cluster. |
PipelineLibrary
Spécification des dépendances de pipeline.
Nom du champ | Type | Description |
---|---|---|
notebook |
NotebookLibrary | Chemin d’accès à un bloc-notes définissant les jeux de données de tables dynamiques Delta. Le chemin d’accès doit se trouver dans l’espace de travail Databricks, par exemple :{ "notebook" : { "path" : "/my-pipeline-notebook-path" } } . |
PipelinesNewCluster
Spécification de cluster de pipeline.
Le système de tables dynamiques Delta définit les attributs suivants. Ces attributs ne peuvent pas être configurés par les utilisateurs :
spark_version
Nom du champ | Type | Description |
---|---|---|
label |
STRING |
Une étiquette pour la spécification de cluster,default pour configurer le cluster par défaut, oumaintenance pour configurer le cluster de maintenance.Ce champ est facultatif. La valeur par défaut est default . |
spark_conf |
KeyValue | Objet contenant un ensemble de paires clé-valeur de configuration Spark spécifiées par l’utilisateur et facultatives. Vous pouvez également transmettre une chaîne d’options JVM supplémentaires au pilote et aux exécuteurs, respectivement viaspark.driver.extraJavaOptions et spark.executor.extraJavaOptions .Exemples de configurations Spark : {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} ou{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id |
STRING |
Ce champ code, via une seule valeur, les ressources disponibles pour chacun des nœuds Spark de ce cluster. Par exemple, les nœuds Spark peuvent être provisionnés et optimisés pour les charges de travail gourmandes en mémoire ou en calcul. Une liste des types de nœuds disponibles peut être récupérée à l'aide de l'appel d'API Clusters. |
driver_node_type_id |
STRING |
Type de nœud du pilote Spark. Ce champ est facultatif. S’il n’est pas défini, le type de nœud du pilote est défini sur la même valeur que le node_type_id défini ci-dessus. |
ssh_public_keys |
Tableau de STRING |
Contenu de la clé publique SSH qui sera ajouté à chaque nœud Spark dans ce cluster. Les clés privées correspondantes peuvent être utilisées pour se connecter avec le nom d’utilisateur ubuntu sur le port 2200 . Vous pouvez spécifier jusqu’à 10 clés. |
custom_tags |
KeyValue | Objet contenant un ensemble d’étiquettes pour les ressources de cluster. Databricks marque toutes les ressources de cluster avec ces étiquettes en plus de default_tags. Remarque : * Les étiquettes ne sont pas prises en charge sur les types de nœuds hérités tels que les nœuds à calcul optimisé et à mémoire optimisée * Azure Databricks autorise au maximum 45 étiquettes personnalisées. |
cluster_log_conf |
ClusterLogConf | Configuration pour la remise des journaux Spark à une destination de stockage à long terme. Une seule destination peut être spécifiée pour un cluster. Si cette configuration est fournie, les journaux sont remis à la destination toutes les5 mins . La destination des journaux de pilote est <destination>/<cluster-ID>/driver , tandis que celle des journaux d’exécuteur est <destination>/<cluster-ID>/executor . |
spark_env_vars |
KeyValue | Objet contenant un ensemble de paires clé-valeur de variables d’environnement facultatives spécifiées par l’utilisateur. Les paires clé-valeur de la forme (X,Y) sont exportées telles quelles (autrement dit,export X='Y' ) lors du lancement du pilote et des Workers.Pour spécifier un ensemble supplémentaire de SPARK_DAEMON_JAVA_OPTS , Databricks recommande de les ajouter à $SPARK_DAEMON_JAVA_OPTS comme indiqué dans l’exemple suivant. Cela permet de s’assurer que toutes les variables d’environnement gérées par Azure Databricks par défaut sont également incluses.Exemples de variables d’environnement Spark : {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} ou{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
init_scripts |
Tableau de InitScriptInfo | Configuration pour le stockage des scripts d’initialisation. Vous pouvez spécifier n’importe quel nombre de destinations. Les scripts sont exécutés séquentiellement dans l’ordre indiqué. Si cluster_log_conf est spécifié, les journaux des scripts d’initialisation sont envoyés à<destination>/<cluster-ID>/init_scripts . |
instance_pool_id |
STRING |
ID facultatif du pool d’instances auquel le cluster appartient. Consultez Informations de référence sur la configuration de pool. |
driver_instance_pool_id |
STRING |
ID facultatif du pool d’instances à utiliser pour les nœuds de pilote. Vous devez également indiquerinstance_pool_id . Voir API des pools d'instances. |
policy_id |
STRING |
ID de stratégie de cluster. |
num_workers OR autoscale |
INT32 OU InitScriptInfo |
Si num_workers, nombre de nœuds Worker que ce cluster doit avoir. Un cluster dispose d’un pilote Spark et de num_workers exécuteurs, pour un total de num_workers + 1 nœuds Spark. Lors de la lecture des propriétés d’un cluster, ce champ reflète le nombre souhaité de Workers plutôt que le nombre réel de Workers. Par exemple, si un cluster est redimensionné de 5 à 10 Workers, ce champ est mis à jour pour refléter la taille cible de 10 Workers, tandis que les Workers listés dans les exécuteurs augmentent progressivement de 5 à 10 à mesure que les nouveaux nœuds sont provisionnés. En cas de mise à l’échelle automatique, les paramètres nécessaires pour effectuer automatiquement un scale-up ou un scale-down des clusters en fonction de la charge. Ce champ est facultatif. |
apply_policy_default_values |
BOOLEAN |
Indique s’il faut utiliser les valeurs par défaut de la stratégie pour les attributs de cluster manquants. |
PipelineSettings
Paramètres d’un déploiement de pipeline.
Nom du champ | Type | Description |
---|---|---|
id |
STRING |
L'identifiant unique de ce pipeline. L’identificateur est créé par le système de tables dynamiques Delta et ne doit pas être fourni lors de la création d’un pipeline. |
name |
STRING |
Un nom convivial pour ce pipeline. Ce champ est facultatif. Par défaut, le nom du pipeline doit être unique. Pour utiliser un nom en double, attribuez à allow_duplicate_names la valeur true dans la configuration du pipeline. |
storage |
STRING |
Chemin d’accès à un répertoire DBFS pour le stockage des points de contrôle et des tables créés par le pipeline. Ce champ est facultatif. Le système utilise un emplacement par défaut si ce champ est vide. |
configuration |
Une carte de STRING:STRING |
Une liste de paires clé-valeur à ajouter à la configuration Spark du cluster qui exécutera le pipeline. Ce champ est facultatif. Les éléments doivent être mis en forme en tant que paires clé-valeur. |
clusters |
Tableau de PipelinesNewCluster | Tableau de spécifications pour les clusters qui exécuteront le pipeline. Ce champ est facultatif. Si ce paramètre n’est pas spécifié, le système sélectionne une configuration de cluster par défaut pour le pipeline. |
libraries |
Tableau de PipelineLibrary | Les blocs-notes contenant le code de pipeline et toutes les dépendances requises pour exécuter le pipeline. |
target |
STRING |
Un nom de base de données pour la persistance des données de sortie du pipeline. Consultez Publier des données de Delta Live Tables vers le metastore Hive pour plus d’informations. |
continuous |
BOOLEAN |
Indique s’il s’agit d’un pipeline continu. Ce champ est facultatif. La valeur par défaut est false . |
development |
BOOLEAN |
Indique s’il faut exécuter le pipeline en mode de développement. Ce champ est facultatif. La valeur par défaut est false . |
photon |
BOOLEAN |
Indique si l’accélération photon est activée pour ce pipeline. Ce champ est facultatif. La valeur par défaut est false . |
channel |
STRING |
Le canal de publication Delta Live Tables spécifiant la version du runtime à utiliser pour ce pipeline. Les valeurs prises en charge sont les suivantes : * preview pour tester le pipeline avec les modifications à venir apportées au runtime Delta Live Tables.* current pour utiliser la version actuelle du runtime Delta Live Tables.Ce champ est facultatif. La valeur par défaut est current . |
edition |
STRING |
Édition du produit Delta Live Tables sur laquelle exécuter le pipeline : * CORE prend en charge les charges de travail d’ingestion de streaming.* PRO prend également en charge la diffusion en continu des charges de travail d’ingestion et ajoute la prise en charge du traitement de capture de données modifiées (CDC).* ADVANCED prend en charge toutes les fonctionnalités de l’édition PRO et ajoute la prise en charge des charges de travail qui nécessitent des attentes de tables dynamiques Delta pour appliquer des contraintes de qualité des données.Ce champ est facultatif. La valeur par défaut est advanced . |
PipelineStateInfo
État d’un pipeline, état des mises à jour les plus récentes et informations sur les ressources associées.
Nom du champ | Type | Description |
---|---|---|
state |
STRING |
État du pipeline Un de IDLE ou RUNNING . |
pipeline_id |
STRING |
Identificateur unique de l’application. |
cluster_id |
STRING |
L'identifiant unique du cluster qui exécute le pipeline. |
name |
STRING |
Le nom convivial du pipeline. |
latest_updates |
Tableau de UpdateStateInfo | État des mises à jour les plus récentes pour le pipeline, classées avec la mise à jour la plus récente en premier. |
creator_user_name |
STRING |
Nom d’utilisateur du créateur de pipeline. |
run_as_user_name |
STRING |
Nom d’utilisateur sous lequel le pipeline s’exécute. Il s’agit d’une valeur en lecture seule dérivée du propriétaire du pipeline. |
UpdateStateInfo
État actuel de la mise à jour d’un pipeline.
Nom du champ | Type | Description |
---|---|---|
update_id |
STRING |
Identificateur unique de cette mise à jour. |
state |
STRING |
L’état de l’appareil. Valeurs possibles : QUEUED , CREATED ,WAITING_FOR_RESOURCES , INITIALIZING , RESETTING ,SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED ,FAILED , ou CANCELED . |
creation_time |
STRING |
Horodatage de la création de la mise à jour. |
WorkspaceStorageInfo
Informations de stockage de l’espace de travail.
Nom du champ | Type | Description |
---|---|---|
destination |
STRING |
Destination du fichier. Exemple : /Users/someone@domain.com/init_script.sh |
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour