Guida all'API Tabelle live delta

Articolo
05/03/2024

Importante

Il contenuto di questo articolo è stato ritirato e potrebbe non essere aggiornato. Vedere Tabelle live delta nella guida di riferimento all'API REST di Databricks.

L'API Tabelle live Delta consente di creare, modificare, eliminare, avviare e visualizzare i dettagli sulle pipeline.

Importante

Per accedere alle API REST di Databricks, è necessario eseguire l'autenticazione.

Creare una pipeline

Endpoint	Metodo HTTP
`2.0/pipelines`	`POST`

Crea una nuova pipeline di tabelle live Delta.

Esempio

Questo esempio crea una nuova pipeline attivata.

Richiedi

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json

pipeline-settings.json:

{
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "continuous": false
}

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}

Struttura della richiesta

Vedere Pipeline Impostazioni.

Struttura della risposta

Nome campo	Tipo	Descrizione
pipeline_id	`STRING`	Identificatore univoco per la pipeline appena creata.

Modificare una pipeline

Endpoint	Metodo HTTP
`2.0/pipelines/{pipeline_id}`	`PUT`

Aggiornamenti le impostazioni per una pipeline esistente.

Esempio

In questo esempio viene aggiunto un target parametro alla pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json

pipeline-settings.json

{
  "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "target": "wikipedia_quickstart_data",
  "continuous": false
}

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Struttura della richiesta

Vedere Pipeline Impostazioni.

Eliminare una pipeline

Endpoint	Metodo HTTP
`2.0/pipelines/{pipeline_id}`	`DELETE`

Elimina una pipeline dal sistema Delta Live Tables.

Esempio

In questo esempio viene eliminata la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Avviare un aggiornamento della pipeline

Endpoint	Metodo HTTP
`2.0/pipelines/{pipeline_id}/updates`	`POST`

Avvia un aggiornamento per una pipeline. È possibile avviare un aggiornamento per l'intero grafico della pipeline o un aggiornamento selettivo di tabelle specifiche.

Esempi

Avviare un aggiornamento completo

Questo esempio avvia un aggiornamento con aggiornamento completo per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Response

{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Avviare un aggiornamento delle tabelle selezionate

In questo esempio viene avviato un aggiornamento che aggiorna le sales_orders_cleaned tabelle e sales_order_in_chicago nella pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Response

{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Avviare un aggiornamento completo delle tabelle selezionate

Questo esempio avvia un aggiornamento delle sales_orders_cleaned tabelle e sales_order_in_chicago e un aggiornamento con aggiornamento completo delle customers tabelle e sales_orders_raw nella pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Richiedi

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Response

{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Struttura della richiesta

Nome campo	Tipo	Descrizione
`full_refresh`	`BOOLEAN`	Se rielaborare tutti i dati. Se `true`, il sistema Delta Live Tables reimposta tutte le tabelle reimpostabili prima di eseguire la pipeline. Questo campo è facoltativo. Il valore predefinito è `false`. Viene restituito un errore se `full_refesh` è true e `refresh_selection` o `full_refresh_selection` è impostato.
`refresh_selection`	Matrice di `STRING`.	Elenco di tabelle da aggiornare. Utilizzo `refresh_selection` per avviare un aggiornamento di un set selezionato di tabelle nel grafico della pipeline. Questo campo è facoltativo. Se entrambi `refresh_selection` E `full_refresh_selection` sono vuoti, viene aggiornato l'intero grafico della pipeline. Viene restituito un errore nei casi seguenti: * `full_refesh` è true e La classe `refresh_selection` è stata impostata. * Una o più tabelle specificate non esistono nel grafico della pipeline.
`full_refresh_selection`	Matrice di `STRING`.	Elenco di tabelle da aggiornare con l'aggiornamento completo. Utilizzare `full_refresh_selection` per avviare un aggiornamento di un set selezionato di tabelle. Gli stati delle tabelle specificate vengono reimpostati prima che il sistema Delta Live Tables avvii l'aggiornamento. Questo campo è facoltativo. Se entrambi `refresh_selection` E `full_refresh_selection` sono vuoti, viene aggiornato l'intero grafico della pipeline. Viene restituito un errore nei casi seguenti: * `full_refesh` è true e La classe `refresh_selection` è stata impostata. * Una o più tabelle specificate non esistono nel grafico della pipeline. * Una o più tabelle specificate non sono reimpostabili.

Struttura della risposta

Nome campo	Tipo	Descrizione
`update_id`	`STRING`	Identificatore univoco dell'aggiornamento appena creato.
`request_id`	`STRING`	Identificatore univoco della richiesta che ha avviato l'aggiornamento.

Ottenere lo stato di una richiesta di aggiornamento della pipeline

Endpoint	Metodo HTTP
`2.0/pipelines/{pipeline_id}/requests/{request_id}`	`GET`

Ottiene lo stato e le informazioni per l'aggiornamento della pipeline associato a request_id, dove request_id è un identificatore univoco per la richiesta che avvia l'aggiornamento della pipeline. Se l'aggiornamento viene ritentato o riavviato, il nuovo aggiornamento eredita il request_id.

Esempio

Per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5, questo esempio restituisce lo stato e le informazioni per l'aggiornamento associato all'ID a83d9f7c-d798-4fd5-aa39-301b6e6f4429richiesta:

Richiedi

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Response

{
   "status": "TERMINATED",
   "latest_update":{
     "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
     "update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
     "config":{
       "id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
       "name": "Retail sales (SQL)",
       "storage": "/Users/username/data",
       "configuration":{
         "pipelines.numStreamRetryAttempts": "5"
       },
       "clusters":[
         {
           "label": "default",
           "autoscale":{
             "min_workers": 1,
             "max_workers": 5,
             "mode": "ENHANCED"
           }
         }
       ],
       "libraries":[
         {
           "notebook":{
             "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
           }
         }
       ],
       "continuous": false,
       "development": true,
       "photon": true,
       "edition": "advanced",
       "channel": "CURRENT"
     },
     "cause": "API_CALL",
     "state": "COMPLETED",
     "cluster_id": "1234-567891-abcde123",
     "creation_time": 1664304117145,
     "full_refresh": false,
     "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
   }
}

Struttura della risposta

Nome campo	Tipo	Descrizione
`status`	`STRING`	Stato della richiesta di aggiornamento della pipeline. Uno di * `ACTIVE`: un aggiornamento per questa richiesta è in esecuzione attivamente o può essere ritentato in un nuovo aggiornamento. * `TERMINATED`: la richiesta viene terminata e non verrà ritentata o riavviata.
`pipeline_id`	`STRING`	Identificatore univoco della pipeline.
`update_id`	`STRING`	Identificatore univoco dell'aggiornamento.
`config`	Pipeline Impostazioni	Impostazioni della pipeline.
`cause`	`STRING`	Trigger per l'aggiornamento. Uno di `API_CALL`, `RETRY_ON_FAILURE`, `SERVICE_UPGRADE`, `SCHEMA_CHANGE` `JOB_TASKUSER_ACTION`o .
`state`	`STRING`	Stato dell'aggiornamento. Uno di `QUEUED`, `CREATED` `WAITING_FOR_RESOURCES`, `INITIALIZING`, `RESETTING` `SETTING_UP_TABLES`, `RUNNING`, `STOPPING`, `COMPLETED` `FAILEDCANCELED`o .
`cluster_id`	`STRING`	Identificatore del cluster che esegue l'aggiornamento.
`creation_time`	`INT64`	Timestamp di creazione dell'aggiornamento.
`full_refresh`	`BOOLEAN`	Indica se l'aggiornamento reimposta tutte le tabelle prima dell'esecuzione
`refresh_selection`	Matrice di `STRING`.	Elenco di tabelle da aggiornare senza aggiornamento completo.
`full_refresh_selection`	Matrice di `STRING`.	Elenco di tabelle da aggiornare con l'aggiornamento completo.
`request_id`	`STRING`	Identificatore univoco della richiesta che ha avviato l'aggiornamento. Questo è il valore restituito dalla richiesta di aggiornamento . Se l'aggiornamento viene ritentato o riavviato, il nuovo aggiornamento eredita il request_id. Tuttavia, sarà `update_id` diverso.

Arrestare qualsiasi aggiornamento della pipeline attiva

Endpoint	Metodo HTTP
`2.0/pipelines/{pipeline_id}/stop`	`POST`

Arresta qualsiasi aggiornamento della pipeline attiva. Se non è in esecuzione alcun aggiornamento, questa richiesta è no-op.

Per una pipeline continua, l'esecuzione della pipeline viene sospesa. Le tabelle attualmente in fase di elaborazione terminano l'aggiornamento, ma le tabelle downstream non vengono aggiornate. Nell'aggiornamento successivo della pipeline, Le tabelle Live Delta eseguono un aggiornamento selezionato di tabelle che non hanno completato l'elaborazione e riprende l'elaborazione del daG della pipeline rimanente.

Per una pipeline attivata, l'esecuzione della pipeline viene arrestata. Le tabelle attualmente in fase di elaborazione terminano l'aggiornamento, ma le tabelle downstream non vengono aggiornate. Nell'aggiornamento successivo della pipeline, le tabelle Live Delta aggiornano tutte le tabelle.

Esempio

Questo esempio arresta un aggiornamento per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Elencare gli eventi della pipeline

Endpoint	Metodo HTTP
`2.0/pipelines/{pipeline_id}/events`	`GET`

Recupera gli eventi per una pipeline.

Esempio

Questo esempio recupera un massimo di 5 eventi per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Richiedi

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Struttura della richiesta

Nome campo	Tipo	Descrizione
`page_token`	`STRING`	Token di pagina restituito dalla chiamata precedente. Questo campo si escludono a vicenda con tutti i campi della richiesta tranne max_results. Viene restituito un errore se vengono impostati campi diversi da max_results quando questo campo viene impostato. Questo campo è facoltativo.
`max_results`	`INT32`	Numero massimo di voci da restituire in una singola pagina. Il sistema può restituire meno di `max_results` eventi in una risposta, anche se sono disponibili più eventi. Questo campo è facoltativo. Il valore predefinito è 25. Il valore massimo è 100. Viene restituito un errore se il valore di `max_results` è maggiore di 100.
`order_by`	`STRING`	Stringa che indica un ordinamento in base al timestamp per i risultati, `["timestamp asc"]`ad esempio . L'ordinamento può essere crescente o decrescente. Per impostazione predefinita, gli eventi vengono restituiti in ordine decrescente in base al timestamp. Questo campo è facoltativo.
`filter`	`STRING`	Criteri per selezionare un subset di risultati, espresso usando una sintassi simile a SQL. I filtri supportati sono: * `level='INFO'` (oppure `WARN` o `ERROR`) * `level in ('INFO', 'WARN')` * `id='[event-id]'` * `timestamp > 'TIMESTAMP'` (o `>=`,`<`,`<=`,`=` ) Le espressioni composite sono supportate, ad esempio: `level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z'` Questo campo è facoltativo.

Struttura della risposta

Nome campo	Tipo	Descrizione
`events`	Matrice di eventi della pipeline.	Elenco di eventi che corrispondono ai criteri di richiesta.
`next_page_token`	`STRING`	Se presente, un token per recuperare la pagina successiva di eventi.
`prev_page_token`	`STRING`	Se presente, un token per recuperare la pagina precedente di eventi.

Ottieni dettagli pipeline

Endpoint	Metodo HTTP
`2.0/pipelines/{pipeline_id}`	`GET`

Ottiene informazioni dettagliate su una pipeline, incluse le impostazioni della pipeline e gli aggiornamenti recenti.

Esempio

Questo esempio ottiene i dettagli per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "spec": {
    "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "name": "Wikipedia pipeline (SQL)",
    "storage": "/Users/username/data",
    "clusters": [
      {
        "label": "default",
        "autoscale": {
          "min_workers": 1,
          "max_workers": 5,
          "mode": "ENHANCED"
        }
      }
    ],
    "libraries": [
      {
        "notebook": {
          "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
        }
      }
    ],
    "target": "wikipedia_quickstart_data",
    "continuous": false
  },
  "state": "IDLE",
  "cluster_id": "1234-567891-abcde123",
  "name": "Wikipedia pipeline (SQL)",
  "creator_user_name": "username",
  "latest_updates": [
    {
      "update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
      "state": "COMPLETED",
      "creation_time": "2021-08-13T00:37:30.279Z"
    },
    {
      "update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
      "state": "CANCELED",
      "creation_time": "2021-08-13T00:35:51.902Z"
    },
    {
      "update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
      "state": "FAILED",
      "creation_time": "2021-08-13T00:33:38.565Z"
    }
  ],
  "run_as_user_name": "username"
}

Struttura della risposta

Nome campo	Tipo	Descrizione
`pipeline_id`	`STRING`	Identificatore univoco della pipeline.
`spec`	Pipeline Impostazioni	Impostazioni della pipeline.
`state`	`STRING`	Stato della pipeline. Uno di `IDLE` o `RUNNING`. Se state = `RUNNING`, è presente almeno un aggiornamento attivo.
`cluster_id`	`STRING`	Identificatore del cluster che esegue la pipeline.
`name`	`STRING`	Nome descrittivo per questa pipeline.
`creator_user_name`	`STRING`	Nome utente dell'autore della pipeline.
`latest_updates`	Matrice di UpdateStateInfo	Stato degli aggiornamenti più recenti per la pipeline, ordinati prima con l'aggiornamento più recente.
`run_as_user_name`	`STRING`	Nome utente eseguito dalla pipeline.

Ottenere i dettagli dell'aggiornamento

Endpoint	Metodo HTTP
`2.0/pipelines/{pipeline_id}/updates/{update_id}`	`GET`

Ottiene i dettagli per un aggiornamento della pipeline.

Esempio

Questo esempio ottiene i dettagli per l'aggiornamento 9a84f906-fc51-11eb-9a03-0242ac130003 per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Response

{
  "update": {
    "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
    "config": {
      "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
      "name": "Wikipedia pipeline (SQL)",
      "storage": "/Users/username/data",
      "configuration": {
        "pipelines.numStreamRetryAttempts": "5"
      },
      "clusters": [
        {
          "label": "default",
          "autoscale": {
            "min_workers": 1,
            "max_workers": 5,
            "mode": "ENHANCED"
          }
        }
      ],
      "libraries": [
        {
          "notebook": {
            "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
          }
        }
      ],
      "target": "wikipedia_quickstart_data",
      "continuous": false,
      "development": false
    },
    "cause": "API_CALL",
    "state": "COMPLETED",
    "creation_time": 1628815050279,
    "full_refresh": true,
    "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
  }
}

Struttura della risposta

Nome campo	Tipo	Descrizione
`pipeline_id`	`STRING`	Identificatore univoco della pipeline.
`update_id`	`STRING`	Identificatore univoco di questo aggiornamento.
`config`	Pipeline Impostazioni	Impostazioni della pipeline.
`cause`	`STRING`	Trigger per l'aggiornamento. Uno di `API_CALL`, `RETRY_ON_FAILURE`, `SERVICE_UPGRADE`.
`state`	`STRING`	Stato dell'aggiornamento. Uno di `QUEUED`, `CREATED` `WAITING_FOR_RESOURCES`, `INITIALIZING`, `RESETTING` `SETTING_UP_TABLES`, `RUNNING`, `STOPPING`, `COMPLETED` `FAILEDCANCELED`o .
`cluster_id`	`STRING`	Identificatore del cluster che esegue la pipeline.
`creation_time`	`INT64`	Timestamp di creazione dell'aggiornamento.
`full_refresh`	`BOOLEAN`	Indica se si tratta di un aggiornamento completo. Se true, tutte le tabelle della pipeline sono state reimpostate prima di eseguire l'aggiornamento.

Elenco delle pipeline

Endpoint	Metodo HTTP
`2.0/pipelines/`	`GET`

Elenca le pipeline definite nel sistema Delta Live Tables.

Esempio

In questo esempio vengono recuperati i dettagli per le pipeline in cui il nome contiene quickstart:

Richiedi

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27

Replace:

<databricks-instance>con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempio adb-1234567890123456.7.azuredatabricks.net.

In questo esempio viene usato un file .netrc .

Response

{
  "statuses": [
    {
      "pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "DLT quickstart (Python)",
      "latest_updates": [
        {
          "update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
          "state": "COMPLETED",
          "creation_time": "2021-08-13T00:34:21.871Z"
        }
      ],
      "creator_user_name": "username"
    },
    {
      "pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "My DLT quickstart example",
      "creator_user_name": "username"
    }
  ],
  "next_page_token": "eyJ...==",
  "prev_page_token": "eyJ..x9"
}

Struttura della richiesta

Nome campo	Tipo	Descrizione
`page_token`	`STRING`	Token di pagina restituito dalla chiamata precedente. Questo campo è facoltativo.
`max_results`	`INT32`	Numero massimo di voci da restituire in una singola pagina. Il sistema può restituire meno di `max_results` eventi in una risposta, anche se sono disponibili più eventi. Questo campo è facoltativo. Il valore predefinito è 25. Il valore massimo è 100. Viene restituito un errore se il valore di `max_results` è maggiore di 100.
`order_by`	Matrice di `STRING`.	Elenco di stringhe che specificano l'ordine dei risultati, ad esempio `["name asc"]`. I campi supportati `order_by` sono `id` e `name`. Il valore predefinito è `id asc`. Questo campo è facoltativo.
`filter`	`STRING`	Selezionare un subset di risultati in base ai criteri specificati. I filtri supportati sono: `"notebook='<path>'"` per selezionare le pipeline che fanno riferimento al percorso del notebook specificato. `name LIKE '[pattern]'` per selezionare le pipeline con un nome corrispondente a `pattern`. I caratteri jolly sono supportati, ad esempio: `name LIKE '%shopping%'` I filtri compositi non sono supportati. Questo campo è facoltativo.

Struttura della risposta

Nome campo	Tipo	Descrizione
`statuses`	Matrice di PipelineStateInfo	Elenco di eventi che corrispondono ai criteri di richiesta.
`next_page_token`	`STRING`	Se presente, un token per recuperare la pagina successiva di eventi.
`prev_page_token`	`STRING`	Se presente, un token per recuperare la pagina precedente di eventi.

Strutture dei dati

ABFSS Archiviazione Info

Informazioni sull'archiviazione di Azure Data Lake Archiviazione (ADLS).

Nome campo	Tipo	Descrizione
`destination`	`STRING`	Destinazione file. Esempio: `abfss://...`

ClusterLogConf

Percorso del log del cluster.

Nome campo	Tipo	Descrizione
`dbfs`	Dbfs Archiviazione Info	Percorso DBFS del log del cluster. È necessario specificare la destinazione. ad esempio: `{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }`

Dbfs Archiviazione Info

Informazioni sull'archiviazione DBFS.

Nome campo	Tipo	Descrizione
`destination`	`STRING`	Destinazione DBFS. Esempio: `dbfs:/my/path`

File Archiviazione Info

Informazioni sull'archiviazione file.

Nota

Questo tipo di percorso è disponibile solo per i cluster configurati usando Databricks Container Services.

Nome campo	Tipo	Descrizione
`destination`	`STRING`	Destinazione file. Esempio: `file:/my/file.sh`

InitScriptInfo

Percorso di uno script init.

Per istruzioni sull'uso di script init con Databricks Container Services, vedere Usare uno script init.

Nota

Il tipo di archiviazione file (nome campo: file) è disponibile solo per i cluster configurati tramite Databricks Container Services. Vedere File Archiviazione Info.

Nome campo	Tipo	Descrizione
`workspace` O `dbfs` (deprecato) OPPURE `abfss`	Area di lavoro Archiviazione Info Dbfs Archiviazione Info (deprecato) ABFSS Archiviazione Info	Posizione dell'area di lavoro dello script init. È necessario specificare la destinazione. ad esempio: `{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }` (Deprecato) Percorso DBFS dello script init. È necessario specificare la destinazione. ad esempio: `{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }` Percorso di azure Data Lake Archiviazione (ADLS) dello script init. È necessario specificare la destinazione. Ad esempio, `{ "abfss": { "destination" : "abfss://..." } }`

KeyValue

Coppia chiave-valore che specifica i parametri di configurazione.

Nome campo	Tipo	Descrizione
`key`	`STRING`	Nome della proprietà di configurazione.
`value`	`STRING`	Valore della proprietà di configurazione.

NotebookLibrary

Specifica per un notebook contenente il codice della pipeline.

Nome campo	Tipo	Descrizione
`path`	`STRING`	Percorso assoluto del notebook. Campo obbligatorio.

PipelinesAutoScale

Attributi che definiscono un cluster di scalabilità automatica.

Nome campo	Tipo	Descrizione
`min_workers`	`INT32`	Numero minimo di ruoli di lavoro a cui il cluster può ridurre le prestazioni quando è sottoutilizzato. È anche il numero iniziale di ruoli di lavoro che il cluster avrà dopo la creazione.
`max_workers`	`INT32`	Numero massimo di ruoli di lavoro a cui il cluster può aumentare le prestazioni durante l'overload. max_workers deve essere strettamente maggiore di min_workers.
`mode`	`STRING`	Modalità di scalabilità automatica per il cluster: * `ENHANCED` per usare la scalabilità automatica avanzata. * `LEGACY`per usare la funzionalità di scalabilità automatica del cluster.

PipelineLibrary

Specifica per le dipendenze della pipeline.

Nome campo	Tipo	Descrizione
`notebook`	NotebookLibrary	Percorso di un notebook che definisce set di dati delta live tables. Il percorso deve trovarsi nell'area di lavoro di Databricks, ad esempio: `{ "notebook" : { "path" : "/my-pipeline-notebook-path" } }`.

PipelinesNewCluster

Specifica di un cluster della pipeline.

Il sistema Delta Live Tables imposta gli attributi seguenti. Questi attributi non possono essere configurati dagli utenti:

spark_version

Nome campo	Tipo	Descrizione
`label`	`STRING`	Etichetta per la specifica del cluster, `default` per configurare il cluster predefinito o `maintenance` per configurare il cluster di manutenzione. Questo campo è facoltativo. Il valore predefinito è `default`.
`spark_conf`	KeyValue	Oggetto contenente un set di coppie chiave-valore di configurazione Spark specificate dall'utente facoltative. È anche possibile passare una stringa di opzioni JVM aggiuntive al driver e agli executor tramite `spark.driver.extraJavaOptions` e `spark.executor.extraJavaOptions` rispettivamente. File confs Spark di esempio: `{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5}` oppure `{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}`
`node_type_id`	`STRING`	Questo campo codifica, con un solo valore, le risorse disponibili in ognuno dei nodi Spark del cluster. Ad esempio, è possibile effettuare il provisioning e ottimizzare i nodi Spark per carichi di lavoro a elevato utilizzo di memoria o calcolo. È possibile recuperare un elenco di tipi di nodo disponibili usando la chiamata API Clusters.
`driver_node_type_id`	`STRING`	Tipo di nodo del driver Spark. Questo campo è facoltativo; se non è impostato, il tipo di nodo del driver verrà impostato sullo stesso valore `node_type_id` definito in precedenza.
`ssh_public_keys`	Matrice di `STRING`.	Contenuto della chiave pubblica SSH che verrà aggiunto a ogni nodo Spark in questo cluster. Le chiavi private corrispondenti possono essere usate per accedere con il nome `ubuntu` utente sulla porta `2200`. È possibile specificare fino a 10 chiavi.
`custom_tags`	KeyValue	Oggetto contenente un set di tag per le risorse del cluster. Databricks contrassegna tutte le risorse del cluster con questi tag oltre a default_tags. Nota: * I tag non sono supportati nei tipi di nodo legacy, ad esempio ottimizzati per il calcolo e ottimizzati per la memoria * Azure Databricks consente al massimo 45 tag personalizzati.
`cluster_log_conf`	ClusterLogConf	Configurazione per il recapito dei log spark a una destinazione di archiviazione a lungo termine. È possibile specificare una sola destinazione per un cluster. Se viene specificata questa configurazione, i log verranno recapitati alla destinazione ogni `5 mins`. La destinazione dei log del driver è `<destination>/<cluster-ID>/driver`, mentre la destinazione dei log dell'executor è `<destination>/<cluster-ID>/executor`.
`spark_env_vars`	KeyValue	Oggetto contenente un set di coppie chiave-valore della variabile di ambiente specificate dall'utente facoltative. Le coppie chiave-valore del modulo (X,Y) vengono esportate così come sono (ovvero, `export X='Y'`) durante l'avvio del conducente e dei lavoratori. Per specificare un set aggiuntivo di `SPARK_DAEMON_JAVA_OPTS`, Databricks consiglia di aggiungerli a `$SPARK_DAEMON_JAVA_OPTS` come illustrato nell'esempio seguente. In questo modo vengono incluse anche tutte le variabili di ambiente gestite di Azure Databricks predefinite. Variabili di ambiente Spark di esempio: `{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"}` oppure `{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}`
`init_scripts`	Matrice di InitScriptInfo	Configurazione per l'archiviazione di script init. È possibile specificare un numero qualsiasi di destinazioni. Gli script vengono eseguiti in sequenza nell'ordine specificato. Se `cluster_log_conf` viene specificato, i log di script init vengono inviati a `<destination>/<cluster-ID>/init_scripts`.
`instance_pool_id`	`STRING`	ID facoltativo del pool di istanze a cui appartiene il cluster. Vedere Informazioni di riferimento sulla configurazione del pool.
`driver_instance_pool_id`	`STRING`	ID facoltativo del pool di istanze da usare per il nodo driver. È inoltre necessario specificare `instance_pool_id`. Vedere API pool di istanze.
`policy_id`	`STRING`	ID dei criteri del cluster.
`num_workers OR autoscale`	`INT32` OR InitScriptInfo	Se num_workers, numero di nodi di lavoro che il cluster deve avere. Un cluster ha un driver Spark e num_workers executor per un totale di num_workers + 1 nodi Spark. Quando si leggono le proprietà di un cluster, questo campo riflette il numero desiderato di ruoli di lavoro anziché il numero effettivo di ruoli di lavoro. Ad esempio, se un cluster viene ridimensionato da 5 a 10 ruoli di lavoro, questo campo viene aggiornato in modo da riflettere le dimensioni di destinazione di 10 ruoli di lavoro, mentre i ruoli di lavoro elencati negli executor aumentano gradualmente da 5 a 10 man mano che viene effettuato il provisioning dei nuovi nodi. Se la scalabilità automatica, i parametri necessari per ridimensionare automaticamente i cluster in base al carico. Questo campo è facoltativo.
`apply_policy_default_values`	`BOOLEAN`	Indica se usare i valori predefiniti dei criteri per gli attributi del cluster mancanti.

Pipeline Impostazioni

Impostazioni per una distribuzione della pipeline.

Nome campo	Tipo	Descrizione
`id`	`STRING`	Identificatore univoco per questa pipeline. L'identificatore viene creato dal sistema Delta Live Tables e non deve essere fornito durante la creazione di una pipeline.
`name`	`STRING`	Nome descrittivo per questa pipeline. Questo campo è facoltativo. Per impostazione predefinita, il nome della pipeline deve essere univoco. Per usare un nome duplicato, impostare su `allow_duplicate_namestrue` nella configurazione della pipeline.
`storage`	`STRING`	Percorso di una directory DBFS per l'archiviazione di checkpoint e tabelle create dalla pipeline. Questo campo è facoltativo. Il sistema usa un percorso predefinito se questo campo è vuoto.
`configuration`	Mappa di `STRING:STRING`	Elenco di coppie chiave-valore da aggiungere alla configurazione Spark del cluster che eseguirà la pipeline. Questo campo è facoltativo. Gli elementi devono essere formattati come coppie key:value.
`clusters`	Matrice di PipelinesNewCluster	Matrice di specifiche per i cluster per l'esecuzione della pipeline. Questo campo è facoltativo. Se non viene specificato, il sistema selezionerà una configurazione cluster predefinita per la pipeline.
`libraries`	Matrice di PipelineLibrary	I notebook contenenti il codice della pipeline ed eventuali dipendenze necessarie per eseguire la pipeline.
`target`	`STRING`	Nome del database per rendere persistenti i dati di output della pipeline. Per altre informazioni, vedere Pubblicare dati da tabelle live Delta nel metastore Hive.
`continuous`	`BOOLEAN`	Indica se si tratta di una pipeline continua. Questo campo è facoltativo. Il valore predefinito è `false`.
`development`	`BOOLEAN`	Indica se eseguire la pipeline in modalità di sviluppo. Questo campo è facoltativo. Il valore predefinito è `false`.
`photon`	`BOOLEAN`	Indica se l'accelerazione Photon è abilitata per questa pipeline. Questo campo è facoltativo. Il valore predefinito è `false`.
`channel`	`STRING`	Canale di rilascio Delta Live Tables che specifica la versione di runtime da usare per questa pipeline. I valori supportati sono: * `preview` per testare la pipeline con le modifiche imminenti apportate al runtime di Tabelle live Delta. * `current` per usare la versione corrente del runtime di Tabelle live Delta. Questo campo è facoltativo. Il valore predefinito è `current`.
`edition`	`STRING`	Edizione del prodotto Delta Live Tables per eseguire la pipeline: * `CORE` supporta i carichi di lavoro di inserimento in streaming. * `PRO` supporta anche i carichi di lavoro di inserimento in streaming e aggiunge il supporto per l'elaborazione di Change Data Capture (CDC). * `ADVANCED` supporta tutte le funzionalità dell'edizione `PRO` e aggiunge il supporto per i carichi di lavoro che richiedono aspettative di tabelle live Delta per applicare vincoli di qualità dei dati. Questo campo è facoltativo. Il valore predefinito è `advanced`.

PipelineStateInfo

Stato di una pipeline, stato degli aggiornamenti più recenti e informazioni sulle risorse associate.

Nome campo	Tipo	Descrizione
`state`	`STRING`	Stato della pipeline. Uno di `IDLE` o `RUNNING`.
`pipeline_id`	`STRING`	Identificatore univoco della pipeline.
`cluster_id`	`STRING`	Identificatore univoco del cluster che esegue la pipeline.
`name`	`STRING`	Nome descrittivo della pipeline.
`latest_updates`	Matrice di UpdateStateInfo	Stato degli aggiornamenti più recenti per la pipeline, ordinati prima con l'aggiornamento più recente.
`creator_user_name`	`STRING`	Nome utente dell'autore della pipeline.
`run_as_user_name`	`STRING`	Nome utente eseguito dalla pipeline. Si tratta di un valore di sola lettura derivato dal proprietario della pipeline.

UpdateStateInfo

Stato corrente di un aggiornamento della pipeline.

Nome campo	Tipo	Descrizione
`update_id`	`STRING`	Identificatore univoco per questo aggiornamento.
`state`	`STRING`	Stato dell'aggiornamento. Uno di `QUEUED`, `CREATED`, `WAITING_FOR_RESOURCES`, `INITIALIZING`, `RESETTING` `SETTING_UP_TABLES`, `RUNNING`, `STOPPING`, `COMPLETED` `FAILEDCANCELED`o .
`creation_time`	`STRING`	Timestamp al momento della creazione dell'aggiornamento.

Area di lavoro Archiviazione Info

Informazioni sull'archiviazione dell'area di lavoro.

Nome campo	Tipo	Descrizione
`destination`	`STRING`	Destinazione file. Esempio: `/Users/someone@domain.com/init_script.sh`

Guida all'API Tabelle live delta

Creare una pipeline

Esempio

Richiedi

Response

Struttura della richiesta

Struttura della risposta

Modificare una pipeline

Esempio

Richiedi

Struttura della richiesta

Eliminare una pipeline

Esempio

Richiedi

Avviare un aggiornamento della pipeline

Esempi

Avviare un aggiornamento completo

Richiedi

Response

Avviare un aggiornamento delle tabelle selezionate

Richiedi

Response

Avviare un aggiornamento completo delle tabelle selezionate

Richiedi

Response

Struttura della richiesta

Struttura della risposta

Ottenere lo stato di una richiesta di aggiornamento della pipeline

Esempio

Richiedi

Response

Struttura della risposta

Arrestare qualsiasi aggiornamento della pipeline attiva

Esempio

Richiedi

Elencare gli eventi della pipeline

Esempio

Richiedi

Struttura della richiesta

Struttura della risposta

Ottieni dettagli pipeline

Esempio

Richiedi

Response

Struttura della risposta

Ottenere i dettagli dell'aggiornamento

Esempio

Richiedi

Response

Struttura della risposta

Elenco delle pipeline

Esempio

Richiedi

Response

Struttura della richiesta

Struttura della risposta

Strutture dei dati

Contenuto della sezione:

ABFSS Archiviazione Info

ClusterLogConf

Dbfs Archiviazione Info

File Archiviazione Info

InitScriptInfo

KeyValue

NotebookLibrary

PipelinesAutoScale

PipelineLibrary

PipelinesNewCluster

Pipeline Impostazioni

PipelineStateInfo

UpdateStateInfo

Area di lavoro Archiviazione Info

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive