Guida all'API Tabelle live delta

Importante

Il contenuto di questo articolo è stato ritirato e potrebbe non essere aggiornato. Vedere Tabelle live delta nella guida di riferimento all'API REST di Databricks.

L'API Tabelle live Delta consente di creare, modificare, eliminare, avviare e visualizzare i dettagli sulle pipeline.

Importante

Per accedere alle API REST di Databricks, è necessario eseguire l'autenticazione.

Creare una pipeline

Endpoint Metodo HTTP
2.0/pipelines POST

Crea una nuova pipeline di tabelle live Delta.

Esempio

Questo esempio crea una nuova pipeline attivata.

Richiedi

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json

pipeline-settings.json:

{
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "continuous": false
}

Replace:

In questo esempio viene usato un file .netrc .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}

Struttura della richiesta

Vedere Pipeline Impostazioni.

Struttura della risposta

Nome campo Tipo Descrizione
pipeline_id STRING Identificatore univoco per la pipeline appena creata.

Modificare una pipeline

Endpoint Metodo HTTP
2.0/pipelines/{pipeline_id} PUT

Aggiornamenti le impostazioni per una pipeline esistente.

Esempio

In questo esempio viene aggiunto un target parametro alla pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json

pipeline-settings.json

{
  "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "name": "Wikipedia pipeline (SQL)",
  "storage": "/Users/username/data",
  "clusters": [
    {
      "label": "default",
      "autoscale": {
        "min_workers": 1,
        "max_workers": 5,
        "mode": "ENHANCED"
      }
    }
  ],
  "libraries": [
    {
      "notebook": {
        "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
      }
    }
  ],
  "target": "wikipedia_quickstart_data",
  "continuous": false
}

Replace:

In questo esempio viene usato un file .netrc .

Struttura della richiesta

Vedere Pipeline Impostazioni.

Eliminare una pipeline

Endpoint Metodo HTTP
2.0/pipelines/{pipeline_id} DELETE

Elimina una pipeline dal sistema Delta Live Tables.

Esempio

In questo esempio viene eliminata la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Replace:

In questo esempio viene usato un file .netrc .

Avviare un aggiornamento della pipeline

Endpoint Metodo HTTP
2.0/pipelines/{pipeline_id}/updates POST

Avvia un aggiornamento per una pipeline. È possibile avviare un aggiornamento per l'intero grafico della pipeline o un aggiornamento selettivo di tabelle specifiche.

Esempi

Avviare un aggiornamento completo

Questo esempio avvia un aggiornamento con aggiornamento completo per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'

Replace:

In questo esempio viene usato un file .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Avviare un aggiornamento delle tabelle selezionate

In questo esempio viene avviato un aggiornamento che aggiorna le sales_orders_cleaned tabelle e sales_order_in_chicago nella pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'

Replace:

In questo esempio viene usato un file .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Avviare un aggiornamento completo delle tabelle selezionate

Questo esempio avvia un aggiornamento delle sales_orders_cleaned tabelle e sales_order_in_chicago e un aggiornamento con aggiornamento completo delle customers tabelle e sales_orders_raw nella pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Richiedi
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'

Replace:

In questo esempio viene usato un file .netrc .

Response
{
  "update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
  "request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}

Struttura della richiesta

Nome campo Tipo Descrizione
full_refresh BOOLEAN Se rielaborare tutti i dati. Se true, il sistema Delta Live Tables reimposta tutte le tabelle reimpostabili prima di eseguire la pipeline.

Questo campo è facoltativo.

Il valore predefinito è false.

Viene restituito un errore se full_refesh è true e refresh_selection o full_refresh_selection è impostato.
refresh_selection Matrice di STRING. Elenco di tabelle da aggiornare. Utilizzo
refresh_selection per avviare un aggiornamento di un set selezionato di tabelle nel grafico della pipeline.

Questo campo è facoltativo. Se entrambi
refresh_selection E
full_refresh_selection sono vuoti, viene aggiornato l'intero grafico della pipeline.

Viene restituito un errore nei casi seguenti:

* full_refesh è true e
La classe refresh_selection è stata impostata.
* Una o più tabelle specificate non esistono nel grafico della pipeline.
full_refresh_selection Matrice di STRING. Elenco di tabelle da aggiornare con l'aggiornamento completo. Utilizzare full_refresh_selection per avviare un aggiornamento di un set selezionato di tabelle. Gli stati delle tabelle specificate vengono reimpostati prima che il sistema Delta Live Tables avvii l'aggiornamento.

Questo campo è facoltativo. Se entrambi
refresh_selection E
full_refresh_selection sono vuoti, viene aggiornato l'intero grafico della pipeline.

Viene restituito un errore nei casi seguenti:

* full_refesh è true e
La classe refresh_selection è stata impostata.
* Una o più tabelle specificate non esistono nel grafico della pipeline.
* Una o più tabelle specificate non sono reimpostabili.

Struttura della risposta

Nome campo Tipo Descrizione
update_id STRING Identificatore univoco dell'aggiornamento appena creato.
request_id STRING Identificatore univoco della richiesta che ha avviato l'aggiornamento.

Ottenere lo stato di una richiesta di aggiornamento della pipeline

Endpoint Metodo HTTP
2.0/pipelines/{pipeline_id}/requests/{request_id} GET

Ottiene lo stato e le informazioni per l'aggiornamento della pipeline associato a request_id, dove request_id è un identificatore univoco per la richiesta che avvia l'aggiornamento della pipeline. Se l'aggiornamento viene ritentato o riavviato, il nuovo aggiornamento eredita il request_id.

Esempio

Per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5, questo esempio restituisce lo stato e le informazioni per l'aggiornamento associato all'ID a83d9f7c-d798-4fd5-aa39-301b6e6f4429richiesta:

Richiedi

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429

Replace:

In questo esempio viene usato un file .netrc .

Response

{
   "status": "TERMINATED",
   "latest_update":{
     "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
     "update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
     "config":{
       "id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
       "name": "Retail sales (SQL)",
       "storage": "/Users/username/data",
       "configuration":{
         "pipelines.numStreamRetryAttempts": "5"
       },
       "clusters":[
         {
           "label": "default",
           "autoscale":{
             "min_workers": 1,
             "max_workers": 5,
             "mode": "ENHANCED"
           }
         }
       ],
       "libraries":[
         {
           "notebook":{
             "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
           }
         }
       ],
       "continuous": false,
       "development": true,
       "photon": true,
       "edition": "advanced",
       "channel": "CURRENT"
     },
     "cause": "API_CALL",
     "state": "COMPLETED",
     "cluster_id": "1234-567891-abcde123",
     "creation_time": 1664304117145,
     "full_refresh": false,
     "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
   }
}

Struttura della risposta

Nome campo Tipo Descrizione
status STRING Stato della richiesta di aggiornamento della pipeline. Uno di

* ACTIVE: un aggiornamento per questa richiesta è in esecuzione attivamente o può essere ritentato in un nuovo aggiornamento.
* TERMINATED: la richiesta viene terminata e non verrà ritentata o riavviata.
pipeline_id STRING Identificatore univoco della pipeline.
update_id STRING Identificatore univoco dell'aggiornamento.
config Pipeline Impostazioni Impostazioni della pipeline.
cause STRING Trigger per l'aggiornamento. Uno di API_CALL,
RETRY_ON_FAILURE, SERVICE_UPGRADE, SCHEMA_CHANGE
JOB_TASKUSER_ACTIONo .
state STRING Stato dell'aggiornamento. Uno di QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED
FAILEDCANCELEDo .
cluster_id STRING Identificatore del cluster che esegue l'aggiornamento.
creation_time INT64 Timestamp di creazione dell'aggiornamento.
full_refresh BOOLEAN Indica se l'aggiornamento reimposta tutte le tabelle prima dell'esecuzione
refresh_selection Matrice di STRING. Elenco di tabelle da aggiornare senza aggiornamento completo.
full_refresh_selection Matrice di STRING. Elenco di tabelle da aggiornare con l'aggiornamento completo.
request_id STRING Identificatore univoco della richiesta che ha avviato l'aggiornamento. Questo è il valore restituito dalla richiesta di aggiornamento . Se l'aggiornamento viene ritentato o riavviato, il nuovo aggiornamento eredita il request_id. Tuttavia, sarà update_id diverso.

Arrestare qualsiasi aggiornamento della pipeline attiva

Endpoint Metodo HTTP
2.0/pipelines/{pipeline_id}/stop POST

Arresta qualsiasi aggiornamento della pipeline attiva. Se non è in esecuzione alcun aggiornamento, questa richiesta è no-op.

Per una pipeline continua, l'esecuzione della pipeline viene sospesa. Le tabelle attualmente in fase di elaborazione terminano l'aggiornamento, ma le tabelle downstream non vengono aggiornate. Nell'aggiornamento successivo della pipeline, Le tabelle Live Delta eseguono un aggiornamento selezionato di tabelle che non hanno completato l'elaborazione e riprende l'elaborazione del daG della pipeline rimanente.

Per una pipeline attivata, l'esecuzione della pipeline viene arrestata. Le tabelle attualmente in fase di elaborazione terminano l'aggiornamento, ma le tabelle downstream non vengono aggiornate. Nell'aggiornamento successivo della pipeline, le tabelle Live Delta aggiornano tutte le tabelle.

Esempio

Questo esempio arresta un aggiornamento per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop

Replace:

In questo esempio viene usato un file .netrc .

Elencare gli eventi della pipeline

Endpoint Metodo HTTP
2.0/pipelines/{pipeline_id}/events GET

Recupera gli eventi per una pipeline.

Esempio

Questo esempio recupera un massimo di 5 eventi per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5.

Richiedi

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5

Replace:

In questo esempio viene usato un file .netrc .

Struttura della richiesta

Nome campo Tipo Descrizione
page_token STRING Token di pagina restituito dalla chiamata precedente. Questo campo si escludono a vicenda con tutti i campi della richiesta tranne max_results. Viene restituito un errore se vengono impostati campi diversi da max_results quando questo campo viene impostato.

Questo campo è facoltativo.
max_results INT32 Numero massimo di voci da restituire in una singola pagina. Il sistema può restituire meno di max_results eventi in una risposta, anche se sono disponibili più eventi.

Questo campo è facoltativo.

Il valore predefinito è 25.

Il valore massimo è 100. Viene restituito un errore se il valore di
max_results è maggiore di 100.
order_by STRING Stringa che indica un ordinamento in base al timestamp per i risultati, ["timestamp asc"]ad esempio .

L'ordinamento può essere crescente o decrescente. Per impostazione predefinita, gli eventi vengono restituiti in ordine decrescente in base al timestamp.

Questo campo è facoltativo.
filter STRING Criteri per selezionare un subset di risultati, espresso usando una sintassi simile a SQL. I filtri supportati sono:

* level='INFO' (oppure WARN o ERROR)
* level in ('INFO', 'WARN')
* id='[event-id]'
* timestamp > 'TIMESTAMP' (o >=,<,<=,= )

Le espressioni composite sono supportate, ad esempio:
level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z'

Questo campo è facoltativo.

Struttura della risposta

Nome campo Tipo Descrizione
events Matrice di eventi della pipeline. Elenco di eventi che corrispondono ai criteri di richiesta.
next_page_token STRING Se presente, un token per recuperare la pagina successiva di eventi.
prev_page_token STRING Se presente, un token per recuperare la pagina precedente di eventi.

Ottieni dettagli pipeline

Endpoint Metodo HTTP
2.0/pipelines/{pipeline_id} GET

Ottiene informazioni dettagliate su una pipeline, incluse le impostazioni della pipeline e gli aggiornamenti recenti.

Esempio

Questo esempio ottiene i dettagli per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5

Replace:

In questo esempio viene usato un file .netrc .

Response

{
  "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
  "spec": {
    "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "name": "Wikipedia pipeline (SQL)",
    "storage": "/Users/username/data",
    "clusters": [
      {
        "label": "default",
        "autoscale": {
          "min_workers": 1,
          "max_workers": 5,
          "mode": "ENHANCED"
        }
      }
    ],
    "libraries": [
      {
        "notebook": {
          "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
        }
      }
    ],
    "target": "wikipedia_quickstart_data",
    "continuous": false
  },
  "state": "IDLE",
  "cluster_id": "1234-567891-abcde123",
  "name": "Wikipedia pipeline (SQL)",
  "creator_user_name": "username",
  "latest_updates": [
    {
      "update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
      "state": "COMPLETED",
      "creation_time": "2021-08-13T00:37:30.279Z"
    },
    {
      "update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
      "state": "CANCELED",
      "creation_time": "2021-08-13T00:35:51.902Z"
    },
    {
      "update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
      "state": "FAILED",
      "creation_time": "2021-08-13T00:33:38.565Z"
    }
  ],
  "run_as_user_name": "username"
}

Struttura della risposta

Nome campo Tipo Descrizione
pipeline_id STRING Identificatore univoco della pipeline.
spec Pipeline Impostazioni Impostazioni della pipeline.
state STRING Stato della pipeline. Uno di IDLE o RUNNING.

Se state = RUNNING, è presente almeno un aggiornamento attivo.
cluster_id STRING Identificatore del cluster che esegue la pipeline.
name STRING Nome descrittivo per questa pipeline.
creator_user_name STRING Nome utente dell'autore della pipeline.
latest_updates Matrice di UpdateStateInfo Stato degli aggiornamenti più recenti per la pipeline, ordinati prima con l'aggiornamento più recente.
run_as_user_name STRING Nome utente eseguito dalla pipeline.

Ottenere i dettagli dell'aggiornamento

Endpoint Metodo HTTP
2.0/pipelines/{pipeline_id}/updates/{update_id} GET

Ottiene i dettagli per un aggiornamento della pipeline.

Esempio

Questo esempio ottiene i dettagli per l'aggiornamento 9a84f906-fc51-11eb-9a03-0242ac130003 per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5:

Richiedi

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003

Replace:

In questo esempio viene usato un file .netrc .

Response

{
  "update": {
    "pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
    "update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
    "config": {
      "id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
      "name": "Wikipedia pipeline (SQL)",
      "storage": "/Users/username/data",
      "configuration": {
        "pipelines.numStreamRetryAttempts": "5"
      },
      "clusters": [
        {
          "label": "default",
          "autoscale": {
            "min_workers": 1,
            "max_workers": 5,
            "mode": "ENHANCED"
          }
        }
      ],
      "libraries": [
        {
          "notebook": {
            "path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
          }
        }
      ],
      "target": "wikipedia_quickstart_data",
      "continuous": false,
      "development": false
    },
    "cause": "API_CALL",
    "state": "COMPLETED",
    "creation_time": 1628815050279,
    "full_refresh": true,
    "request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
  }
}

Struttura della risposta

Nome campo Tipo Descrizione
pipeline_id STRING Identificatore univoco della pipeline.
update_id STRING Identificatore univoco di questo aggiornamento.
config Pipeline Impostazioni Impostazioni della pipeline.
cause STRING Trigger per l'aggiornamento. Uno di API_CALL,
RETRY_ON_FAILURE, SERVICE_UPGRADE.
state STRING Stato dell'aggiornamento. Uno di QUEUED, CREATED
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED
FAILEDCANCELEDo .
cluster_id STRING Identificatore del cluster che esegue la pipeline.
creation_time INT64 Timestamp di creazione dell'aggiornamento.
full_refresh BOOLEAN Indica se si tratta di un aggiornamento completo. Se true, tutte le tabelle della pipeline sono state reimpostate prima di eseguire l'aggiornamento.

Elenco delle pipeline

Endpoint Metodo HTTP
2.0/pipelines/ GET

Elenca le pipeline definite nel sistema Delta Live Tables.

Esempio

In questo esempio vengono recuperati i dettagli per le pipeline in cui il nome contiene quickstart:

Richiedi

curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27

Replace:

In questo esempio viene usato un file .netrc .

Response

{
  "statuses": [
    {
      "pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "DLT quickstart (Python)",
      "latest_updates": [
        {
          "update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
          "state": "COMPLETED",
          "creation_time": "2021-08-13T00:34:21.871Z"
        }
      ],
      "creator_user_name": "username"
    },
    {
      "pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
      "state": "IDLE",
      "name": "My DLT quickstart example",
      "creator_user_name": "username"
    }
  ],
  "next_page_token": "eyJ...==",
  "prev_page_token": "eyJ..x9"
}

Struttura della richiesta

Nome campo Tipo Descrizione
page_token STRING Token di pagina restituito dalla chiamata precedente.

Questo campo è facoltativo.
max_results INT32 Numero massimo di voci da restituire in una singola pagina. Il sistema può restituire meno di max_results eventi in una risposta, anche se sono disponibili più eventi.

Questo campo è facoltativo.

Il valore predefinito è 25.

Il valore massimo è 100. Viene restituito un errore se il valore di
max_results è maggiore di 100.
order_by Matrice di STRING. Elenco di stringhe che specificano l'ordine dei risultati, ad esempio
["name asc"]. I campi supportati order_by sono id e
name. Il valore predefinito è id asc.

Questo campo è facoltativo.
filter STRING Selezionare un subset di risultati in base ai criteri specificati.

I filtri supportati sono:

"notebook='<path>'" per selezionare le pipeline che fanno riferimento al percorso del notebook specificato.

name LIKE '[pattern]' per selezionare le pipeline con un nome corrispondente a pattern. I caratteri jolly sono supportati, ad esempio:
name LIKE '%shopping%'

I filtri compositi non sono supportati.

Questo campo è facoltativo.

Struttura della risposta

Nome campo Tipo Descrizione
statuses Matrice di PipelineStateInfo Elenco di eventi che corrispondono ai criteri di richiesta.
next_page_token STRING Se presente, un token per recuperare la pagina successiva di eventi.
prev_page_token STRING Se presente, un token per recuperare la pagina precedente di eventi.

Strutture dei dati

Contenuto della sezione:

ABFSS Archiviazione Info

Informazioni sull'archiviazione di Azure Data Lake Archiviazione (ADLS).

Nome campo Tipo Descrizione
destination STRING Destinazione file. Esempio: abfss://...

ClusterLogConf

Percorso del log del cluster.

Nome campo Tipo Descrizione
dbfs Dbfs Archiviazione Info Percorso DBFS del log del cluster. È necessario specificare la destinazione. ad esempio:
{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } }

Dbfs Archiviazione Info

Informazioni sull'archiviazione DBFS.

Nome campo Tipo Descrizione
destination STRING Destinazione DBFS. Esempio: dbfs:/my/path

File Archiviazione Info

Informazioni sull'archiviazione file.

Nota

Questo tipo di percorso è disponibile solo per i cluster configurati usando Databricks Container Services.

Nome campo Tipo Descrizione
destination STRING Destinazione file. Esempio: file:/my/file.sh

InitScriptInfo

Percorso di uno script init.

Per istruzioni sull'uso di script init con Databricks Container Services, vedere Usare uno script init.

Nota

Il tipo di archiviazione file (nome campo: file) è disponibile solo per i cluster configurati tramite Databricks Container Services. Vedere File Archiviazione Info.

Nome campo Tipo Descrizione
workspace O
dbfs (deprecato)

OPPURE
abfss
Area di lavoro Archiviazione Info

Dbfs Archiviazione Info (deprecato)

ABFSS Archiviazione Info
Posizione dell'area di lavoro dello script init. È necessario specificare la destinazione. ad esempio:
{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } }

(Deprecato) Percorso DBFS dello script init. È necessario specificare la destinazione. ad esempio:
{ "dbfs" : { "destination" : "dbfs:/home/init_script" } }

Percorso di azure Data Lake Archiviazione (ADLS) dello script init. È necessario specificare la destinazione. Ad esempio, { "abfss": { "destination" : "abfss://..." } }

KeyValue

Coppia chiave-valore che specifica i parametri di configurazione.

Nome campo Tipo Descrizione
key STRING Nome della proprietà di configurazione.
value STRING Valore della proprietà di configurazione.

NotebookLibrary

Specifica per un notebook contenente il codice della pipeline.

Nome campo Tipo Descrizione
path STRING Percorso assoluto del notebook.

Campo obbligatorio.

PipelinesAutoScale

Attributi che definiscono un cluster di scalabilità automatica.

Nome campo Tipo Descrizione
min_workers INT32 Numero minimo di ruoli di lavoro a cui il cluster può ridurre le prestazioni quando è sottoutilizzato. È anche il numero iniziale di ruoli di lavoro che il cluster avrà dopo la creazione.
max_workers INT32 Numero massimo di ruoli di lavoro a cui il cluster può aumentare le prestazioni durante l'overload. max_workers deve essere strettamente maggiore di min_workers.
mode STRING Modalità di scalabilità automatica per il cluster:

* ENHANCED per usare la scalabilità automatica avanzata.
* LEGACYper usare la funzionalità di scalabilità automatica del cluster.

PipelineLibrary

Specifica per le dipendenze della pipeline.

Nome campo Tipo Descrizione
notebook NotebookLibrary Percorso di un notebook che definisce set di dati delta live tables. Il percorso deve trovarsi nell'area di lavoro di Databricks, ad esempio:
{ "notebook" : { "path" : "/my-pipeline-notebook-path" } }.

PipelinesNewCluster

Specifica di un cluster della pipeline.

Il sistema Delta Live Tables imposta gli attributi seguenti. Questi attributi non possono essere configurati dagli utenti:

  • spark_version
Nome campo Tipo Descrizione
label STRING Etichetta per la specifica del cluster,
default per configurare il cluster predefinito o
maintenance per configurare il cluster di manutenzione.

Questo campo è facoltativo. Il valore predefinito è default.
spark_conf KeyValue Oggetto contenente un set di coppie chiave-valore di configurazione Spark specificate dall'utente facoltative. È anche possibile passare una stringa di opzioni JVM aggiuntive al driver e agli executor tramite
spark.driver.extraJavaOptions e spark.executor.extraJavaOptions rispettivamente.

File confs Spark di esempio:
{"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} oppure
{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"}
node_type_id STRING Questo campo codifica, con un solo valore, le risorse disponibili in ognuno dei nodi Spark del cluster. Ad esempio, è possibile effettuare il provisioning e ottimizzare i nodi Spark per carichi di lavoro a elevato utilizzo di memoria o calcolo. È possibile recuperare un elenco di tipi di nodo disponibili usando la chiamata API Clusters.
driver_node_type_id STRING Tipo di nodo del driver Spark. Questo campo è facoltativo; se non è impostato, il tipo di nodo del driver verrà impostato sullo stesso valore node_type_id definito in precedenza.
ssh_public_keys Matrice di STRING. Contenuto della chiave pubblica SSH che verrà aggiunto a ogni nodo Spark in questo cluster. Le chiavi private corrispondenti possono essere usate per accedere con il nome ubuntu utente sulla porta 2200. È possibile specificare fino a 10 chiavi.
custom_tags KeyValue Oggetto contenente un set di tag per le risorse del cluster. Databricks contrassegna tutte le risorse del cluster con questi tag oltre a default_tags.

Nota:

* I tag non sono supportati nei tipi di nodo legacy, ad esempio ottimizzati per il calcolo e ottimizzati per la memoria
* Azure Databricks consente al massimo 45 tag personalizzati.
cluster_log_conf ClusterLogConf Configurazione per il recapito dei log spark a una destinazione di archiviazione a lungo termine. È possibile specificare una sola destinazione per un cluster. Se viene specificata questa configurazione, i log verranno recapitati alla destinazione ogni
5 mins. La destinazione dei log del driver è <destination>/<cluster-ID>/driver, mentre la destinazione dei log dell'executor è <destination>/<cluster-ID>/executor.
spark_env_vars KeyValue Oggetto contenente un set di coppie chiave-valore della variabile di ambiente specificate dall'utente facoltative. Le coppie chiave-valore del modulo (X,Y) vengono esportate così come sono (ovvero,
export X='Y') durante l'avvio del conducente e dei lavoratori.

Per specificare un set aggiuntivo di SPARK_DAEMON_JAVA_OPTS, Databricks consiglia di aggiungerli a $SPARK_DAEMON_JAVA_OPTS come illustrato nell'esempio seguente. In questo modo vengono incluse anche tutte le variabili di ambiente gestite di Azure Databricks predefinite.

Variabili di ambiente Spark di esempio:
{"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} oppure
{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}
init_scripts Matrice di InitScriptInfo Configurazione per l'archiviazione di script init. È possibile specificare un numero qualsiasi di destinazioni. Gli script vengono eseguiti in sequenza nell'ordine specificato. Se cluster_log_conf viene specificato, i log di script init vengono inviati a
<destination>/<cluster-ID>/init_scripts.
instance_pool_id STRING ID facoltativo del pool di istanze a cui appartiene il cluster. Vedere Informazioni di riferimento sulla configurazione del pool.
driver_instance_pool_id STRING ID facoltativo del pool di istanze da usare per il nodo driver. È inoltre necessario specificare
instance_pool_id. Vedere API pool di istanze.
policy_id STRING ID dei criteri del cluster.
num_workers OR autoscale INT32 OR InitScriptInfo Se num_workers, numero di nodi di lavoro che il cluster deve avere. Un cluster ha un driver Spark e num_workers executor per un totale di num_workers + 1 nodi Spark.

Quando si leggono le proprietà di un cluster, questo campo riflette il numero desiderato di ruoli di lavoro anziché il numero effettivo di ruoli di lavoro. Ad esempio, se un cluster viene ridimensionato da 5 a 10 ruoli di lavoro, questo campo viene aggiornato in modo da riflettere le dimensioni di destinazione di 10 ruoli di lavoro, mentre i ruoli di lavoro elencati negli executor aumentano gradualmente da 5 a 10 man mano che viene effettuato il provisioning dei nuovi nodi.

Se la scalabilità automatica, i parametri necessari per ridimensionare automaticamente i cluster in base al carico.

Questo campo è facoltativo.
apply_policy_default_values BOOLEAN Indica se usare i valori predefiniti dei criteri per gli attributi del cluster mancanti.

Pipeline Impostazioni

Impostazioni per una distribuzione della pipeline.

Nome campo Tipo Descrizione
id STRING Identificatore univoco per questa pipeline.

L'identificatore viene creato dal sistema Delta Live Tables e non deve essere fornito durante la creazione di una pipeline.
name STRING Nome descrittivo per questa pipeline.

Questo campo è facoltativo.

Per impostazione predefinita, il nome della pipeline deve essere univoco. Per usare un nome duplicato, impostare su allow_duplicate_namestrue nella configurazione della pipeline.
storage STRING Percorso di una directory DBFS per l'archiviazione di checkpoint e tabelle create dalla pipeline.

Questo campo è facoltativo.

Il sistema usa un percorso predefinito se questo campo è vuoto.
configuration Mappa di STRING:STRING Elenco di coppie chiave-valore da aggiungere alla configurazione Spark del cluster che eseguirà la pipeline.

Questo campo è facoltativo.

Gli elementi devono essere formattati come coppie key:value.
clusters Matrice di PipelinesNewCluster Matrice di specifiche per i cluster per l'esecuzione della pipeline.

Questo campo è facoltativo.

Se non viene specificato, il sistema selezionerà una configurazione cluster predefinita per la pipeline.
libraries Matrice di PipelineLibrary I notebook contenenti il codice della pipeline ed eventuali dipendenze necessarie per eseguire la pipeline.
target STRING Nome del database per rendere persistenti i dati di output della pipeline.

Per altre informazioni, vedere Pubblicare dati da tabelle live Delta nel metastore Hive.
continuous BOOLEAN Indica se si tratta di una pipeline continua.

Questo campo è facoltativo.

Il valore predefinito è false.
development BOOLEAN Indica se eseguire la pipeline in modalità di sviluppo.

Questo campo è facoltativo.

Il valore predefinito è false.
photon BOOLEAN Indica se l'accelerazione Photon è abilitata per questa pipeline.

Questo campo è facoltativo.

Il valore predefinito è false.
channel STRING Canale di rilascio Delta Live Tables che specifica la versione di runtime da usare per questa pipeline. I valori supportati sono:

* preview per testare la pipeline con le modifiche imminenti apportate al runtime di Tabelle live Delta.
* current per usare la versione corrente del runtime di Tabelle live Delta.

Questo campo è facoltativo.

Il valore predefinito è current.
edition STRING Edizione del prodotto Delta Live Tables per eseguire la pipeline:

* CORE supporta i carichi di lavoro di inserimento in streaming.
* PRO supporta anche i carichi di lavoro di inserimento in streaming e aggiunge il supporto per l'elaborazione di Change Data Capture (CDC).
* ADVANCED supporta tutte le funzionalità dell'edizione PRO e aggiunge il supporto per i carichi di lavoro che richiedono aspettative di tabelle live Delta per applicare vincoli di qualità dei dati.

Questo campo è facoltativo.

Il valore predefinito è advanced.

PipelineStateInfo

Stato di una pipeline, stato degli aggiornamenti più recenti e informazioni sulle risorse associate.

Nome campo Tipo Descrizione
state STRING Stato della pipeline. Uno di IDLE o RUNNING.
pipeline_id STRING Identificatore univoco della pipeline.
cluster_id STRING Identificatore univoco del cluster che esegue la pipeline.
name STRING Nome descrittivo della pipeline.
latest_updates Matrice di UpdateStateInfo Stato degli aggiornamenti più recenti per la pipeline, ordinati prima con l'aggiornamento più recente.
creator_user_name STRING Nome utente dell'autore della pipeline.
run_as_user_name STRING Nome utente eseguito dalla pipeline. Si tratta di un valore di sola lettura derivato dal proprietario della pipeline.

UpdateStateInfo

Stato corrente di un aggiornamento della pipeline.

Nome campo Tipo Descrizione
update_id STRING Identificatore univoco per questo aggiornamento.
state STRING Stato dell'aggiornamento. Uno di QUEUED, CREATED,
WAITING_FOR_RESOURCES, INITIALIZING, RESETTING
SETTING_UP_TABLES, RUNNING, STOPPING, COMPLETED
FAILEDCANCELEDo .
creation_time STRING Timestamp al momento della creazione dell'aggiornamento.

Area di lavoro Archiviazione Info

Informazioni sull'archiviazione dell'area di lavoro.

Nome campo Tipo Descrizione
destination STRING Destinazione file. Esempio: /Users/someone@domain.com/init_script.sh