Guida all'API Tabelle live delta
Importante
Il contenuto di questo articolo è stato ritirato e potrebbe non essere aggiornato. Vedere Tabelle live delta nella guida di riferimento all'API REST di Databricks.
L'API Tabelle live Delta consente di creare, modificare, eliminare, avviare e visualizzare i dettagli sulle pipeline.
Importante
Per accedere alle API REST di Databricks, è necessario eseguire l'autenticazione.
Creare una pipeline
Endpoint | Metodo HTTP |
---|---|
2.0/pipelines |
POST |
Crea una nuova pipeline di tabelle live Delta.
Esempio
Questo esempio crea una nuova pipeline attivata.
Richiedi
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines \
--data @pipeline-settings.json
pipeline-settings.json
:
{
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false
}
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Response
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5"
}
Struttura della richiesta
Vedere Pipeline Impostazioni.
Struttura della risposta
Nome campo | Tipo | Descrizione |
---|---|---|
pipeline_id | STRING |
Identificatore univoco per la pipeline appena creata. |
Modificare una pipeline
Endpoint | Metodo HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
PUT |
Aggiornamenti le impostazioni per una pipeline esistente.
Esempio
In questo esempio viene aggiunto un target
parametro alla pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Richiedi
curl --netrc -X PUT \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5 \
--data @pipeline-settings.json
pipeline-settings.json
{
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
}
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Struttura della richiesta
Vedere Pipeline Impostazioni.
Eliminare una pipeline
Endpoint | Metodo HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
DELETE |
Elimina una pipeline dal sistema Delta Live Tables.
Esempio
In questo esempio viene eliminata la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Richiedi
curl --netrc -X DELETE \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Avviare un aggiornamento della pipeline
Endpoint | Metodo HTTP |
---|---|
2.0/pipelines/{pipeline_id}/updates |
POST |
Avvia un aggiornamento per una pipeline. È possibile avviare un aggiornamento per l'intero grafico della pipeline o un aggiornamento selettivo di tabelle specifiche.
Esempi
Avviare un aggiornamento completo
Questo esempio avvia un aggiornamento con aggiornamento completo per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Richiedi
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "full_refresh": "true" }'
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Avviare un aggiornamento delle tabelle selezionate
In questo esempio viene avviato un aggiornamento che aggiorna le sales_orders_cleaned
tabelle e sales_order_in_chicago
nella pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Richiedi
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"] }'
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Avviare un aggiornamento completo delle tabelle selezionate
Questo esempio avvia un aggiornamento delle sales_orders_cleaned
tabelle e sales_order_in_chicago
e un aggiornamento con aggiornamento completo delle customers
tabelle e sales_orders_raw
nella pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Richiedi
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates \
--data '{ "refresh_selection": ["sales_orders_cleaned", "sales_order_in_chicago"], "full_refresh_selection": ["customers", "sales_orders_raw"] }'
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Response
{
"update_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8",
"request_id": "a1b23c4d-5e6f-78gh-91i2-3j4k5lm67no8"
}
Struttura della richiesta
Nome campo | Tipo | Descrizione |
---|---|---|
full_refresh |
BOOLEAN |
Se rielaborare tutti i dati. Se true , il sistema Delta Live Tables reimposta tutte le tabelle reimpostabili prima di eseguire la pipeline.Questo campo è facoltativo. Il valore predefinito è false .Viene restituito un errore se full_refesh è true e refresh_selection o full_refresh_selection è impostato. |
refresh_selection |
Matrice di STRING . |
Elenco di tabelle da aggiornare. Utilizzorefresh_selection per avviare un aggiornamento di un set selezionato di tabelle nel grafico della pipeline.Questo campo è facoltativo. Se entrambi refresh_selection Efull_refresh_selection sono vuoti, viene aggiornato l'intero grafico della pipeline.Viene restituito un errore nei casi seguenti: * full_refesh è true eLa classe refresh_selection è stata impostata.* Una o più tabelle specificate non esistono nel grafico della pipeline. |
full_refresh_selection |
Matrice di STRING . |
Elenco di tabelle da aggiornare con l'aggiornamento completo. Utilizzare full_refresh_selection per avviare un aggiornamento di un set selezionato di tabelle. Gli stati delle tabelle specificate vengono reimpostati prima che il sistema Delta Live Tables avvii l'aggiornamento.Questo campo è facoltativo. Se entrambi refresh_selection Efull_refresh_selection sono vuoti, viene aggiornato l'intero grafico della pipeline.Viene restituito un errore nei casi seguenti: * full_refesh è true eLa classe refresh_selection è stata impostata.* Una o più tabelle specificate non esistono nel grafico della pipeline. * Una o più tabelle specificate non sono reimpostabili. |
Struttura della risposta
Nome campo | Tipo | Descrizione |
---|---|---|
update_id |
STRING |
Identificatore univoco dell'aggiornamento appena creato. |
request_id |
STRING |
Identificatore univoco della richiesta che ha avviato l'aggiornamento. |
Ottenere lo stato di una richiesta di aggiornamento della pipeline
Endpoint | Metodo HTTP |
---|---|
2.0/pipelines/{pipeline_id}/requests/{request_id} |
GET |
Ottiene lo stato e le informazioni per l'aggiornamento della pipeline associato a request_id
, dove request_id
è un identificatore univoco per la richiesta che avvia l'aggiornamento della pipeline. Se l'aggiornamento viene ritentato o riavviato, il nuovo aggiornamento eredita il request_id.
Esempio
Per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
, questo esempio restituisce lo stato e le informazioni per l'aggiornamento associato all'ID a83d9f7c-d798-4fd5-aa39-301b6e6f4429
richiesta:
Richiedi
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/requests/a83d9f7c-d798-4fd5-aa39-301b6e6f4429
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Response
{
"status": "TERMINATED",
"latest_update":{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "90da8183-89de-4715-b5a9-c243e67f0093",
"config":{
"id": "aae89b88-e97e-40c4-8e1a-1b7ac76657e8",
"name": "Retail sales (SQL)",
"storage": "/Users/username/data",
"configuration":{
"pipelines.numStreamRetryAttempts": "5"
},
"clusters":[
{
"label": "default",
"autoscale":{
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries":[
{
"notebook":{
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"continuous": false,
"development": true,
"photon": true,
"edition": "advanced",
"channel": "CURRENT"
},
"cause": "API_CALL",
"state": "COMPLETED",
"cluster_id": "1234-567891-abcde123",
"creation_time": 1664304117145,
"full_refresh": false,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Struttura della risposta
Nome campo | Tipo | Descrizione |
---|---|---|
status |
STRING |
Stato della richiesta di aggiornamento della pipeline. Uno di * ACTIVE : un aggiornamento per questa richiesta è in esecuzione attivamente o può essere ritentato in un nuovo aggiornamento.* TERMINATED : la richiesta viene terminata e non verrà ritentata o riavviata. |
pipeline_id |
STRING |
Identificatore univoco della pipeline. |
update_id |
STRING |
Identificatore univoco dell'aggiornamento. |
config |
Pipeline Impostazioni | Impostazioni della pipeline. |
cause |
STRING |
Trigger per l'aggiornamento. Uno di API_CALL ,RETRY_ON_FAILURE , SERVICE_UPGRADE , SCHEMA_CHANGE JOB_TASK USER_ACTION o . |
state |
STRING |
Stato dell'aggiornamento. Uno di QUEUED , CREATED WAITING_FOR_RESOURCES , INITIALIZING , RESETTING SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED FAILED CANCELED o . |
cluster_id |
STRING |
Identificatore del cluster che esegue l'aggiornamento. |
creation_time |
INT64 |
Timestamp di creazione dell'aggiornamento. |
full_refresh |
BOOLEAN |
Indica se l'aggiornamento reimposta tutte le tabelle prima dell'esecuzione |
refresh_selection |
Matrice di STRING . |
Elenco di tabelle da aggiornare senza aggiornamento completo. |
full_refresh_selection |
Matrice di STRING . |
Elenco di tabelle da aggiornare con l'aggiornamento completo. |
request_id |
STRING |
Identificatore univoco della richiesta che ha avviato l'aggiornamento. Questo è il valore restituito dalla richiesta di aggiornamento . Se l'aggiornamento viene ritentato o riavviato, il nuovo aggiornamento eredita il request_id. Tuttavia, sarà update_id diverso. |
Arrestare qualsiasi aggiornamento della pipeline attiva
Endpoint | Metodo HTTP |
---|---|
2.0/pipelines/{pipeline_id}/stop |
POST |
Arresta qualsiasi aggiornamento della pipeline attiva. Se non è in esecuzione alcun aggiornamento, questa richiesta è no-op.
Per una pipeline continua, l'esecuzione della pipeline viene sospesa. Le tabelle attualmente in fase di elaborazione terminano l'aggiornamento, ma le tabelle downstream non vengono aggiornate. Nell'aggiornamento successivo della pipeline, Le tabelle Live Delta eseguono un aggiornamento selezionato di tabelle che non hanno completato l'elaborazione e riprende l'elaborazione del daG della pipeline rimanente.
Per una pipeline attivata, l'esecuzione della pipeline viene arrestata. Le tabelle attualmente in fase di elaborazione terminano l'aggiornamento, ma le tabelle downstream non vengono aggiornate. Nell'aggiornamento successivo della pipeline, le tabelle Live Delta aggiornano tutte le tabelle.
Esempio
Questo esempio arresta un aggiornamento per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Richiedi
curl --netrc -X POST \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/stop
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Elencare gli eventi della pipeline
Endpoint | Metodo HTTP |
---|---|
2.0/pipelines/{pipeline_id}/events |
GET |
Recupera gli eventi per una pipeline.
Esempio
Questo esempio recupera un massimo di 5 eventi per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
.
Richiedi
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/events?max_results=5
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Struttura della richiesta
Nome campo | Tipo | Descrizione |
---|---|---|
page_token |
STRING |
Token di pagina restituito dalla chiamata precedente. Questo campo si escludono a vicenda con tutti i campi della richiesta tranne max_results. Viene restituito un errore se vengono impostati campi diversi da max_results quando questo campo viene impostato. Questo campo è facoltativo. |
max_results |
INT32 |
Numero massimo di voci da restituire in una singola pagina. Il sistema può restituire meno di max_results eventi in una risposta, anche se sono disponibili più eventi.Questo campo è facoltativo. Il valore predefinito è 25. Il valore massimo è 100. Viene restituito un errore se il valore di max_results è maggiore di 100. |
order_by |
STRING |
Stringa che indica un ordinamento in base al timestamp per i risultati, ["timestamp asc"] ad esempio .L'ordinamento può essere crescente o decrescente. Per impostazione predefinita, gli eventi vengono restituiti in ordine decrescente in base al timestamp. Questo campo è facoltativo. |
filter |
STRING |
Criteri per selezionare un subset di risultati, espresso usando una sintassi simile a SQL. I filtri supportati sono: * level='INFO' (oppure WARN o ERROR )* level in ('INFO', 'WARN') * id='[event-id]' * timestamp > 'TIMESTAMP' (o >= ,< ,<= ,= )Le espressioni composite sono supportate, ad esempio: level in ('ERROR', 'WARN') AND timestamp> '2021-07-22T06:37:33.083Z' Questo campo è facoltativo. |
Struttura della risposta
Nome campo | Tipo | Descrizione |
---|---|---|
events |
Matrice di eventi della pipeline. | Elenco di eventi che corrispondono ai criteri di richiesta. |
next_page_token |
STRING |
Se presente, un token per recuperare la pagina successiva di eventi. |
prev_page_token |
STRING |
Se presente, un token per recuperare la pagina precedente di eventi. |
Ottieni dettagli pipeline
Endpoint | Metodo HTTP |
---|---|
2.0/pipelines/{pipeline_id} |
GET |
Ottiene informazioni dettagliate su una pipeline, incluse le impostazioni della pipeline e gli aggiornamenti recenti.
Esempio
Questo esempio ottiene i dettagli per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Richiedi
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Response
{
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"spec": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false
},
"state": "IDLE",
"cluster_id": "1234-567891-abcde123",
"name": "Wikipedia pipeline (SQL)",
"creator_user_name": "username",
"latest_updates": [
{
"update_id": "8a0b6d02-fbd0-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:37:30.279Z"
},
{
"update_id": "a72c08ba-fbd0-11eb-9a03-0242ac130003",
"state": "CANCELED",
"creation_time": "2021-08-13T00:35:51.902Z"
},
{
"update_id": "ac37d924-fbd0-11eb-9a03-0242ac130003",
"state": "FAILED",
"creation_time": "2021-08-13T00:33:38.565Z"
}
],
"run_as_user_name": "username"
}
Struttura della risposta
Nome campo | Tipo | Descrizione |
---|---|---|
pipeline_id |
STRING |
Identificatore univoco della pipeline. |
spec |
Pipeline Impostazioni | Impostazioni della pipeline. |
state |
STRING |
Stato della pipeline. Uno di IDLE o RUNNING .Se state = RUNNING , è presente almeno un aggiornamento attivo. |
cluster_id |
STRING |
Identificatore del cluster che esegue la pipeline. |
name |
STRING |
Nome descrittivo per questa pipeline. |
creator_user_name |
STRING |
Nome utente dell'autore della pipeline. |
latest_updates |
Matrice di UpdateStateInfo | Stato degli aggiornamenti più recenti per la pipeline, ordinati prima con l'aggiornamento più recente. |
run_as_user_name |
STRING |
Nome utente eseguito dalla pipeline. |
Ottenere i dettagli dell'aggiornamento
Endpoint | Metodo HTTP |
---|---|
2.0/pipelines/{pipeline_id}/updates/{update_id} |
GET |
Ottiene i dettagli per un aggiornamento della pipeline.
Esempio
Questo esempio ottiene i dettagli per l'aggiornamento 9a84f906-fc51-11eb-9a03-0242ac130003
per la pipeline con ID a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5
:
Richiedi
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines/a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5/updates/9a84f906-fc51-11eb-9a03-0242ac130003
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Response
{
"update": {
"pipeline_id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"update_id": "9a84f906-fc51-11eb-9a03-0242ac130003",
"config": {
"id": "a12cd3e4-0ab1-1abc-1a2b-1a2bcd3e4fg5",
"name": "Wikipedia pipeline (SQL)",
"storage": "/Users/username/data",
"configuration": {
"pipelines.numStreamRetryAttempts": "5"
},
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
}
],
"libraries": [
{
"notebook": {
"path": "/Users/username/DLT Notebooks/Delta Live Tables quickstart (SQL)"
}
}
],
"target": "wikipedia_quickstart_data",
"continuous": false,
"development": false
},
"cause": "API_CALL",
"state": "COMPLETED",
"creation_time": 1628815050279,
"full_refresh": true,
"request_id": "a83d9f7c-d798-4fd5-aa39-301b6e6f4429"
}
}
Struttura della risposta
Nome campo | Tipo | Descrizione |
---|---|---|
pipeline_id |
STRING |
Identificatore univoco della pipeline. |
update_id |
STRING |
Identificatore univoco di questo aggiornamento. |
config |
Pipeline Impostazioni | Impostazioni della pipeline. |
cause |
STRING |
Trigger per l'aggiornamento. Uno di API_CALL ,RETRY_ON_FAILURE , SERVICE_UPGRADE . |
state |
STRING |
Stato dell'aggiornamento. Uno di QUEUED , CREATED WAITING_FOR_RESOURCES , INITIALIZING , RESETTING SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED FAILED CANCELED o . |
cluster_id |
STRING |
Identificatore del cluster che esegue la pipeline. |
creation_time |
INT64 |
Timestamp di creazione dell'aggiornamento. |
full_refresh |
BOOLEAN |
Indica se si tratta di un aggiornamento completo. Se true, tutte le tabelle della pipeline sono state reimpostate prima di eseguire l'aggiornamento. |
Elenco delle pipeline
Endpoint | Metodo HTTP |
---|---|
2.0/pipelines/ |
GET |
Elenca le pipeline definite nel sistema Delta Live Tables.
Esempio
In questo esempio vengono recuperati i dettagli per le pipeline in cui il nome contiene quickstart
:
Richiedi
curl --netrc -X GET \
https://<databricks-instance>/api/2.0/pipelines?filter=name%20LIKE%20%27%25quickstart%25%27
Replace:
<databricks-instance>
con il nome dell'istanza dell'area di lavoro di Azure Databricks, ad esempioadb-1234567890123456.7.azuredatabricks.net
.
In questo esempio viene usato un file .netrc .
Response
{
"statuses": [
{
"pipeline_id": "e0f01758-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "DLT quickstart (Python)",
"latest_updates": [
{
"update_id": "ee9ae73e-fc61-11eb-9a03-0242ac130003",
"state": "COMPLETED",
"creation_time": "2021-08-13T00:34:21.871Z"
}
],
"creator_user_name": "username"
},
{
"pipeline_id": "f4c82f5e-fc61-11eb-9a03-0242ac130003",
"state": "IDLE",
"name": "My DLT quickstart example",
"creator_user_name": "username"
}
],
"next_page_token": "eyJ...==",
"prev_page_token": "eyJ..x9"
}
Struttura della richiesta
Nome campo | Tipo | Descrizione |
---|---|---|
page_token |
STRING |
Token di pagina restituito dalla chiamata precedente. Questo campo è facoltativo. |
max_results |
INT32 |
Numero massimo di voci da restituire in una singola pagina. Il sistema può restituire meno di max_results eventi in una risposta, anche se sono disponibili più eventi.Questo campo è facoltativo. Il valore predefinito è 25. Il valore massimo è 100. Viene restituito un errore se il valore di max_results è maggiore di 100. |
order_by |
Matrice di STRING . |
Elenco di stringhe che specificano l'ordine dei risultati, ad esempio["name asc"] . I campi supportati order_by sono id ename . Il valore predefinito è id asc .Questo campo è facoltativo. |
filter |
STRING |
Selezionare un subset di risultati in base ai criteri specificati. I filtri supportati sono: "notebook='<path>'" per selezionare le pipeline che fanno riferimento al percorso del notebook specificato.name LIKE '[pattern]' per selezionare le pipeline con un nome corrispondente a pattern . I caratteri jolly sono supportati, ad esempio:name LIKE '%shopping%' I filtri compositi non sono supportati. Questo campo è facoltativo. |
Struttura della risposta
Nome campo | Tipo | Descrizione |
---|---|---|
statuses |
Matrice di PipelineStateInfo | Elenco di eventi che corrispondono ai criteri di richiesta. |
next_page_token |
STRING |
Se presente, un token per recuperare la pagina successiva di eventi. |
prev_page_token |
STRING |
Se presente, un token per recuperare la pagina precedente di eventi. |
Strutture dei dati
Contenuto della sezione:
- ABFSS Archiviazione Info
- ClusterLogConf
- Dbfs Archiviazione Info
- File Archiviazione Info
- InitScriptInfo
- KeyValue
- NotebookLibrary
- PipelinesAutoScale
- PipelineLibrary
- PipelinesNewCluster
- Pipeline Impostazioni
- PipelineStateInfo
- UpdateStateInfo
- Area di lavoro Archiviazione Info
ABFSS Archiviazione Info
Informazioni sull'archiviazione di Azure Data Lake Archiviazione (ADLS).
Nome campo | Tipo | Descrizione |
---|---|---|
destination |
STRING |
Destinazione file. Esempio: abfss://... |
ClusterLogConf
Percorso del log del cluster.
Nome campo | Tipo | Descrizione |
---|---|---|
dbfs |
Dbfs Archiviazione Info | Percorso DBFS del log del cluster. È necessario specificare la destinazione. ad esempio:{ "dbfs" : { "destination" : "dbfs:/home/cluster_log" } } |
Dbfs Archiviazione Info
Informazioni sull'archiviazione DBFS.
Nome campo | Tipo | Descrizione |
---|---|---|
destination |
STRING |
Destinazione DBFS. Esempio: dbfs:/my/path |
File Archiviazione Info
Informazioni sull'archiviazione file.
Nota
Questo tipo di percorso è disponibile solo per i cluster configurati usando Databricks Container Services.
Nome campo | Tipo | Descrizione |
---|---|---|
destination |
STRING |
Destinazione file. Esempio: file:/my/file.sh |
InitScriptInfo
Percorso di uno script init.
Per istruzioni sull'uso di script init con Databricks Container Services, vedere Usare uno script init.
Nota
Il tipo di archiviazione file (nome campo: file
) è disponibile solo per i cluster configurati tramite Databricks Container Services. Vedere File Archiviazione Info.
Nome campo | Tipo | Descrizione |
---|---|---|
workspace Odbfs (deprecato)OPPURE abfss |
Area di lavoro Archiviazione Info Dbfs Archiviazione Info (deprecato) ABFSS Archiviazione Info |
Posizione dell'area di lavoro dello script init. È necessario specificare la destinazione. ad esempio:{ "workspace" : { "destination" : "/Users/someone@domain.com/init_script.sh" } } (Deprecato) Percorso DBFS dello script init. È necessario specificare la destinazione. ad esempio: { "dbfs" : { "destination" : "dbfs:/home/init_script" } } Percorso di azure Data Lake Archiviazione (ADLS) dello script init. È necessario specificare la destinazione. Ad esempio, { "abfss": { "destination" : "abfss://..." } } |
KeyValue
Coppia chiave-valore che specifica i parametri di configurazione.
Nome campo | Tipo | Descrizione |
---|---|---|
key |
STRING |
Nome della proprietà di configurazione. |
value |
STRING |
Valore della proprietà di configurazione. |
NotebookLibrary
Specifica per un notebook contenente il codice della pipeline.
Nome campo | Tipo | Descrizione |
---|---|---|
path |
STRING |
Percorso assoluto del notebook. Campo obbligatorio. |
PipelinesAutoScale
Attributi che definiscono un cluster di scalabilità automatica.
Nome campo | Tipo | Descrizione |
---|---|---|
min_workers |
INT32 |
Numero minimo di ruoli di lavoro a cui il cluster può ridurre le prestazioni quando è sottoutilizzato. È anche il numero iniziale di ruoli di lavoro che il cluster avrà dopo la creazione. |
max_workers |
INT32 |
Numero massimo di ruoli di lavoro a cui il cluster può aumentare le prestazioni durante l'overload. max_workers deve essere strettamente maggiore di min_workers. |
mode |
STRING |
Modalità di scalabilità automatica per il cluster: * ENHANCED per usare la scalabilità automatica avanzata.* LEGACY per usare la funzionalità di scalabilità automatica del cluster. |
PipelineLibrary
Specifica per le dipendenze della pipeline.
Nome campo | Tipo | Descrizione |
---|---|---|
notebook |
NotebookLibrary | Percorso di un notebook che definisce set di dati delta live tables. Il percorso deve trovarsi nell'area di lavoro di Databricks, ad esempio:{ "notebook" : { "path" : "/my-pipeline-notebook-path" } } . |
PipelinesNewCluster
Specifica di un cluster della pipeline.
Il sistema Delta Live Tables imposta gli attributi seguenti. Questi attributi non possono essere configurati dagli utenti:
spark_version
Nome campo | Tipo | Descrizione |
---|---|---|
label |
STRING |
Etichetta per la specifica del cluster,default per configurare il cluster predefinito omaintenance per configurare il cluster di manutenzione.Questo campo è facoltativo. Il valore predefinito è default . |
spark_conf |
KeyValue | Oggetto contenente un set di coppie chiave-valore di configurazione Spark specificate dall'utente facoltative. È anche possibile passare una stringa di opzioni JVM aggiuntive al driver e agli executor tramitespark.driver.extraJavaOptions e spark.executor.extraJavaOptions rispettivamente.File confs Spark di esempio: {"spark.speculation": true, "spark.streaming.ui.retainedBatches": 5} oppure{"spark.driver.extraJavaOptions": "-verbose:gc -XX:+PrintGCDetails"} |
node_type_id |
STRING |
Questo campo codifica, con un solo valore, le risorse disponibili in ognuno dei nodi Spark del cluster. Ad esempio, è possibile effettuare il provisioning e ottimizzare i nodi Spark per carichi di lavoro a elevato utilizzo di memoria o calcolo. È possibile recuperare un elenco di tipi di nodo disponibili usando la chiamata API Clusters. |
driver_node_type_id |
STRING |
Tipo di nodo del driver Spark. Questo campo è facoltativo; se non è impostato, il tipo di nodo del driver verrà impostato sullo stesso valore node_type_id definito in precedenza. |
ssh_public_keys |
Matrice di STRING . |
Contenuto della chiave pubblica SSH che verrà aggiunto a ogni nodo Spark in questo cluster. Le chiavi private corrispondenti possono essere usate per accedere con il nome ubuntu utente sulla porta 2200 . È possibile specificare fino a 10 chiavi. |
custom_tags |
KeyValue | Oggetto contenente un set di tag per le risorse del cluster. Databricks contrassegna tutte le risorse del cluster con questi tag oltre a default_tags. Nota: * I tag non sono supportati nei tipi di nodo legacy, ad esempio ottimizzati per il calcolo e ottimizzati per la memoria * Azure Databricks consente al massimo 45 tag personalizzati. |
cluster_log_conf |
ClusterLogConf | Configurazione per il recapito dei log spark a una destinazione di archiviazione a lungo termine. È possibile specificare una sola destinazione per un cluster. Se viene specificata questa configurazione, i log verranno recapitati alla destinazione ogni5 mins . La destinazione dei log del driver è <destination>/<cluster-ID>/driver , mentre la destinazione dei log dell'executor è <destination>/<cluster-ID>/executor . |
spark_env_vars |
KeyValue | Oggetto contenente un set di coppie chiave-valore della variabile di ambiente specificate dall'utente facoltative. Le coppie chiave-valore del modulo (X,Y) vengono esportate così come sono (ovvero,export X='Y' ) durante l'avvio del conducente e dei lavoratori.Per specificare un set aggiuntivo di SPARK_DAEMON_JAVA_OPTS , Databricks consiglia di aggiungerli a $SPARK_DAEMON_JAVA_OPTS come illustrato nell'esempio seguente. In questo modo vengono incluse anche tutte le variabili di ambiente gestite di Azure Databricks predefinite.Variabili di ambiente Spark di esempio: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} oppure{"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
init_scripts |
Matrice di InitScriptInfo | Configurazione per l'archiviazione di script init. È possibile specificare un numero qualsiasi di destinazioni. Gli script vengono eseguiti in sequenza nell'ordine specificato. Se cluster_log_conf viene specificato, i log di script init vengono inviati a<destination>/<cluster-ID>/init_scripts . |
instance_pool_id |
STRING |
ID facoltativo del pool di istanze a cui appartiene il cluster. Vedere Informazioni di riferimento sulla configurazione del pool. |
driver_instance_pool_id |
STRING |
ID facoltativo del pool di istanze da usare per il nodo driver. È inoltre necessario specificareinstance_pool_id . Vedere API pool di istanze. |
policy_id |
STRING |
ID dei criteri del cluster. |
num_workers OR autoscale |
INT32 OR InitScriptInfo |
Se num_workers, numero di nodi di lavoro che il cluster deve avere. Un cluster ha un driver Spark e num_workers executor per un totale di num_workers + 1 nodi Spark. Quando si leggono le proprietà di un cluster, questo campo riflette il numero desiderato di ruoli di lavoro anziché il numero effettivo di ruoli di lavoro. Ad esempio, se un cluster viene ridimensionato da 5 a 10 ruoli di lavoro, questo campo viene aggiornato in modo da riflettere le dimensioni di destinazione di 10 ruoli di lavoro, mentre i ruoli di lavoro elencati negli executor aumentano gradualmente da 5 a 10 man mano che viene effettuato il provisioning dei nuovi nodi. Se la scalabilità automatica, i parametri necessari per ridimensionare automaticamente i cluster in base al carico. Questo campo è facoltativo. |
apply_policy_default_values |
BOOLEAN |
Indica se usare i valori predefiniti dei criteri per gli attributi del cluster mancanti. |
Pipeline Impostazioni
Impostazioni per una distribuzione della pipeline.
Nome campo | Tipo | Descrizione |
---|---|---|
id |
STRING |
Identificatore univoco per questa pipeline. L'identificatore viene creato dal sistema Delta Live Tables e non deve essere fornito durante la creazione di una pipeline. |
name |
STRING |
Nome descrittivo per questa pipeline. Questo campo è facoltativo. Per impostazione predefinita, il nome della pipeline deve essere univoco. Per usare un nome duplicato, impostare su allow_duplicate_names true nella configurazione della pipeline. |
storage |
STRING |
Percorso di una directory DBFS per l'archiviazione di checkpoint e tabelle create dalla pipeline. Questo campo è facoltativo. Il sistema usa un percorso predefinito se questo campo è vuoto. |
configuration |
Mappa di STRING:STRING |
Elenco di coppie chiave-valore da aggiungere alla configurazione Spark del cluster che eseguirà la pipeline. Questo campo è facoltativo. Gli elementi devono essere formattati come coppie key:value. |
clusters |
Matrice di PipelinesNewCluster | Matrice di specifiche per i cluster per l'esecuzione della pipeline. Questo campo è facoltativo. Se non viene specificato, il sistema selezionerà una configurazione cluster predefinita per la pipeline. |
libraries |
Matrice di PipelineLibrary | I notebook contenenti il codice della pipeline ed eventuali dipendenze necessarie per eseguire la pipeline. |
target |
STRING |
Nome del database per rendere persistenti i dati di output della pipeline. Per altre informazioni, vedere Pubblicare dati da tabelle live Delta nel metastore Hive. |
continuous |
BOOLEAN |
Indica se si tratta di una pipeline continua. Questo campo è facoltativo. Il valore predefinito è false . |
development |
BOOLEAN |
Indica se eseguire la pipeline in modalità di sviluppo. Questo campo è facoltativo. Il valore predefinito è false . |
photon |
BOOLEAN |
Indica se l'accelerazione Photon è abilitata per questa pipeline. Questo campo è facoltativo. Il valore predefinito è false . |
channel |
STRING |
Canale di rilascio Delta Live Tables che specifica la versione di runtime da usare per questa pipeline. I valori supportati sono: * preview per testare la pipeline con le modifiche imminenti apportate al runtime di Tabelle live Delta.* current per usare la versione corrente del runtime di Tabelle live Delta.Questo campo è facoltativo. Il valore predefinito è current . |
edition |
STRING |
Edizione del prodotto Delta Live Tables per eseguire la pipeline: * CORE supporta i carichi di lavoro di inserimento in streaming.* PRO supporta anche i carichi di lavoro di inserimento in streaming e aggiunge il supporto per l'elaborazione di Change Data Capture (CDC).* ADVANCED supporta tutte le funzionalità dell'edizione PRO e aggiunge il supporto per i carichi di lavoro che richiedono aspettative di tabelle live Delta per applicare vincoli di qualità dei dati.Questo campo è facoltativo. Il valore predefinito è advanced . |
PipelineStateInfo
Stato di una pipeline, stato degli aggiornamenti più recenti e informazioni sulle risorse associate.
Nome campo | Tipo | Descrizione |
---|---|---|
state |
STRING |
Stato della pipeline. Uno di IDLE o RUNNING . |
pipeline_id |
STRING |
Identificatore univoco della pipeline. |
cluster_id |
STRING |
Identificatore univoco del cluster che esegue la pipeline. |
name |
STRING |
Nome descrittivo della pipeline. |
latest_updates |
Matrice di UpdateStateInfo | Stato degli aggiornamenti più recenti per la pipeline, ordinati prima con l'aggiornamento più recente. |
creator_user_name |
STRING |
Nome utente dell'autore della pipeline. |
run_as_user_name |
STRING |
Nome utente eseguito dalla pipeline. Si tratta di un valore di sola lettura derivato dal proprietario della pipeline. |
UpdateStateInfo
Stato corrente di un aggiornamento della pipeline.
Nome campo | Tipo | Descrizione |
---|---|---|
update_id |
STRING |
Identificatore univoco per questo aggiornamento. |
state |
STRING |
Stato dell'aggiornamento. Uno di QUEUED , CREATED ,WAITING_FOR_RESOURCES , INITIALIZING , RESETTING SETTING_UP_TABLES , RUNNING , STOPPING , COMPLETED FAILED CANCELED o . |
creation_time |
STRING |
Timestamp al momento della creazione dell'aggiornamento. |
Area di lavoro Archiviazione Info
Informazioni sull'archiviazione dell'area di lavoro.
Nome campo | Tipo | Descrizione |
---|---|---|
destination |
STRING |
Destinazione file. Esempio: /Users/someone@domain.com/init_script.sh |
Commenti e suggerimenti
https://aka.ms/ContentUserFeedback.
Presto disponibile: Nel corso del 2024 verranno gradualmente disattivati i problemi di GitHub come meccanismo di feedback per il contenuto e ciò verrà sostituito con un nuovo sistema di feedback. Per altre informazioni, vedereInvia e visualizza il feedback per