Azure Databricks
Azure Databricks offre una piattaforma unificata per la gestione, la governance e l'analisi dei dati scalabili, combinando flussi di lavoro semplificati con la possibilità di gestire in modo efficiente diversi tipi di dati
Questo connettore è disponibile nei prodotti e nelle aree seguenti:
| Servizio | Class | Regions |
|---|---|---|
| Copilot Studio | Di alta qualità | Tutte le aree di Power Automate , ad eccezione delle seguenti: - Governo degli Stati Uniti (GCC) - Us Government (GCC High) - China Cloud gestito da 21Vianet - Dipartimento della Difesa degli Stati Uniti (DoD) |
| Power Apps | Di alta qualità | Tutte le aree di Power Apps , ad eccezione dei seguenti: - Governo degli Stati Uniti (GCC) - Us Government (GCC High) - China Cloud gestito da 21Vianet - Dipartimento della Difesa degli Stati Uniti (DoD) |
| Power Automate | Di alta qualità | Tutte le aree di Power Automate , ad eccezione delle seguenti: - Governo degli Stati Uniti (GCC) - Us Government (GCC High) - China Cloud gestito da 21Vianet - Dipartimento della Difesa degli Stati Uniti (DoD) |
| Contatto | |
|---|---|
| Nome | Supporto di Databricks |
| URL | https://help.databricks.com |
| eng-partner-eco-help@databricks.com |
| Metadati del connettore | |
|---|---|
| Editore | Databricks Inc. |
| Sito web | https://www.databricks.com/ |
| Informativa sulla privacy | https://www.databricks.com/legal/privacynotice |
| Categorie | Data |
Connettersi ad Azure Databricks utilizzando Microsoft Power Platform
Questa pagina illustra come connettersi ad Azure Databricks da Microsoft Power Platform aggiungendo Azure Databricks come connessione dati. Quando si è connessi, è possibile usare i dati di Azure Databricks dalle piattaforme seguenti:
- Power Apps: consente di compilare applicazioni che possono leggere e scrivere in Azure Databricks, mantenendo al tempo stesso i controlli di governance di Azure Databricks.
- Power Automate: consente di compilare flussi e aggiungere azioni che consentono di eseguire SQL personalizzato o un processo esistente e ottenere i risultati.
- Copilot Studio: creare agenti personalizzati usando i dati di Azure Databricks come origine delle informazioni.
Prima di iniziare
Prima di connettersi ad Azure Databricks da Power Platform, è necessario soddisfare i requisiti seguenti:
- Si dispone di un account Microsoft Entra ID (in precedenza Azure Active Directory).
- Si dispone di una licenza premium di Power Apps.
- Si dispone di un account Azure Databricks.
- È possibile accedere a un'istanza di SQL Warehouse in Azure Databricks.
Facoltativo: connettersi con reti virtuali di Azure
Se l'area di lavoro di Azure Databricks usa reti virtuali, è possibile connettersi in due modi:
Integrare Power Platform con le risorse all'interno della rete virtuale senza esporle tramite la rete Internet pubblica. Per connettersi all'endpoint privato dell'area di lavoro di Azure Databricks, eseguire le operazioni seguenti dopo aver configurato la connettività privata ad Azure Databricks:
Se la rete virtuale power platform (primaria o secondaria) è diversa dalla rete virtuale di Azure Databricks, usare il peering di rete virtuale per connettere la rete virtuale con Azure Databricks.
Per altre informazioni sulle reti virtuali, vedere Panoramica del supporto della rete virtuale.
Abilita l'accesso tramite distribuzione ibrida, in cui un collegamento privato di front-end con un endpoint pubblico è protetto tramite un elenco di accesso IP dell'area di lavoro. Per abilitare l'accesso, eseguire le operazioni seguenti:
- Abilitare l'accesso pubblico a livello di area di lavoro. Per altre informazioni, vedere Configurare gli elenchi di accesso IP per le aree di lavoro.
- Aggiungere l'intervallo IP azureConnectors o un intervallo IP specifico di Power Platform in base all'area dell'ambiente all'elenco di accesso IP dell'area di lavoro.
Facoltativo: creare un'entità servizio Microsoft Entra
Important
Se Azure Databricks e Power Platform si trovano in tenant diversi, è necessario usare le entità servizio per l'autenticazione.
Prima di connettersi, completare i passaggi seguenti per creare, configurare e assegnare un principale del servizio di Microsoft Entra all'area di lavoro o all'account di Azure Databricks.
- Registrare una nuova entità servizio in Microsoft Entra ID.
- Aggiungere entità servizio all'account.
- Assegnare un principale del servizio a un'area di lavoro.
Passaggio 1: Aggiungere una connessione di Azure Databricks a Power Platform
Nota: Se si usa Copilot Studio, è consigliabile creare la connessione Databricks in Power Apps o Power Automate. Può quindi essere usato in Copilot Studio.
Per aggiungere una connessione di Azure Databricks, seguire questa procedura:
Nella barra laterale di Power Apps o Power Automate fare clic su Connessioni.
Fare clic su + Nuova connessione nell'angolo superiore sinistro.
Cercare "Azure Databricks" usando la barra di ricerca in alto a destra.
Selezionare il riquadro Azure Databricks .
Selezionare il tipo di autenticazione dal menu a discesa.
Selezionare il metodo di autenticazione e immettere le informazioni di autenticazione.
Se la distribuzione di Power Platform e l'account Azure Databricks si trovano nello stesso tenant di Microsoft Entra, è possibile usare la connessione OAuth. Immettere le informazioni seguenti:
- Per Nome host del server, inserire il nome host del magazzino SQL di Azure Databricks.
- Per Percorso HTTP immettere il percorso HTTP di SQL Warehouse.
- Clicca su Crea.
- Accedere con l'ID Microsoft Entra.
La connessione all'entità servizio può essere usata in qualsiasi scenario. Prima di connettersi, creare un principale del servizio Microsoft Entra. Immettere le informazioni seguenti:
- Per ID client immettere l'ID principale del servizio.
- Per Segreto del client, immettere il segreto del principale del servizio.
- In Tenant inserisci il tenant del principale del servizio.
- Per Hostname, immettere il nome host di Azure Databricks SQL Warehouse.
- Per Percorso HTTP immettere il percorso HTTP di SQL Warehouse.
- (Opzionale) È possibile rinominare o condividere la connessione del principale di servizio con i membri del team una volta creata la connessione.
Per trovare i dettagli della connessione di Azure Databricks SQL Warehouse, vedere Ottenere i dettagli della connessione per una risorsa di calcolo di Azure Databricks.
Clicca su Crea.
Passaggio 2: Usare la connessione di Azure Databricks
Dopo aver creato una connessione di Azure Databricks in Power Apps o Power Automate, è possibile usare i dati di Azure Databricks per creare app canvas di Power, flussi di Power Automate e agenti di Copilot Studio.
Usare i dati di Azure Databricks per creare app canvas di Power
Important
È possibile usare le app canvas solo se ci si connette direttamente ad Azure Databricks nell'app. Non è possibile usare tabelle virtuali.
Per aggiungere i dati di Azure Databricks all'applicazione, seguire questa procedura:
- Nella barra di spostamento più a sinistra fare clic su Crea.
- Fare clic su Inizia con un'area di disegno vuota e selezionare le dimensioni dell'area di disegno desiderate per creare una nuova app canvas.
- Nell'applicazione fare clic su Aggiungiconnettori>dati> diAzure Databricks. Selezionare la connessione di Azure Databricks creata.
- Selezionare un catalogo dalla barra laterale Scegliere un set di dati .
- Nella barra laterale Scegliere un set di dati selezionare tutte le tabelle a cui connettere l'app canvas.
- Fare clic su Connetti.
Operazioni dei dati in Power Apps:
Il connettore supporta operazioni di creazione, aggiornamento ed eliminazione, ma solo per le tabelle con una chiave primaria definita. Quando si eseguono operazioni di creazione, è necessario specificare sempre la chiave primaria.
Nota: Azure Databricks supporta colonne Identity generate. In questo caso, i valori della chiave primaria vengono generati automaticamente nel server durante la creazione di righe e non possono essere specificati manualmente.
Usare i dati di Azure Databricks per creare flussi di Power Automate
L'API di esecuzione delle istruzioni e l'API Processi vengono esposte all'interno di Power Automate, consentendo di scrivere istruzioni SQL ed eseguire processi esistenti. Per creare un flusso di Power Automate usando Azure Databricks come azione, eseguire le operazioni seguenti:
- Nella barra di spostamento più a sinistra fare clic su Crea.
- Creare un flusso e aggiungere qualsiasi tipo di trigger.
- Dal nuovo flusso fare clic + e cercare "Databricks" per visualizzare le azioni disponibili.
Per scrivere SQL, selezionare una delle azioni seguenti:
Eseguire un'istruzione SQL: scrivere ed eseguire un'istruzione SQL. Immetti gli elementi seguenti:
- Per Corpo/warehouse_id, inserire l'ID del magazzino in cui eseguire l'istruzione SQL.
- Per Corpo/statement_id immettere l'ID dell'istruzione SQL da eseguire.
- Per altre informazioni sui parametri avanzati, vedere qui.
Controllare lo stato e ottenere i risultati: controllare lo stato di un'istruzione SQL e raccogliere i risultati. Immetti gli elementi seguenti:
- Per ID dichiarazione, immettere l'ID restituito quando è stata eseguita l'istruzione SQL.
- Per altre informazioni sul parametro, vedere qui.
Annullare l'esecuzione di un'istruzione: termina l'esecuzione di un'istruzione SQL. Immetti gli elementi seguenti:
- Per ID dell'istruzione, immettere l'ID dell'istruzione SQL da interrompere.
- Per altre informazioni sul parametro, vedere qui.
Ottenere il risultato in base all'indice del blocco: ottenere i risultati per indice di blocco, adatto per set di risultati di grandi dimensioni. Immetti gli elementi seguenti:
- Per ID istruzione immettere l'ID dell'istruzione SQL di cui desideri recuperare i risultati.
- Per Indice blocchi immettere l'indice del blocco di destinazione.
- Per altre informazioni sui parametri, vedere qui.
Per interagire con un processo databricks esistente, selezionare una delle azioni seguenti:
- Elenca processi: recupera un elenco di processi. Per altre informazioni, vedere qui.
- Attivare una nuova esecuzione del processo: esegue un processo e restituisce il run_id dell'esecuzione attivata. Per altre informazioni, vedere qui.
- Ottenere un'esecuzione di un singolo processo: restituisce i metadati relativi a un'esecuzione, inclusi lo stato di esecuzione (ad esempio RUNNING, SUCCESS, FAILED), l'ora di inizio e di fine, la durata dell'esecuzione, le informazioni sul cluster e così via. Per altre informazioni, vedere qui.
- Annullare un'esecuzione del processo: annulla l'esecuzione di un processo o un'esecuzione di un'attività. Per ulteriori informazioni, vedi qui.
- Ottenere l'output per un'esecuzione di un singolo processo: recupera l'output e i metadati di una singola esecuzione di un'attività. Per ulteriori informazioni, vedi qui.
Usare Azure Databricks come origine delle conoscenze in Copilot Studio
Per aggiungere i dati di Azure Databricks come origine delle informazioni a un agente di Copilot Studio, seguire questa procedura:
- Nella barra laterale fare clic su Agente.
- Selezionare un agente esistente o creare un nuovo agente facendo clic su + Nuovo agente.
- Descrivere l'agente immettendo un messaggio e quindi fare clic su Crea.
- In alternativa, fare clic su Ignora per specificare manualmente le informazioni dell'agente.
- Nella scheda Knowledge fare clic su + Knowledge.
- Fare clic su Avanzate.
- Selezionare Azure Databricks come origine delle informazioni.
- Immettere il nome del catalogo in cui si trovano i dati.
- Fare clic su Connetti.
- Selezionare le tabelle che si vuole che l'agente usi come fonte di conoscenza e fare clic su Aggiungi.
Creare tabelle virtuali di Dataverse con i dati di Azure Databricks
È anche possibile creare tabelle virtuali di Dataverse con il connettore Azure Databricks. Le tabelle virtuali, note anche come entità virtuali, integrano i dati di sistemi esterni con Microsoft Dataverse. Una tabella virtuale definisce una tabella in Dataverse senza archiviare la tabella fisica nel database Dataverse. Per altre informazioni sulle tabelle virtuali, vedere Introduzione alle tabelle virtuali (entità).
Nota
Anche se le tabelle virtuali non utilizzano la capacità di archiviazione di Dataverse, Databricks consiglia di usare connessioni dirette per ottenere prestazioni migliori.
È necessario avere il ruolo Di personalizzazione del sistema o Amministratore di sistema. Per altre informazioni, vedere Ruoli di sicurezza per Power Platform.
Seguire questa procedura per creare una tabella virtuale Dataverse:
Nella barra laterale di Power Apps fare clic su Tabelle.
Fare clic su + Nuova tabella dalla barra dei menu e selezionare Crea una tabella virtuale.
Selezionare una connessione di Azure Databricks esistente o creare una nuova connessione ad Azure Databricks. Per aggiungere una nuova connessione, vedere Passaggio 1: Aggiungere una connessione di Azure Databricks a Power Platform.
Databricks consiglia di usare una connessione entità servizio per creare una tabella virtuale.
Fare clic su Avanti.
Selezionare le tabelle da rappresentare come tabella virtuale Dataverse.
- Le tabelle virtuali di Dataverse richiedono una chiave primaria. Di conseguenza, le viste non possono essere tabelle virtuali, ma le viste materializzate possono.
Fare clic su Avanti.
Configurare la tabella virtuale aggiornando i dettagli della tabella, se necessario.
Fare clic su Avanti.
Confermare i dettagli dell'origine dati e fare clic su Fine.
Usare la tabella virtuale Dataverse in Power Apps, Power Automate e Copilot Studio.
Per un elenco delle limitazioni note delle tabelle virtuali di Dataverse, vedere Limitazioni note e risoluzione dei problemi.
Eseguire gli aggiornamenti batch
Se è necessario eseguire operazioni di creazione, aggiornamento o eliminazione in blocco in risposta agli input di Power Apps, Databricks consiglia di implementare un flusso di Power Automate. A tale scopo, effettuare le seguenti operazioni:
Creare un'app canvas usando la connessione di Azure Databricks in Power Apps.
Creare un flusso di Power Automate usando la connessione di Azure Databricks e usare Power Apps come trigger.
Nel trigger di Power Automate aggiungere i campi di input da passare da Power Apps a Power Automate.
Creare un oggetto raccolta all'interno di Power Apps per raccogliere tutte le modifiche.
Aggiungi il flusso di Power Automate alla tua app Canvas.
Chiamare il flusso di Power Automate dalla tua app per canvas e iterare sulla raccolta utilizzando il comando
ForAll.ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
Scritture simultanee
La concorrenza a livello di riga riduce i conflitti tra le operazioni di scrittura simultanee rilevando le modifiche a livello di riga e risolvendo automaticamente i conflitti che si verificano quando si scrive simultaneamente l'aggiornamento o si eliminano righe diverse nello stesso file di dati.
La concorrenza a livello di riga è inclusa in Databricks Runtime 14.2 o versione successiva. La concorrenza a livello di riga è supportata per impostazione predefinita per i tipi di tabelle seguenti:
- Tabelle con vettori di eliminazione abilitati e senza partizionamento
- Tabelle con raggruppamento liquido, a meno che i vettori di eliminazione non siano disattivati
Per abilitare i vettori di eliminazione, eseguire il comando SQL seguente:
ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);
Per altre informazioni sui conflitti di scrittura simultanei in Azure Databricks, vedere Livelli di isolamento e conflitti di scrittura in Azure Databricks.
Aggiungere Azure Databricks a un criterio dati
Aggiungendo Azure Databricks a un criterio dati aziendali, Azure Databricks non può condividere dati con i connettori in gruppi diversi. Ciò protegge i dati e impedisce che vengano condivisi con gli utenti che non devono avere accesso. Per altre informazioni, vedere Gestire i criteri dati.
Per aggiungere il connettore Azure Databricks a una politica dati di Power Platform:
- Da qualsiasi applicazione Power Platform fare clic sull'ingranaggio delle impostazioni in alto a destra e selezionare Interfaccia di amministrazione.
- Nella barra laterale fare clic su Criteri>criteri dati.
- Se si usa la nuova interfaccia di amministrazione, fare clic su Dati di sicurezza> eInformativa sui dati>.
- Fare clic su + Nuovo criterio o selezionare un criterio esistente.
- Se si crea una nuova policy, immettere un nome.
- Selezionare un ambiente da aggiungere ai criteri e fare clic su + Aggiungi ai criteri precedenti.
- Fare clic su Avanti.
- Cercare e selezionare il connettore Azure Databricks .
- Fare clic su Sposta in azienda e fare clic su Avanti.
- Esaminare i criteri e fare clic su Crea criterio.
Limitazioni
- Il connettore Power Platform non supporta i cloud per enti pubblici.
Limitazioni di Power App
Le formule di PowerFx seguenti calcolano i valori usando solo i dati recuperati in locale:
| Categoria | Formula |
|---|---|
| Funzione Table | - GroupBy -Distinto |
| Aggregation | - CountRows - StdevP - StdevS |
Creazione di una connessione
Il connettore supporta i tipi di autenticazione seguenti:
| Connessione OAuth | Connessione OAuth | Tutte le aree geografiche | Non condivisibile |
| Connessione all'entità servizio | Connessione all'entità servizio | Tutte le aree geografiche | Condivisibile |
| Impostazione predefinita [DEPRECATO] | Questa opzione è solo per le connessioni meno recenti senza un tipo di autenticazione esplicito e viene fornita solo per la compatibilità con le versioni precedenti. | Tutte le aree geografiche | Non condivisibile |
Connessione OAuth
ID autenticazione: oauth2-auth
Applicabile: tutte le aree
Connessione OAuth
Questa non è una connessione condivisibile. Se l'app power viene condivisa con un altro utente, verrà richiesto a un altro utente di creare una nuova connessione in modo esplicito.
| Nome | TIPO | Description | Obbligatorio |
|---|---|---|---|
| Nome host server (esempio: adb-3980263885549757139.2.azuredatabricks.net) | corda | Nome server dell'area di lavoro di Databricks | Vero |
| Percorso HTTP (esempio: /sql/1.0/warehouses/a9c4e781bd29f315) | corda | Percorso HTTP di Databricks SQL Warehouse | Vero |
Connessione all'entità servizio
ID autenticazione: oAuthClientCredentials
Applicabile: tutte le aree
Connessione all'entità servizio
Si tratta di una connessione condivisibile. Se l'app per l'alimentazione viene condivisa con un altro utente, anche la connessione viene condivisa. Per altre informazioni, vedere Panoramica dei connettori per le app canvas - Power Apps | Microsoft Docs
| Nome | TIPO | Description | Obbligatorio |
|---|---|---|---|
| ID cliente | corda | Vero | |
| Segreto del cliente | securestring | Vero | |
| Tenant | corda | Vero | |
| Nome host server (esempio: adb-3980263885549757139.2.azuredatabricks.net) | corda | Nome server dell'area di lavoro di Databricks | Vero |
| Percorso HTTP (esempio: /sql/1.0/warehouses/a9c4e781bd29f315) | corda | Percorso HTTP di Databricks SQL Warehouse | Vero |
Impostazione predefinita [DEPRECATO]
Applicabile: tutte le aree
Questa opzione è solo per le connessioni meno recenti senza un tipo di autenticazione esplicito e viene fornita solo per la compatibilità con le versioni precedenti.
Questa non è una connessione condivisibile. Se l'app power viene condivisa con un altro utente, verrà richiesto a un altro utente di creare una nuova connessione in modo esplicito.
Limiti per la limitazione delle richieste
| Nome | Chiamate | Periodo di rinnovo |
|---|---|---|
| Chiamate API per connessione | 100 | 60 secondi |
Azioni
| Annullare l'esecuzione dell'istruzione |
Richiede l'annullamento di un'istruzione in esecuzione. I chiamanti devono eseguire il polling dello stato per visualizzare lo stato del terminale. |
| Annullare un'esecuzione |
Annulla un'esecuzione di un processo o un'esecuzione di un'attività. L'esecuzione viene annullata in modo asincrono, quindi potrebbe essere ancora in esecuzione al termine della richiesta. |
| Attivare una nuova esecuzione del processo |
Eseguire un processo e restituire il run_id dell'esecuzione attivata. |
| Azure Databricks Genie |
Eseguire query sugli spazi Genie per ottenere informazioni dettagliate dai dati. |
| Controllare lo stato e ottenere i risultati |
Ottenere lo stato, il manifesto e i risultati dell'istruzione |
| Elencare i processi |
Recupera un elenco di processi. |
| Eseguire un'istruzione SQL |
Eseguire un'istruzione SQL e, facoltativamente, attendere i risultati per un periodo di tempo specificato. |
| Ottenere il risultato in base all'indice di blocco |
Dopo l'esecuzione dell'istruzione SUCCEEDED, questa richiesta può essere usata per recuperare qualsiasi blocco in base all'indice. |
| Ottenere l'output per una singola esecuzione |
Recuperare l'output e i metadati di una singola esecuzione di un'attività. Quando un'attività notebook restituisce un valore tramite la chiamata dbutils.notebook.exit(), è possibile usare questo endpoint per recuperare tale valore. Azure Databricks limita questa API alla restituzione dei primi 5 MB dell'output. Per restituire un risultato più ampio, è possibile archiviare i risultati dei processi in un servizio di archiviazione cloud. Questo endpoint verifica che il parametro run_id sia valido e restituisca un codice di stato HTTP 400 se il parametro run_id non è valido. Le esecuzioni vengono rimosse automaticamente dopo 60 giorni. Se si desidera farvi riferimento oltre 60 giorni, è necessario salvare i risultati di esecuzione precedenti prima della scadenza. |
| Ottenere un'esecuzione di un singolo processo |
Recupera i metadati di un'esecuzione. Le matrici di grandi dimensioni nei risultati verranno impaginate quando superano 100 elementi. Una richiesta per una singola esecuzione restituirà tutte le proprietà per l'esecuzione e i primi 100 elementi delle proprietà della matrice (attività, job_clusters, job_parameters e repair_history). Usare il campo next_page_token per verificare la presenza di altri risultati e passarne il valore come page_token nelle richieste successive. Se le proprietà di una matrice hanno più di 100 elementi, i risultati aggiuntivi verranno restituiti nelle richieste successive. Le matrici senza risultati aggiuntivi saranno vuote nelle pagine successive. |
Annullare l'esecuzione dell'istruzione
Richiede l'annullamento di un'istruzione in esecuzione. I chiamanti devono eseguire il polling dello stato per visualizzare lo stato del terminale.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID istruzione
|
statement_id | True | string |
ID istruzione |
Annullare un'esecuzione
Annulla un'esecuzione di un processo o un'esecuzione di un'attività. L'esecuzione viene annullata in modo asincrono, quindi potrebbe essere ancora in esecuzione al termine della richiesta.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
run_id
|
run_id | True | integer |
Questo campo è obbligatorio. |
Attivare una nuova esecuzione del processo
Eseguire un processo e restituire il run_id dell'esecuzione attivata.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
idempotency_token
|
idempotency_token | string |
Token facoltativo per garantire l'idempotenza delle richieste di esecuzione del processo. Se esiste già un'esecuzione con il token specificato, la richiesta non crea una nuova esecuzione ma restituisce l'ID dell'esecuzione esistente. Se viene eliminata un'esecuzione con il token specificato, viene restituito un errore. Se si specifica il token di idempotenza, in caso di errore è possibile riprovare fino a quando la richiesta non riesce. Azure Databricks garantisce che venga avviata esattamente un'esecuzione con tale token di idempotenza. Questo token deve avere al massimo 64 caratteri. Per altre informazioni, vedere Come garantire l'idempotenza per i processi. |
|
|
job_id
|
job_id | True | integer |
ID del processo da eseguire |
|
job_parameters
|
job_parameters | object |
Parametri a livello di processo usati nell'esecuzione. ad esempio "param": "overriding_val" |
|
|
soltanto
|
only | array of string |
Elenco di chiavi di attività da eseguire all'interno del processo. Se questo campo non viene specificato, verranno eseguite tutte le attività nel processo. |
|
|
performance_target
|
performance_target | string | ||
|
full_refresh
|
full_refresh | boolean |
Se true, attiva un aggiornamento completo nella tabella live delta. |
|
|
enabled
|
enabled | True | boolean |
Se true, abilitare la coda per il processo. Questo campo è obbligatorio. |
Restituisce
- Corpo
- JobsRunNowResponse
Azure Databricks Genie
Eseguire query sugli spazi Genie per ottenere informazioni dettagliate dai dati.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID spazio genie
|
genie_space_id | True | string |
ID spazio genie |
Controllare lo stato e ottenere i risultati
Ottenere lo stato, il manifesto e i risultati dell'istruzione
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID istruzione
|
statement_id | True | string |
ID istruzione |
Restituisce
Risposta all'esecuzione dell'istruzione
- Corpo
- SqlStatementResponse
Elencare i processi
Recupera un elenco di processi.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
Limite
|
limit | integer |
Numero di processi da restituire. Questo valore deve essere maggiore di 0 e minore o uguale a 100. Il valore predefinito è 20. |
|
|
Espandere Attività
|
expand_tasks | boolean |
Indica se includere i dettagli dell'attività e del cluster nella risposta. Si noti che verranno visualizzati solo i primi 100 elementi. Usare :method:jobs/get per impaginare tutte le attività e i cluster. |
|
|
Nome processo
|
name | string |
Filtro per l'elenco in base al nome esatto (senza distinzione tra maiuscole e minuscole). |
|
|
Token di pagina
|
page_token | string |
Usare next_page_token o prev_page_token restituiti dalla richiesta precedente per elencare rispettivamente la pagina successiva o precedente dei processi. |
Restituisce
- Corpo
- JobsListJobsResponse
Eseguire un'istruzione SQL
Eseguire un'istruzione SQL e, facoltativamente, attendere i risultati per un periodo di tempo specificato.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
warehouse_id
|
warehouse_id | True | string |
ID magazzino di destinazione |
|
dichiarazione
|
statement | True | string |
Istruzione SQL da eseguire. L'istruzione può essere facoltativamente parametrizzata, vedere i parametri |
|
nome
|
name | True | string |
Nome indicatore di parametro |
|
type
|
type | string |
Tipo di dati del parametro |
|
|
value
|
value | string |
Valore del parametro |
|
|
catalog
|
catalog | string |
Catalogo predefinito per l'esecuzione |
|
|
schema
|
schema | string |
Schema predefinito per l'esecuzione |
|
|
disposizione
|
disposition | string |
Modalità di recupero dei risultati |
|
|
format
|
format | string |
Formato set di risultati |
|
|
on_wait_timeout
|
on_wait_timeout | string |
Azione sul timeout |
|
|
wait_timeout
|
wait_timeout | string |
Timeout di attesa dei risultati |
|
|
byte_limit
|
byte_limit | integer |
Limite di byte dei risultati |
|
|
row_limit
|
row_limit | integer |
Limite di righe dei risultati |
Restituisce
Risposta all'esecuzione dell'istruzione
- Corpo
- SqlStatementResponse
Ottenere il risultato in base all'indice di blocco
Dopo l'esecuzione dell'istruzione SUCCEEDED, questa richiesta può essere usata per recuperare qualsiasi blocco in base all'indice.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID istruzione
|
statement_id | True | string |
ID istruzione |
|
Indice blocchi
|
chunk_index | True | string |
Indice blocchi |
Restituisce
- Corpo
- SqlResultData
Ottenere l'output per una singola esecuzione
Recuperare l'output e i metadati di una singola esecuzione di un'attività. Quando un'attività notebook restituisce un valore tramite la chiamata dbutils.notebook.exit(), è possibile usare questo endpoint per recuperare tale valore. Azure Databricks limita questa API alla restituzione dei primi 5 MB dell'output. Per restituire un risultato più ampio, è possibile archiviare i risultati dei processi in un servizio di archiviazione cloud. Questo endpoint verifica che il parametro run_id sia valido e restituisca un codice di stato HTTP 400 se il parametro run_id non è valido. Le esecuzioni vengono rimosse automaticamente dopo 60 giorni. Se si desidera farvi riferimento oltre 60 giorni, è necessario salvare i risultati di esecuzione precedenti prima della scadenza.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID esecuzione
|
run_id | True | integer |
Identificatore canonico per l'esecuzione. |
Restituisce
- Corpo
- JobsRunOutput
Ottenere un'esecuzione di un singolo processo
Recupera i metadati di un'esecuzione. Le matrici di grandi dimensioni nei risultati verranno impaginate quando superano 100 elementi. Una richiesta per una singola esecuzione restituirà tutte le proprietà per l'esecuzione e i primi 100 elementi delle proprietà della matrice (attività, job_clusters, job_parameters e repair_history). Usare il campo next_page_token per verificare la presenza di altri risultati e passarne il valore come page_token nelle richieste successive. Se le proprietà di una matrice hanno più di 100 elementi, i risultati aggiuntivi verranno restituiti nelle richieste successive. Le matrici senza risultati aggiuntivi saranno vuote nelle pagine successive.
Parametri
| Nome | Chiave | Necessario | Tipo | Descrizione |
|---|---|---|---|---|
|
ID esecuzione
|
run_id | True | integer |
Identificatore canonico dell'esecuzione per cui recuperare i metadati. Questo campo è obbligatorio. |
|
Includi cronologia
|
include_history | boolean |
Indica se includere la cronologia di ripristino nella risposta. |
|
|
Includi valori risolti
|
include_resolved_values | boolean |
Indica se includere i valori dei parametri risolti nella risposta. |
|
|
Token di pagina
|
page_token | string |
Usare next_page_token restituito dalla risposta GetRun precedente per richiedere la pagina successiva delle proprietà della matrice di esecuzione. |
Restituisce
- Corpo
- JobsRun
Definizioni
Oggetto
SqlBaseChunkInfo
Metadati per un blocco di set di risultati
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
Numero di byte nel blocco dei risultati |
|
chunk_index
|
chunk_index | integer |
Posizione nella sequenza di blocchi del set di risultati |
|
row_count
|
row_count | integer |
Numero di righe nel blocco dei risultati |
|
row_offset
|
row_offset | integer |
Offset di riga iniziale nel set di risultati |
SqlColumnInfo
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
nome
|
name | string |
Nome della colonna |
|
posizione
|
position | integer |
Posizione colonna (in base 0) |
|
type_interval_type
|
type_interval_type | string |
Formato del tipo di intervallo |
|
type_name
|
type_name | SqlColumnInfoTypeName |
Nome del tipo di dati di base. Non sono inclusi dettagli per tipi complessi, ad esempio STRUCT, MAP o ARRAY. |
|
type_precision
|
type_precision | integer |
Numero di cifre per il tipo DECIMAL |
|
type_scale
|
type_scale | integer |
Numero di posizioni decimali per il tipo DECIMAL |
|
type_text
|
type_text | string |
Specifica completa del tipo SQL |
SqlColumnInfoTypeName
Nome del tipo di dati di base. Non sono inclusi dettagli per tipi complessi, ad esempio STRUCT, MAP o ARRAY.
Nome del tipo di dati di base. Non sono inclusi dettagli per tipi complessi, ad esempio STRUCT, MAP o ARRAY.
SqlStatementResponse
Risposta all'esecuzione dell'istruzione
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
manifesto
|
manifest | SqlResultManifest |
Schema e metadati del set di risultati |
|
risultato
|
result | SqlResultData | |
|
statement_id
|
statement_id | string |
ID istruzione |
|
status
|
status | SqlStatementStatus |
Stato di esecuzione dell'istruzione |
SqlResultManifest
Schema e metadati del set di risultati
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Blocchi
|
chunks | array of SqlBaseChunkInfo |
Metadati del blocco dei risultati |
|
format
|
format | string | |
|
schema
|
schema | SqlResultSchema |
Definizioni di colonna del set di risultati |
|
total_byte_count
|
total_byte_count | integer |
Totale byte nel set di risultati |
|
total_chunk_count
|
total_chunk_count | integer |
Numero totale di blocchi |
|
total_row_count
|
total_row_count | integer |
Numero totale di righe |
|
troncato
|
truncated | boolean |
Stato troncamento dei risultati |
SqlStatementStatus
Stato di esecuzione dell'istruzione
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Errore
|
error | SqlServiceError | |
|
state
|
state | SqlStatementState |
Stato di esecuzione dell'istruzione |
SqlStatementState
SqlServiceError
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
error_code
|
error_code | string | |
|
message
|
message | string |
Messaggio di errore |
SqlResultSchema
Definizioni di colonna del set di risultati
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
column_count
|
column_count | integer | |
|
columns
|
columns | array of SqlColumnInfo |
SqlResultData
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
Byte nel blocco dei risultati |
|
chunk_index
|
chunk_index | integer |
Posizione blocco |
|
data_array
|
data_array | SqlJsonArray |
Matrice di matrici con valori stringa |
|
external_links
|
external_links | array of SqlExternalLink | |
|
next_chunk_index
|
next_chunk_index | integer |
Indice blocco successivo |
|
next_chunk_internal_link
|
next_chunk_internal_link | string |
Collegamento blocco successivo |
|
row_count
|
row_count | integer |
Righe in blocchi |
|
row_offset
|
row_offset | integer |
Offset di riga iniziale |
SqlJsonArray
Matrice di matrici con valori stringa
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Elementi
|
array of |
SqlExternalLink
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
byte_count
|
byte_count | integer |
Byte in blocchi |
|
chunk_index
|
chunk_index | integer |
Posizione blocco |
|
scadenza
|
expiration | date-time |
Data di scadenza del collegamento |
|
external_link
|
external_link | string | |
|
http_headers
|
http_headers | object |
Intestazioni HTTP obbligatorie |
|
next_chunk_index
|
next_chunk_index | integer |
Indice blocco successivo |
|
next_chunk_internal_link
|
next_chunk_internal_link | string |
Collegamento blocco successivo |
|
row_count
|
row_count | integer |
Righe in blocchi |
|
row_offset
|
row_offset | integer |
Offset di riga iniziale |
JobsRunNowResponse
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
run_id
|
run_id | integer |
ID univoco globale dell'esecuzione appena attivata. |
JobsPerformanceTarget
JobsPipelineParams
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
full_refresh
|
full_refresh | boolean |
Se true, attiva un aggiornamento completo nella tabella live delta. |
JobsQueueSettings
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
enabled
|
enabled | boolean |
Se true, abilitare la coda per il processo. Questo campo è obbligatorio. |
JobsListJobsResponse
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
jobs
|
jobs | array of JobsBaseJob |
Elenco di processi. Incluso nella risposta solo se sono presenti processi da elencare. |
|
next_page_token
|
next_page_token | string |
Token che può essere usato per elencare la pagina successiva dei processi (se applicabile). |
|
prev_page_token
|
prev_page_token | string |
Token che può essere usato per elencare la pagina precedente dei processi (se applicabile). |
ProcessiBaseJob
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
created_time
|
created_time | integer |
Ora in cui questo processo è stato creato in millisecondi di periodo (millisecondi dal 1/1/1970 UTC). |
|
creator_user_name
|
creator_user_name | string |
Nome utente autore. Questo campo non verrà incluso nella risposta se l'utente è già stato eliminato. |
|
effective_budget_policy_id
|
effective_budget_policy_id | uuid |
ID dei criteri di budget usati da questo processo a scopo di attribuzione dei costi. Può essere impostato tramite (in ordine di precedenza): 1. Amministratori budget tramite l'account o la console dell'area di lavoro 2. Interfaccia utente dei processi nella pagina dei dettagli del processo e API Processi usando budget_policy_id 3. Impostazione predefinita dedotta in base ai criteri di budget accessibili dell'identità run_as durante la creazione o la modifica dei processi. |
|
ha_di_piu
|
has_more | boolean |
Indica se il processo ha più proprietà di matrice (attività, job_clusters) non visualizzate. È possibile accedervi tramite l'endpoint :method:jobs/get. È rilevante solo per le richieste API 2.2 :method:jobs/list con expand_tasks=true. |
|
job_id
|
job_id | integer |
Identificatore canonico per questo processo. |
|
settings
|
settings | JobsJobSettings | |
|
trigger_state
|
trigger_state | JobsTriggerStateProto |
JobsJobSettings
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
budget_policy_id
|
budget_policy_id | uuid |
ID dei criteri di budget specificati dall'utente da usare per questo processo. Se non specificato, è possibile applicare una politica di budget predefinita durante la creazione o la modifica dell'incarico. Vedere effective_budget_policy_id per i criteri di budget usati da questo carico di lavoro. |
|
continuo
|
continuous | JobsContinuous | |
|
implementazione
|
deployment | JobsJobDeployment | |
|
descrizione
|
description | string |
Descrizione facoltativa per il lavoro. La lunghezza massima è di 27700 caratteri nella codifica UTF-8. |
|
edit_mode
|
edit_mode | JobsJobEditMode | |
|
email_notifications
|
email_notifications | JobsJobEmailNotifications | |
|
environments
|
environments | array of JobsJobEnvironment |
Un elenco delle specifiche dell'ambiente di esecuzione delle attività a cui le attività serverless di questo compito possono fare riferimento. È necessario che sia presente un ambiente per le attività serverless. Per le attività del notebook serverless, l'ambiente è accessibile nel pannello dell'ambiente del notebook. Per altre attività serverless, è necessario specificare l'ambiente attività usando environment_key nelle impostazioni dell'attività. |
|
git_source
|
git_source | JobsGitSource | |
|
Salute
|
health | JobsJobsHealthRules | |
|
job_clusters
|
job_clusters | array of JobsJobCluster |
Elenco delle specifiche del cluster di lavori che possono essere condivise e riutilizzate dalle attività di questo lavoro. Le librerie non possono essere dichiarate in un cluster di processi condivisi. È necessario dichiarare librerie dipendenti nelle impostazioni delle attività. |
|
max_concurrent_runs
|
max_concurrent_runs | integer |
Numero massimo consentito facoltativo di esecuzioni simultanee del lavoro. Impostare questo valore se si vuole essere in grado di eseguire più esecuzioni dello stesso processo contemporaneamente. Ciò è utile, ad esempio, se si attiva il processo in base a una pianificazione frequente e si vuole consentire le esecuzioni consecutive di sovrapporsi tra loro oppure se si desidera attivare più esecuzioni che differiscono in base ai relativi parametri di input. Questa impostazione influisce solo sulle nuove esecuzioni. Si supponga, ad esempio, che la concorrenza del processo sia 4 e che siano presenti 4 esecuzioni attive simultanee. Quindi l'impostazione della concorrenza su 3 non comporta l'interruzione delle esecuzioni attive. Tuttavia, da allora, le nuove esecuzioni vengono ignorate a meno che non siano presenti meno di 3 esecuzioni attive. Questo valore non può superare 1000. Se si imposta questo valore su 0, tutte le nuove esecuzioni verranno ignorate. |
|
nome
|
name | string |
Nome facoltativo per il lavoro. La lunghezza massima è di 4096 byte nella codifica UTF-8. |
|
notification_settings
|
notification_settings | JobsJobNotificationSettings | |
|
parameters
|
parameters | array of JobsJobParameterDefinition |
Definizioni di parametri a livello di processo |
|
performance_target
|
performance_target | JobsPerformanceTarget | |
|
coda
|
queue | JobsQueueSettings | |
|
run_as
|
run_as | JobsJobRunAs | |
|
Orario
|
schedule | JobsCronSchedule | |
|
tags
|
tags | object |
Mappa dei tag associati al processo. Questi vengono inoltrati al cluster come etichette di cluster per i gruppi di lavoro e sono soggetti alle stesse limitazioni delle etichette di cluster. È possibile aggiungere al lavoro un massimo di 25 tag. |
|
tasks
|
tasks | array of JobsTask |
Elenco delle specifiche dell'attività da svolgere da questo lavoro. Supporta fino a 1000 elementi negli endpoint di scrittura (:method:jobs/create, :method:jobs/reset, :method:jobs/update, :method:jobs/submit). Gli endpoint di lettura restituiscono solo 100 attività. Se sono disponibili più di 100 attività, è possibile impaginarle usando :method:jobs/get. Usare il campo next_page_token nella radice dell'oggetto per determinare se sono disponibili altri risultati. |
|
timeout_seconds
|
timeout_seconds | integer |
Un timeout facoltativo viene applicato a ogni esecuzione di questo processo. Il valore 0 indica che non è previsto alcun timeout. |
|
trigger
|
trigger | JobsTriggerSettings | |
|
webhook_notifications
|
webhook_notifications | JobsWebhookNotifications |
ProcessiContinuous
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
pause_status
|
pause_status | JobsPauseStatus |
JobsPauseStatus
ProcessiJobDeployment
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
tipo/gentile
|
kind | JobsJobDeploymentKind | |
|
metadata_file_path
|
metadata_file_path | string |
Percorso del file contenente i metadati di distribuzione. |
JobsJobDeploymentKind
JobsJobEditMode
ProcessiJobEmailNotifications
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of string |
Un elenco di indirizzi di posta elettronica da notificare quando la durata di un'esecuzione supera la soglia specificata per la metrica RUN_DURATION_SECONDS nel campo integrità. Se non viene specificata alcuna regola per la metrica RUN_DURATION_SECONDS nel campo integrità per il processo, le notifiche non vengono inviate. |
|
on_failure
|
on_failure | array of string |
Elenco di indirizzi di posta elettronica da notificare quando un'esecuzione non viene completata correttamente. Un'esecuzione viene considerata completata in modo non riuscito se termina con un INTERNAL_ERROR life_cycle_state o un errore o TIMED_OUT result_state. Se non viene specificato durante la creazione, la reimpostazione o l'aggiornamento dell'elenco è vuoto e le notifiche non vengono inviate. |
|
on_start
|
on_start | array of string |
Elenco di indirizzi di posta elettronica per ricevere una notifica all'inizio di un'esecuzione. Se non specificato durante la creazione, la reimpostazione o l'aggiornamento del processo, l'elenco è vuoto e le notifiche non vengono inviate. |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of string |
Elenco di indirizzi di posta elettronica da notificare quando vengono superate le soglie di backlog di streaming per qualsiasi flusso. Le soglie di backlog di streaming possono essere impostate nel campo integrità usando le metriche seguenti: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS o STREAMING_BACKLOG_FILES. Gli avvisi si basano sulla media di 10 minuti di queste metriche. Se il problema persiste, le notifiche vengono inviate nuovamente ogni 30 minuti. |
|
on_success
|
on_success | array of string |
Elenco di indirizzi di posta elettronica per ricevere una notifica al completamento di un'esecuzione. Un'esecuzione viene considerata completata correttamente se termina con un life_cycle_state TERMINATO e un result_state SUCCESS. Se non specificato durante la creazione, la reimpostazione o l'aggiornamento del processo, l'elenco è vuoto e le notifiche non vengono inviate. |
ProcessiJobEnvironment
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
environment_key
|
environment_key | string |
Chiave di un ambiente. Deve essere univoco all'interno di un processo. |
|
Spec
|
spec | ComputeEnvironment |
CalcoloEnvironment
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
dipendenze
|
dependencies | array of string |
Elenco delle dipendenze pip, come supportato dalla versione di pip in questo ambiente. Ogni dipendenza è una riga di file di requisiti pip valida per https://pip.pypa.io/en/stable/reference/requirements-file-format/. Le dipendenze consentite includono un identificatore di requisiti, un URL di archivio, un percorso di progetto locale (ad esempio WSFS o volumi UC in Azure Databricks) o un URL di progetto VCS. |
|
environment_version
|
environment_version | string |
Obbligatorio. Versione dell'ambiente usata dall'ambiente. Ogni versione include una versione python specifica e un set di pacchetti Python. La versione è una stringa costituita da un numero intero. Vedi https://learn.microsoft.com/azure/databricks/release-notes/serverless/#serverless-environment-versions. |
JobsGitSource
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
git_branch
|
git_branch | string |
Nome del ramo da archiviare e utilizzare da questo processo. Questo campo non può essere specificato in combinazione con git_tag o git_commit. |
|
git_commit
|
git_commit | string |
Eseguire il commit per essere estratto e usato da questo processo. Questo campo non può essere specificato in combinazione con git_branch o git_tag. |
|
git_provider
|
git_provider | JobsGitProvider | |
|
git_snapshot
|
git_snapshot | JobsGitSnapshot | |
|
git_tag
|
git_tag | string |
Nome del tag da archiviare e usare da questo processo. Questo campo non può essere specificato in combinazione con git_branch o git_commit. |
|
git_url
|
git_url | string |
URL del repository da clonare da questo processo. |
JobsGitProvider
JobsGitSnapshot
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
used_commit
|
used_commit | string |
Commit usato per eseguire l'esecuzione. Se è stato specificato git_branch, punta all'oggetto HEAD del ramo al momento dell'esecuzione; se è stato specificato git_tag, punta al commit a cui punta il tag. |
ProcessiJobsHealthRules
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
regole
|
rules | array of JobsJobsHealthRule |
ProcessiJobsHealthRule
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
metric
|
metric | JobsJobsHealthMetric | |
|
Op
|
op | JobsJobsHealthOperator | |
|
value
|
value | integer |
Specifica il valore soglia che la metrica di integrità deve rispettare per soddisfare la regola di integrità. |
JobsJobsHealthMetric
JobsJobsHealthOperator
ProcessiJobCluster
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
job_cluster_key
|
job_cluster_key | string |
Nome univoco per il cluster di processi. Questo campo è obbligatorio e deve essere univoco all'interno del processo. JobTaskSettings può fare riferimento a questo campo per determinare quale cluster avviare per l'esecuzione dell'attività. |
|
new_cluster
|
new_cluster | ComputeClusterSpec |
ComputeClusterSpec
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
apply_policy_default_values
|
apply_policy_default_values | boolean |
Se impostato su true, i valori predefiniti e fissi dei criteri verranno usati per i campi omessi. Se impostato su false, verranno applicati solo i valori fissi dei criteri. |
|
autoscale
|
autoscale | ComputeAutoScale | |
|
autotermination_minutes
|
autotermination_minutes | integer |
Termina automaticamente il cluster dopo il tempo di inattività specificato in minuti. Se non è impostato, il cluster non verrà terminato automaticamente. Se specificato, la soglia deve essere compresa tra 10 e 10000 minuti. Gli utenti possono anche impostare questo valore su 0 per disabilitare in modo esplicito la terminazione automatica. |
|
azure_attributes
|
azure_attributes | ComputeAzureAttributes | |
|
cluster_log_conf
|
cluster_log_conf | ComputeClusterLogConf | |
|
cluster_name
|
cluster_name | string |
Nome del cluster richiesto dall'utente. Questo non deve essere univoco. Se non specificato durante la creazione, il nome del cluster sarà una stringa vuota. Per i cluster di processo, il nome del cluster viene impostato automaticamente in base agli ID di esecuzione del processo e del processo. |
|
custom_tags
|
custom_tags | object |
Tag aggiuntivi per le risorse del cluster. Azure Databricks contrassegnerà tutte le risorse del cluster (ad esempio, istanze di AWS e volumi EBS) con questi tag oltre a default_tags. Note: - Attualmente Azure Databricks consente al massimo 45 tag personalizzati: i cluster possono riutilizzare solo le risorse cloud se i tag delle risorse sono un subset dei tag del cluster |
|
data_security_mode
|
data_security_mode | ComputeDataSecurityMode | |
|
docker_image
|
docker_image | ComputeDockerImage | |
|
driver_instance_pool_id
|
driver_instance_pool_id | string |
L'ID facoltativo del pool di istanze a cui appartiene il driver del cluster. Il cluster del pool usa il pool di istanze con ID (instance_pool_id) se il pool di driver non è assegnato. |
|
driver_node_type_id
|
driver_node_type_id | string |
Tipo di nodo del driver Spark. Si noti che questo campo è facoltativo; se non impostato, il tipo di nodo del driver verrà impostato sullo stesso valore di node_type_id definito in precedenza. Questo campo, insieme a node_type_id, non deve essere impostato se è impostato virtual_cluster_size. Se vengono specificati sia driver_node_type_id, node_type_id che virtual_cluster_size, driver_node_type_id e node_type_id hanno la precedenza. |
|
enable_elastic_disk
|
enable_elastic_disk | boolean |
Scalabilità automatica dell'archiviazione locale: se abilitato, questo cluster acquisirà dinamicamente spazio su disco aggiuntivo quando i worker di Spark stanno esaurendo lo spazio su disco. Questa funzionalità richiede autorizzazioni AWS specifiche per funzionare correttamente. Per altre informazioni, vedere la Guida per l'utente. |
|
enable_local_disk_encryption
|
enable_local_disk_encryption | boolean |
Se abilitare LUKS nei dischi locali delle macchine virtuali del cluster |
|
init_scripts
|
init_scripts | array of ComputeInitScriptInfo |
Configurazione per l'archiviazione di script init. È possibile specificare un numero qualsiasi di destinazioni. Gli script vengono eseguiti in sequenza nell'ordine specificato. Se si specifica cluster_log_conf, i log degli script init vengono inviati a <destinazione>/<ID> cluster/init_scripts. |
|
instance_pool_id
|
instance_pool_id | string |
ID facoltativo del pool di istanze a cui appartiene il cluster. |
|
is_single_node
|
is_single_node | boolean |
Questo campo può essere usato solo quando kind = CLASSIC_PREVIEW. Se impostato su true, Azure Databricks imposta automaticamente custom_tags, spark_conf e num_workers correlati a un nodo singolo |
|
tipo/gentile
|
kind | ComputeKind | |
|
node_type_id
|
node_type_id | string |
Questo campo codifica, con un solo valore, le risorse disponibili in ognuno dei nodi Spark del cluster. Ad esempio, è possibile effettuare il provisioning e ottimizzare i nodi Spark per carichi di lavoro a elevato utilizzo di memoria o calcolo. È possibile recuperare un elenco dei tipi di nodo disponibili usando la chiamata API :method:clusters/listNodeTypes. |
|
num_workers
|
num_workers | integer |
Numero di nodi di lavoro che il cluster deve avere. Un cluster include un driver Spark e num_workers executor per un totale di num_workers + 1 nodi Spark. Nota: quando si leggono le proprietà di un cluster, questo campo riflette il numero desiderato di ruoli di lavoro anziché il numero corrente effettivo di ruoli di lavoro. Ad esempio, se un cluster viene ridimensionato da 5 a 10 ruoli di lavoro, questo campo verrà immediatamente aggiornato in modo da riflettere le dimensioni di destinazione di 10 ruoli di lavoro, mentre i ruoli di lavoro elencati in spark_info aumenteranno gradualmente da 5 a 10 man mano che viene effettuato il provisioning dei nuovi nodi. |
|
policy_id
|
policy_id | string |
ID dei criteri del cluster usati per creare il cluster, se applicabile. |
|
runtime_engine
|
runtime_engine | ComputeRuntimeEngine | |
|
single_user_name
|
single_user_name | string |
Nome utente singolo se data_security_mode è SINGLE_USER |
|
spark_conf
|
spark_conf | object |
Oggetto contenente un set di coppie chiave-valore di configurazione Spark specificate dall'utente facoltative. Gli utenti possono anche passare una stringa di opzioni JVM aggiuntive al driver e agli executor rispettivamente tramite spark.driver.extraJavaOptions e spark.executor.extraJavaOptions. |
|
spark_env_vars
|
spark_env_vars | object |
Oggetto contenente un set di coppie chiave-valore della variabile di ambiente specificate dall'utente facoltative. Si noti che la coppia chiave-valore del modulo (X,Y) verrà esportata così come è (ad esempio, esporta X='Y') durante l'avvio del driver e dei ruoli di lavoro. Per specificare un set aggiuntivo di SPARK_DAEMON_JAVA_OPTS, è consigliabile aggiungerli a $SPARK_DAEMON_JAVA_OPTS, come illustrato nell'esempio seguente. In questo modo vengono incluse anche tutte le variabili di ambiente gestite di Databricks predefinite. Variabili di ambiente Spark di esempio: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} o {"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"} |
|
spark_version
|
spark_version | string |
Versione Spark del cluster, ad esempio 3.3.x-scala2.11. È possibile recuperare un elenco delle versioni di Spark disponibili usando la chiamata API :method:clusters/sparkVersions. |
|
ssh_public_keys
|
ssh_public_keys | array of string |
Contenuto della chiave pubblica SSH che verrà aggiunto a ogni nodo Spark in questo cluster. Le chiavi private corrispondenti possono essere usate per accedere con il nome utente ubuntu sulla porta 2200. È possibile specificare fino a 10 chiavi. |
|
use_ml_runtime
|
use_ml_runtime | boolean |
Questo campo può essere usato solo quando kind = CLASSIC_PREVIEW. effective_spark_version è determinato da spark_version (versione DBR), da questo campo use_ml_runtime e dal fatto che node_type_id sia un nodo GPU o meno. |
|
workload_type
|
workload_type | ComputeWorkloadType |
CalcoloAutoScale
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
max_workers
|
max_workers | integer |
Numero massimo di ruoli di lavoro a cui il cluster può aumentare le prestazioni durante l'overload. Si noti che max_workers deve essere strettamente maggiore di min_workers. |
|
min_workers
|
min_workers | integer |
Numero minimo di ruoli di lavoro a cui il cluster può ridurre le prestazioni quando è sottoutilizzato. È anche il numero iniziale di ruoli di lavoro che il cluster avrà dopo la creazione. |
CalcoloAzureAttributes
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
disponibilità
|
availability | ComputeAzureAvailability | |
|
first_on_demand
|
first_on_demand | integer |
I primi first_on_demand nodi del cluster verranno posizionati su istanze su richiesta. Questo valore deve essere maggiore di 0 per assicurarsi che il nodo del driver del cluster sia posizionato in un'istanza su richiesta. Se questo valore è maggiore o uguale alla dimensione corrente del cluster, tutti i nodi verranno posizionati su istanze su richiesta. Se questo valore è minore delle dimensioni correnti del cluster, first_on_demand nodi verranno posizionati su istanze su richiesta e il resto verrà inserito nelle istanze di disponibilità. Si noti che questo valore non influisce sulle dimensioni del cluster e non può essere modificato per tutta la durata di un cluster. |
|
log_analytics_info
|
log_analytics_info | ComputeLogAnalyticsInfo | |
|
spot_bid_max_price
|
spot_bid_max_price | double |
Prezzo massimo dell'offerta da usare per le istanze spot di Azure. Il prezzo massimo per l'offerta non può essere superiore al prezzo su richiesta dell'istanza. Se non specificato, il valore predefinito è -1, che specifica che l'istanza non può essere rimossa in base al prezzo e solo in base alla disponibilità. Inoltre, il valore deve > essere 0 o -1. |
CalcoloAzureAvailability
ComputeLogAnalyticsInfo
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
log_analytics_primary_key
|
log_analytics_primary_key | string | |
|
log_analytics_workspace_id
|
log_analytics_workspace_id | string |
ComputeClusterLogConf
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
dbfs
|
dbfs | ComputeDbfsStorageInfo | |
|
volumes
|
volumes | ComputeVolumesStorageInfo |
ComputeDbfsStorageInfo
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
destination
|
destination | string |
destinazione dbfs, ad esempio dbfs:/my/path |
ComputeVolumesStorageInfo
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
destination
|
destination | string |
Destinazione volumi UC, ad esempio /Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh o dbfs:/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh |
ComputeDataSecurityMode
ComputeDockerImage
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
basic_auth
|
basic_auth | ComputeDockerBasicAuth | |
|
URL
|
url | string |
URL dell'immagine Docker. |
ComputeDockerBasicAuth
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
parola d’ordine
|
password | string |
Password dell'utente |
|
username
|
username | string |
Nome dell'utente |
ComputeInitScriptInfo
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
abfss
|
abfss | ComputeAdlsgen2Info | |
|
documento
|
file | ComputeLocalFileInfo | |
|
Gcs
|
gcs | ComputeGcsStorageInfo | |
|
volumes
|
volumes | ComputeVolumesStorageInfo | |
|
workspace
|
workspace | ComputeWorkspaceStorageInfo |
ComputeAdlsgen2Info
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
destination
|
destination | string |
destinazione abfss, ad esempio abfss://< container-name@>storage-account-name.dfs.core.windows.net/<>< directory-name>. |
ComputeLocalFileInfo
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
destination
|
destination | string |
destinazione file locale, ad esempio file:/my/local/file.sh |
ComputeGcsStorageInfo
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
destination
|
destination | string |
Destinazione/URI GCS, ad esempio gs://my-bucket/some-prefix |
ComputeWorkspaceStorageInfo
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
destination
|
destination | string |
destinazione wsfs, ad esempio workspace:/cluster-init-scripts/setup-datadog.sh |
ComputeKind
ComputeRuntimeEngine
ComputeWorkloadType
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
clients
|
clients | ComputeClientsTypes |
ComputeClientsTypes
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
jobs
|
jobs | boolean |
Con il set di processi, il cluster può essere usato per i processi |
|
Notebook
|
notebooks | boolean |
Con i notebook impostati, questo cluster può essere usato per i notebook |
JobsJobNotificationSettings
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
no_alert_for_canceled_runs
|
no_alert_for_canceled_runs | boolean |
Se true, non inviare notifiche ai destinatari specificati in on_failure se l'esecuzione viene annullata. |
|
no_alert_for_skipped_runs
|
no_alert_for_skipped_runs | boolean |
Se true, non inviare notifiche ai destinatari specificati in on_failure se l'esecuzione viene ignorata. |
JobsJobParameterDefinition
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
default
|
default | string |
Valore predefinito del parametro. |
|
nome
|
name | string |
Nome del parametro definito. Può contenere solo caratteri alfanumerici, _, -e . |
ProcessiJobRunAs
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
service_principal_name
|
service_principal_name | string |
ID applicazione di un'entità servizio attiva. L'impostazione di questo campo richiede il ruolo servicePrincipal/utente. |
|
user_name
|
user_name | string |
L'email di un utente attivo dell'area di lavoro. Gli utenti non amministratori possono impostare questo campo solo sul proprio messaggio di posta elettronica. |
JobsCronSchedule
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
pause_status
|
pause_status | JobsPauseStatus | |
|
quartz_cron_expression
|
quartz_cron_expression | string |
Espressione Cron che usa la sintassi Di Quarzi che descrive la pianificazione per un processo. Per informazioni dettagliate, vedere Trigger Cron . Questo campo è obbligatorio. |
|
timezone_id
|
timezone_id | string |
ID fuso orario Java. La pianificazione per un processo viene risolta in relazione a questo fuso orario. Per informazioni dettagliate, vedere Fuso orario Java . Questo campo è obbligatorio. |
JobsTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
clean_rooms_notebook_task
|
clean_rooms_notebook_task | Object | |
|
condition_task
|
condition_task | JobsConditionTask | |
|
dashboard_task
|
dashboard_task | JobsDashboardTask | |
|
dbt_task
|
dbt_task | Object | |
|
depends_on
|
depends_on | array of JobsTaskDependency |
Matrice facoltativa di oggetti che specifica il grafico delle dipendenze dell'attività. Tutte le attività specificate in questo campo devono essere completate prima di eseguire questa attività. L'attività verrà eseguita solo se la condizione di run_if è true. La chiave è task_key e il valore è il nome assegnato all'attività dipendente. |
|
descrizione
|
description | string |
Descrizione facoltativa per questa attività. |
|
disable_auto_optimization
|
disable_auto_optimization | boolean |
Opzione per disabilitare l'ottimizzazione automatica in serverless |
|
email_notifications
|
email_notifications | JobsTaskEmailNotifications | |
|
environment_key
|
environment_key | string |
Chiave che fa riferimento a una specifica di ambiente in un processo. Questo campo è obbligatorio per le attività python script, python wheel e dbt quando si usa il calcolo serverless. |
|
existing_cluster_id
|
existing_cluster_id | string |
Se existing_cluster_id, l'ID di un cluster esistente usato per tutte le esecuzioni. Quando si eseguono processi o attività in un cluster esistente, potrebbe essere necessario riavviare manualmente il cluster se smette di rispondere. È consigliabile eseguire processi e attività in nuovi cluster per una maggiore affidabilità |
|
for_each_task
|
for_each_task | JobsForEachTask | |
|
Salute
|
health | JobsJobsHealthRules | |
|
job_cluster_key
|
job_cluster_key | string |
Se job_cluster_key, questa attività viene eseguita riutilizzando il cluster specificato in job.settings.job_clusters. |
|
libraries
|
libraries | array of ComputeLibrary |
Elenco facoltativo di librerie da installare nel cluster. Il valore predefinito è un elenco vuoto. |
|
max_retries
|
max_retries | integer |
Numero massimo facoltativo di tentativi di esecuzione non riuscita. Un'esecuzione viene considerata non riuscita se viene completata con l'result_state FAILED o INTERNAL_ERROR life_cycle_state. Il valore -1 significa riprovare per un periodo illimitato e il valore 0 significa non riprovare mai. |
|
min_retry_interval_millis
|
min_retry_interval_millis | integer |
Intervallo minimo facoltativo in millisecondi tra l'inizio dell'esecuzione non riuscita e l'esecuzione successiva dei tentativi. Il comportamento predefinito è che le esecuzioni non riuscite vengono ritentate immediatamente. |
|
new_cluster
|
new_cluster | ComputeClusterSpec | |
|
notebook_task
|
notebook_task | JobsNotebookTask | |
|
notification_settings
|
notification_settings | JobsTaskNotificationSettings | |
|
pipeline_task
|
pipeline_task | JobsPipelineTask | |
|
power_bi_task
|
power_bi_task | Object | |
|
python_wheel_task
|
python_wheel_task | JobsPythonWheelTask | |
|
retry_on_timeout
|
retry_on_timeout | boolean |
Un criterio facoltativo per specificare se ripetere un processo quando si verifica il timeout. Il comportamento predefinito consiste nel non ritentare il timeout. |
|
run_if
|
run_if | JobsRunIf | |
|
run_job_task
|
run_job_task | JobsRunJobTask | |
|
spark_jar_task
|
spark_jar_task | JobsSparkJarTask | |
|
spark_python_task
|
spark_python_task | JobsSparkPythonTask | |
|
spark_submit_task
|
spark_submit_task | JobsSparkSubmitTask | |
|
sql_task
|
sql_task | Object | |
|
task_key
|
task_key | string |
Nome univoco per l'attività. Questo campo viene usato per fare riferimento a questa attività da altre attività. Questo campo è obbligatorio e deve essere univoco all'interno del processo padre. In Aggiorna o Reimposta questo campo viene usato per fare riferimento alle attività da aggiornare o reimpostare. |
|
timeout_seconds
|
timeout_seconds | integer |
Timeout facoltativo applicato a ogni esecuzione di questa attività di processo. Il valore 0 indica che non è previsto alcun timeout. |
|
webhook_notifications
|
webhook_notifications | JobsWebhookNotifications |
JobsConditionTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
sinistra
|
left | string |
Operando sinistro dell'attività della condizione. Può essere un valore stringa o un riferimento a uno stato del processo o a un parametro. |
|
Op
|
op | JobsConditionTaskOp | |
|
A destra
|
right | string |
Operando destro dell'attività della condizione. Può essere un valore stringa o un riferimento a uno stato del processo o a un parametro. |
JobsConditionTaskOp
JobsDashboardTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
dashboard_id
|
dashboard_id | string |
Identificatore del dashboard da aggiornare. |
|
subscription
|
subscription | JobsSubscription | |
|
warehouse_id
|
warehouse_id | string |
Facoltativo: ID warehouse con cui eseguire il dashboard per la pianificazione. Se non specificato, verrà usato il warehouse predefinito del dashboard. |
ProcessiSubscription
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
custom_subject
|
custom_subject | string |
Facoltativo: consente agli utenti di specificare una riga dell'oggetto personalizzata nel messaggio di posta elettronica inviato ai sottoscrittori. |
|
Pausa
|
paused | boolean |
Se true, la sottoscrizione non invierà messaggi di posta elettronica. |
|
Abbonati
|
subscribers | array of JobsSubscriptionSubscriber |
Elenco di sottoscrittori a cui inviare lo snapshot del dashboard. |
JobsSubscriptionSubscriber
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
destination_id
|
destination_id | string |
Uno snapshot del dashboard verrà inviato alla destinazione quando è presente il campo destination_id. |
|
user_name
|
user_name | string |
Uno snapshot del dashboard verrà inviato al messaggio di posta elettronica dell'utente quando è presente il campo user_name. |
JobsSource
JobsTaskDependency
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
risultato
|
outcome | string |
È possibile specificare solo le dipendenze dell'attività condizione. Risultato dell'attività dipendente che deve essere soddisfatta per l'esecuzione dell'attività. |
|
task_key
|
task_key | string |
Il nome dell'attività da cui dipende questa attività. |
JobsTaskEmailNotifications
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of string |
Un elenco di indirizzi di posta elettronica da notificare quando la durata di un'esecuzione supera la soglia specificata per la metrica RUN_DURATION_SECONDS nel campo integrità. Se non viene specificata alcuna regola per la metrica RUN_DURATION_SECONDS nel campo integrità per il processo, le notifiche non vengono inviate. |
|
on_failure
|
on_failure | array of string |
Elenco di indirizzi di posta elettronica da notificare quando un'esecuzione non viene completata correttamente. Un'esecuzione viene considerata completata in modo non riuscito se termina con un INTERNAL_ERROR life_cycle_state o un errore o TIMED_OUT result_state. Se non viene specificato durante la creazione, la reimpostazione o l'aggiornamento dell'elenco è vuoto e le notifiche non vengono inviate. |
|
on_start
|
on_start | array of string |
Elenco di indirizzi di posta elettronica per ricevere una notifica all'inizio di un'esecuzione. Se non specificato durante la creazione, la reimpostazione o l'aggiornamento del processo, l'elenco è vuoto e le notifiche non vengono inviate. |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of string |
Elenco di indirizzi di posta elettronica da notificare quando vengono superate le soglie di backlog di streaming per qualsiasi flusso. Le soglie di backlog di streaming possono essere impostate nel campo integrità usando le metriche seguenti: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS o STREAMING_BACKLOG_FILES. Gli avvisi si basano sulla media di 10 minuti di queste metriche. Se il problema persiste, le notifiche vengono inviate nuovamente ogni 30 minuti. |
|
on_success
|
on_success | array of string |
Elenco di indirizzi di posta elettronica per ricevere una notifica al completamento di un'esecuzione. Un'esecuzione viene considerata completata correttamente se termina con un life_cycle_state TERMINATO e un result_state SUCCESS. Se non specificato durante la creazione, la reimpostazione o l'aggiornamento del processo, l'elenco è vuoto e le notifiche non vengono inviate. |
CalcoloLibrary
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Cran
|
cran | ComputeRCranLibrary | |
|
barattolo
|
jar | string |
URI della libreria JAR da installare. Gli URI supportati includono percorsi dell'area di lavoro, percorsi dei volumi del catalogo Unity e URI ADLS. Ad esempio: { "jar": "/Workspace/path/to/library.jar" }, { "jar" : "/Volumes/path/to/library.jar" } or { "jar": "abfss://my-bucket/library.jar" }. Se si usa ADLS, verificare che il cluster abbia accesso in lettura alla libreria. Potrebbe essere necessario avviare il cluster con un'entità servizio Microsoft Entra ID per accedere all'URI DI ADLS. |
|
intenditore
|
maven | ComputeMavenLibrary | |
|
pypi
|
pypi | ComputePythonPyPiLibrary | |
|
requisiti
|
requirements | string |
URI del file requirements.txt da installare. Sono supportati solo i percorsi dell'area di lavoro e i percorsi dei volumi del catalogo Unity. Ad esempio: { "requirements": "/Workspace/path/to/requirements.txt" } o { "requirements" : "/Volumes/path/to/requirements.txt" } |
|
whl
|
whl | string |
URI della libreria wheel da installare. Gli URI supportati includono percorsi dell'area di lavoro, percorsi dei volumi del catalogo Unity e URI ADLS. Ad esempio: { "whl": "/Workspace/path/to/library.whl" }, { "whl" : "/Volumes/path/to/library.whl" } or { "whl": "abfss://my-bucket/library.whl" }. Se si usa ADLS, verificare che il cluster abbia accesso in lettura alla libreria. Potrebbe essere necessario avviare il cluster con un'entità servizio Microsoft Entra ID per accedere all'URI DI ADLS. |
JobsForEachTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Concorrenza
|
concurrency | integer |
Numero massimo facoltativo consentito di esecuzioni simultanee dell'attività. Impostare questo valore se si vuole poter eseguire più esecuzioni dell'attività contemporaneamente. |
|
Ingressi
|
inputs | string |
Matrice per l'attività su cui eseguire l'iterazione. Può trattarsi di una stringa JSON o di un riferimento a un parametro di matrice. |
|
compito
|
task | Object |
ComputeRCranLibrary
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
pacchetto
|
package | string |
Nome del pacchetto CRAN da installare. |
|
Repo
|
repo | string |
Repository in cui è possibile trovare il pacchetto. Se non specificato, viene utilizzato il repository CRAN predefinito. |
ComputeMavenLibrary
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
Coordinate
|
coordinates | string |
Coordinate maven in stile Gradle. Ad esempio: "org.jsoup:jsoup:1.7.2". |
|
Esclusioni
|
exclusions | array of string |
Elenco delle dipendenze da escludere. Ad esempio: ["slf4j:slf4j", "*:hadoop-client"]. Esclusioni delle dipendenze Maven: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html. |
|
Repo
|
repo | string |
Repository Maven da cui installare il pacchetto Maven. Se omesso, vengono cercati sia il repository centrale Maven che i pacchetti Spark. |
ComputePythonPyPiLibrary
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
pacchetto
|
package | string |
Nome del pacchetto pypi da installare. È supportata anche una specifica di versione esatta facoltativa. Esempi: "simplejson" e "simplejson==3.8.0". |
|
Repo
|
repo | string |
Repository in cui è possibile trovare il pacchetto. Se non specificato, viene usato l'indice pip predefinito. |
JobsNotebookTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
base_parameters
|
base_parameters | object |
Parametri di base da usare per ogni esecuzione di questo processo. Se l'esecuzione viene avviata da una chiamata a :method:jobs/run Now con i parametri specificati, vengono unite le due mappe dei parametri. Se la stessa chiave viene specificata in base_parameters e in run-now, viene usato il valore di run-now. Usare le variabili del parametro Task per impostare i parametri contenenti informazioni sulle esecuzioni del processo. Se il notebook accetta un parametro non specificato nel base_parameters del processo o i parametri di override di run-now, viene usato il valore predefinito del notebook. Recuperare questi parametri in un notebook usando dbutils.widgets.get. La rappresentazione JSON di questo campo non può superare 1 MB. |
|
notebook_path
|
notebook_path | string |
Percorso del notebook da eseguire nell'area di lavoro di Azure Databricks o nel repository remoto. Per i notebook archiviati nell'area di lavoro di Azure Databricks, il percorso deve essere assoluto e iniziare con una barra. Per i notebook archiviati in un repository remoto, il percorso deve essere relativo. Questo campo è obbligatorio. |
|
source
|
source | JobsSource | |
|
warehouse_id
|
warehouse_id | string |
Facoltativo warehouse_id per eseguire il notebook in un'istanza di SQL Warehouse. I data warehouse SQL classici NON sono supportati. Usare i data warehouse sql serverless o pro. Si noti che sql warehouse supporta solo le celle SQL; se il notebook contiene celle non SQL, l'esecuzione avrà esito negativo. |
JobsTaskNotificationSettings
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
alert_on_last_attempt
|
alert_on_last_attempt | boolean |
Se true, non inviare notifiche ai destinatari specificati in on_start per le esecuzioni ripetute e non inviare notifiche ai destinatari specificati in on_failure fino all'ultimo tentativo dell'esecuzione. |
|
no_alert_for_canceled_runs
|
no_alert_for_canceled_runs | boolean |
Se true, non inviare notifiche ai destinatari specificati in on_failure se l'esecuzione viene annullata. |
|
no_alert_for_skipped_runs
|
no_alert_for_skipped_runs | boolean |
Se true, non inviare notifiche ai destinatari specificati in on_failure se l'esecuzione viene ignorata. |
JobsPipelineTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
full_refresh
|
full_refresh | boolean |
Se true, attiva un aggiornamento completo nella tabella live delta. |
|
pipeline_id
|
pipeline_id | string |
Nome completo dell'attività della pipeline da eseguire. |
JobsPythonWheelTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
entry_point
|
entry_point | string |
Punto di ingresso denominato da usare, se non esiste nei metadati del pacchetto, esegue la funzione dal pacchetto direttamente usando $packageName.$entryPoint() |
|
named_parameters
|
named_parameters | object |
Parametri della riga di comando passati all'attività wheel python sotto forma di ["--name=task", "--data=dbfs:/path/to/data.json"]. Lasciare vuoto se i parametri non sono Null. |
|
package_name
|
package_name | string |
Nome del pacchetto da eseguire |
|
parameters
|
parameters | array of string |
Parametri della riga di comando passati all'attività wheel python. Lasciare vuoto se named_parameters non è Null. |
JobsRunIf
JobsRunJobTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
job_id
|
job_id | integer |
ID del processo da attivare. |
|
job_parameters
|
job_parameters | object |
Parametri a livello di processo usati per attivare il processo. |
|
pipeline_params
|
pipeline_params | JobsPipelineParams |
ProcessiSparkJarTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
main_class_name
|
main_class_name | string |
Il nome completo della classe che contiene il metodo main da eseguire. Questa classe deve essere contenuta in un file JAR fornito come libreria. Il codice deve usare SparkContext.getOrCreate per ottenere un contesto Spark; in caso contrario, le esecuzioni del processo hanno esito negativo. |
|
parameters
|
parameters | array of string |
Parametri passati al metodo main. Usare le variabili del parametro Task per impostare i parametri contenenti informazioni sulle esecuzioni del processo. |
JobsSparkPythonTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
parameters
|
parameters | array of string |
Parametri della riga di comando passati al file Python. Usare le variabili del parametro Task per impostare i parametri contenenti informazioni sulle esecuzioni del processo. |
|
python_file
|
python_file | string |
File Python da eseguire. Sono supportati gli URI dei file cloud( ad esempio dbfs:/, s3:/, adls:/, gcs:/) e i percorsi dell'area di lavoro. Per i file Python archiviati nell'area di lavoro di Azure Databricks, il percorso deve essere assoluto e iniziare con /. Per i file archiviati in un repository remoto, il percorso deve essere relativo. Questo campo è obbligatorio. |
|
source
|
source | JobsSource |
JobsSparkSubmitTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
parameters
|
parameters | array of string |
Parametri della riga di comando passati a spark submit. Usare le variabili del parametro Task per impostare i parametri contenenti informazioni sulle esecuzioni del processo. |
JobsWebhookNotifications
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
on_duration_warning_threshold_exceeded
|
on_duration_warning_threshold_exceeded | array of JobsWebhook |
Elenco facoltativo di ID notifica di sistema da chiamare quando la durata di un'esecuzione supera la soglia specificata per la metrica RUN_DURATION_SECONDS nel campo integrità. È possibile specificare un massimo di 3 destinazioni per la proprietà on_duration_warning_threshold_exceeded. |
|
on_failure
|
on_failure | array of JobsWebhook |
Elenco facoltativo di ID di notifica di sistema da chiamare quando l'esecuzione non riesce. È possibile specificare un massimo di 3 destinazioni per la proprietà on_failure. |
|
on_start
|
on_start | array of JobsWebhook |
Elenco facoltativo di ID notifica di sistema da chiamare all'avvio dell'esecuzione. È possibile specificare un massimo di 3 destinazioni per la proprietà on_start. |
|
on_streaming_backlog_exceeded
|
on_streaming_backlog_exceeded | array of JobsWebhook |
Elenco facoltativo di ID di notifica di sistema da chiamare quando vengono superate le soglie di backlog di streaming per qualsiasi flusso. Le soglie di backlog di streaming possono essere impostate nel campo integrità usando le metriche seguenti: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS o STREAMING_BACKLOG_FILES. Gli avvisi si basano sulla media di 10 minuti di queste metriche. Se il problema persiste, le notifiche vengono inviate nuovamente ogni 30 minuti. È possibile specificare un massimo di 3 destinazioni per la proprietà on_streaming_backlog_exceeded. |
|
on_success
|
on_success | array of JobsWebhook |
Elenco facoltativo di ID notifica di sistema da chiamare al termine dell'esecuzione. È possibile specificare un massimo di 3 destinazioni per la proprietà on_success. |
JobsWebhook
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
id
|
id | string |
JobsTriggerSettings
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
file_arrival
|
file_arrival | JobsFileArrivalTriggerConfiguration | |
|
pause_status
|
pause_status | JobsPauseStatus | |
|
periodico
|
periodic | JobsPeriodicTriggerConfiguration |
JobsFileArrivalTriggerConfiguration
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
min_time_between_triggers_seconds
|
min_time_between_triggers_seconds | integer |
Se impostato, il trigger avvia un'esecuzione solo dopo l'intervallo di tempo specificato trascorso dall'ultima attivazione del trigger. Il valore minimo consentito è 60 secondi |
|
URL
|
url | string |
URL da monitorare per gli arrivi dei file. Il percorso deve puntare alla radice o a un sottopercorso della posizione esterna. |
|
wait_after_last_change_seconds
|
wait_after_last_change_seconds | integer |
Se impostato, il trigger avvia un'esecuzione solo dopo che non è stata eseguita alcuna attività di file per il periodo di tempo specificato. In questo modo è possibile attendere l'arrivo di un batch di file in ingresso prima di attivare un'esecuzione. Il valore minimo consentito è 60 secondi. |
JobsPeriodicTriggerConfiguration
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
interval
|
interval | integer |
Intervallo in cui deve essere eseguito il trigger. |
|
unità
|
unit | JobsPeriodicTriggerConfigurationTimeUnit |
JobsPeriodicTriggerConfigurationTimeUnit
JobsTriggerStateProto
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
file_arrival
|
file_arrival | JobsFileArrivalTriggerState |
JobsFileArrivalTriggerState
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
using_file_events
|
using_file_events | boolean |
Indica se il trigger sfrutta gli eventi di file per rilevare gli arrivi dei file. |
ProcessiEsegui
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
attempt_number
|
attempt_number | integer |
Numero di sequenza di questo tentativo di esecuzione per un'esecuzione di processo attivata. Il tentativo iniziale di un'esecuzione ha un attempt_number pari a 0. Se il tentativo di esecuzione iniziale ha esito negativo e il processo ha un criterio di ripetizione dei tentativi (max_retries > 0), le esecuzioni successive vengono create con un original_attempt_run_id dell'ID del tentativo originale e un attempt_number incrementato. Le esecuzioni vengono ritentate solo fino a quando non hanno esito positivo e il valore massimo attempt_number corrisponde al valore max_retries per il processo. |
|
cleanup_duration
|
cleanup_duration | integer |
Tempo in millisecondi necessario per terminare il cluster e pulire gli elementi associati. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo cleanup_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration. |
|
cluster_instance
|
cluster_instance | JobsClusterInstance | |
|
cluster_spec
|
cluster_spec | JobsClusterSpec | |
|
creator_user_name
|
creator_user_name | string |
Nome utente autore. Questo campo non verrà incluso nella risposta se l'utente è già stato eliminato. |
|
descrizione
|
description | string |
Descrizione dell'esecuzione |
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
orario di fine
|
end_time | integer |
Ora in cui l'esecuzione è terminata in millisecondi di periodo (millisecondi dal 1/1/1970 UTC). Questo campo è impostato su 0 se il processo è ancora in esecuzione. |
|
execution_duration
|
execution_duration | integer |
Tempo in millisecondi impiegato per eseguire i comandi nel file JAR o nel notebook fino a quando non vengono completati, non riusciti, scaduti, sono stati annullati o si è verificato un errore imprevisto. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo execution_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration. |
|
git_source
|
git_source | JobsGitSource | |
|
ha_di_piu
|
has_more | boolean |
Indica se l'esecuzione ha più proprietà della matrice (attività, job_clusters) che non vengono visualizzate. È possibile accedervi tramite l'endpoint :method:jobs/getrun. È rilevante solo per le richieste API 2.2 :method:jobs/listruns con expand_tasks=true. |
|
job_clusters
|
job_clusters | array of JobsJobCluster |
Elenco delle specifiche del cluster di lavori che possono essere condivise e riutilizzate dalle attività di questo lavoro. Le librerie non possono essere dichiarate in un cluster di processi condivisi. È necessario dichiarare librerie dipendenti nelle impostazioni delle attività. Se sono disponibili più di 100 cluster di processi, è possibile impaginarli usando :method:jobs/getrun. |
|
job_id
|
job_id | integer |
Identificatore canonico del processo che contiene questa esecuzione. |
|
job_parameters
|
job_parameters | array of JobsJobParameter |
Parametri a livello di processo usati nell'esecuzione |
|
job_run_id
|
job_run_id | integer |
ID dell'esecuzione del processo a cui appartiene questa esecuzione. Per il processo legacy e a singola attività, il campo viene popolato con l'ID di esecuzione del processo. Per le esecuzioni di attività, il campo viene popolato con l'ID dell'esecuzione del processo a cui appartiene l'attività. |
|
next_page_token
|
next_page_token | string |
Token che può essere usato per elencare la pagina successiva delle proprietà della matrice. |
|
original_attempt_run_id
|
original_attempt_run_id | integer |
Se questa esecuzione è un nuovo tentativo di esecuzione precedente, questo campo contiene il run_id del tentativo originale; in caso contrario, corrisponde al run_id. |
|
overriding_parameters
|
overriding_parameters | JobsRunParameters | |
|
queue_duration
|
queue_duration | integer |
Tempo in millisecondi trascorso dall'esecuzione nella coda. |
|
repair_history
|
repair_history | array of JobsRepairHistoryItem |
Cronologia di ripristino dell'esecuzione. |
|
run_duration
|
run_duration | integer |
Tempo in millisecondi impiegato per l'esecuzione del processo e tutte le relative riparazioni per terminare. |
|
run_id
|
run_id | integer |
Identificatore canonico dell'esecuzione. Questo ID è univoco in tutte le esecuzioni di tutti i processi. |
|
run_name
|
run_name | string |
Nome facoltativo per l'esecuzione. La lunghezza massima è di 4096 byte nella codifica UTF-8. |
|
run_page_url
|
run_page_url | string |
URL della pagina dei dettagli dell'esecuzione. |
|
tipo_di_esecuzione
|
run_type | JobsRunType | |
|
Orario
|
schedule | JobsCronSchedule | |
|
setup_duration
|
setup_duration | integer |
Tempo in millisecondi necessario per configurare il cluster. Per le esecuzioni eseguite in nuovi cluster questo è il tempo di creazione del cluster, per le esecuzioni eseguite in cluster esistenti questa volta dovrebbero essere molto brevi. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo setup_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration. |
|
ora_di_inizio
|
start_time | integer |
Ora in cui questa esecuzione è stata avviata in millisecondi di periodo (millisecondi dal 1/1/1970 UTC). Questo potrebbe non essere il momento in cui l'attività del processo inizia l'esecuzione, ad esempio se il processo è pianificato per l'esecuzione in un nuovo cluster, è il momento in cui viene eseguita la chiamata di creazione del cluster. |
|
status
|
status | JobsRunStatus | |
|
tasks
|
tasks | array of JobsRunTask |
Elenco di attività eseguite dall'esecuzione. Ogni attività ha un proprio run_id che è possibile usare per chiamare JobsGetOutput per recuperare i resutls di esecuzione. Se sono disponibili più di 100 attività, è possibile impaginarle usando :method:jobs/getrun. Usare il campo next_page_token nella radice dell'oggetto per determinare se sono disponibili altri risultati. |
|
trigger
|
trigger | JobsTriggerType | |
|
trigger_info
|
trigger_info | JobsTriggerInfo |
JobsClusterInstance
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
cluster_id
|
cluster_id | string |
Identificatore canonico per il cluster usato da un'esecuzione. Questo campo è sempre disponibile per l'esecuzione in cluster esistenti. Per l'esecuzione in nuovi cluster, diventa disponibile dopo la creazione del cluster. Questo valore può essere usato per visualizzare i log passando a /#setting/sparkui/$cluster_id/driver-logs. I log continuano a essere disponibili al termine dell'esecuzione. La risposta non includerà questo campo se l'identificatore non è ancora disponibile. |
|
spark_context_id
|
spark_context_id | string |
Identificatore canonico per il contesto Spark usato da un'esecuzione. Questo campo viene compilato dopo l'inizio dell'esecuzione. Questo valore può essere usato per visualizzare l'interfaccia utente di Spark passando a /#setting/sparkui/$cluster_id/$spark_context_id. L'interfaccia utente di Spark continua a essere disponibile dopo il completamento dell'esecuzione. La risposta non includerà questo campo se l'identificatore non è ancora disponibile. |
JobsClusterSpec
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
existing_cluster_id
|
existing_cluster_id | string |
Se existing_cluster_id, l'ID di un cluster esistente usato per tutte le esecuzioni. Quando si eseguono processi o attività in un cluster esistente, potrebbe essere necessario riavviare manualmente il cluster se smette di rispondere. È consigliabile eseguire processi e attività in nuovi cluster per una maggiore affidabilità |
|
job_cluster_key
|
job_cluster_key | string |
Se job_cluster_key, questa attività viene eseguita riutilizzando il cluster specificato in job.settings.job_clusters. |
|
libraries
|
libraries | array of ComputeLibrary |
Elenco facoltativo di librerie da installare nel cluster. Il valore predefinito è un elenco vuoto. |
|
new_cluster
|
new_cluster | ComputeClusterSpec |
ProcessiJobParameter
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
default
|
default | string |
Valore predefinito facoltativo del parametro |
|
nome
|
name | string |
Nome del parametro |
|
value
|
value | string |
Valore utilizzato nell'esecuzione |
JobsRunParameters
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
pipeline_params
|
pipeline_params | JobsPipelineParams |
JobsRepairHistoryItem
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
orario di fine
|
end_time | integer |
Ora di fine dell'esecuzione (ripristinata). |
|
id
|
id | integer |
ID del ripristino. Restituito solo per gli elementi che rappresentano un ripristino in repair_history. |
|
ora_di_inizio
|
start_time | integer |
Ora di inizio dell'esecuzione (ripristinata). |
|
status
|
status | JobsRunStatus | |
|
task_run_ids
|
task_run_ids | array of integer |
ID esecuzione dell'attività eseguita come parte di questo elemento della cronologia di ripristino. |
|
type
|
type | JobsRepairHistoryItemType |
JobsRunStatus
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
queue_details
|
queue_details | JobsQueueDetails | |
|
state
|
state | JobsRunLifecycleStateV2State | |
|
termination_details
|
termination_details | JobsTerminationDetails |
JobsQueueDetails
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
codice
|
code | JobsQueueDetailsCodeCode | |
|
message
|
message | string |
Messaggio descrittivo con i dettagli di accodamento. Questo campo non è strutturato e il formato esatto è soggetto a modifiche. |
JobsQueueDetailsCodeCode
JobsRunLifecycleStateV2State
JobsTerminationDetails
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
codice
|
code | JobsTerminationCodeCode | |
|
message
|
message | string |
Messaggio descrittivo con i dettagli di terminazione. Questo campo non è strutturato e il formato potrebbe cambiare. |
|
type
|
type | JobsTerminationTypeType |
JobsTerminationCodeCode
JobsTerminationTypeType
JobsRepairHistoryItemType
JobsRunType
JobsRunTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
attempt_number
|
attempt_number | integer |
Numero di sequenza di questo tentativo di esecuzione per un'esecuzione di processo attivata. Il tentativo iniziale di un'esecuzione ha un attempt_number pari a 0. Se il tentativo di esecuzione iniziale ha esito negativo e il processo ha un criterio di ripetizione dei tentativi (max_retries > 0), le esecuzioni successive vengono create con un original_attempt_run_id dell'ID del tentativo originale e un attempt_number incrementato. Le esecuzioni vengono ritentate solo fino a quando non hanno esito positivo e il valore massimo attempt_number corrisponde al valore max_retries per il processo. |
|
clean_rooms_notebook_task
|
clean_rooms_notebook_task | Object | |
|
cleanup_duration
|
cleanup_duration | integer |
Tempo in millisecondi necessario per terminare il cluster e pulire gli elementi associati. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo cleanup_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration. |
|
cluster_instance
|
cluster_instance | JobsClusterInstance | |
|
condition_task
|
condition_task | JobsRunConditionTask | |
|
dashboard_task
|
dashboard_task | Object | |
|
dbt_task
|
dbt_task | Object | |
|
depends_on
|
depends_on | array of JobsTaskDependency |
Matrice facoltativa di oggetti che specifica il grafico delle dipendenze dell'attività. Tutte le attività specificate in questo campo devono essere completate correttamente prima di eseguire questa attività. La chiave è task_key e il valore è il nome assegnato all'attività dipendente. |
|
descrizione
|
description | string |
Descrizione facoltativa per questa attività. |
|
effective_performance_target
|
effective_performance_target | JobsPerformanceTarget | |
|
email_notifications
|
email_notifications | JobsJobEmailNotifications | |
|
orario di fine
|
end_time | integer |
Ora in cui l'esecuzione è terminata in millisecondi di periodo (millisecondi dal 1/1/1970 UTC). Questo campo è impostato su 0 se il processo è ancora in esecuzione. |
|
environment_key
|
environment_key | string |
Chiave che fa riferimento a una specifica di ambiente in un processo. Questo campo è obbligatorio per le attività python script, python wheel e dbt quando si usa il calcolo serverless. |
|
execution_duration
|
execution_duration | integer |
Tempo in millisecondi impiegato per eseguire i comandi nel file JAR o nel notebook fino a quando non vengono completati, non riusciti, scaduti, sono stati annullati o si è verificato un errore imprevisto. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo execution_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration. |
|
existing_cluster_id
|
existing_cluster_id | string |
Se existing_cluster_id, l'ID di un cluster esistente usato per tutte le esecuzioni. Quando si eseguono processi o attività in un cluster esistente, potrebbe essere necessario riavviare manualmente il cluster se smette di rispondere. È consigliabile eseguire processi e attività in nuovi cluster per una maggiore affidabilità |
|
for_each_task
|
for_each_task | Object | |
|
git_source
|
git_source | JobsGitSource | |
|
job_cluster_key
|
job_cluster_key | string |
Se job_cluster_key, questa attività viene eseguita riutilizzando il cluster specificato in job.settings.job_clusters. |
|
libraries
|
libraries | array of Object |
Elenco facoltativo di librerie da installare nel cluster. Il valore predefinito è un elenco vuoto. |
|
new_cluster
|
new_cluster | Object | |
|
notebook_task
|
notebook_task | JobsNotebookTask | |
|
notification_settings
|
notification_settings | Object | |
|
pipeline_task
|
pipeline_task | Object | |
|
power_bi_task
|
power_bi_task | Object | |
|
python_wheel_task
|
python_wheel_task | Object | |
|
queue_duration
|
queue_duration | integer |
Tempo in millisecondi trascorso dall'esecuzione nella coda. |
|
resolved_values
|
resolved_values | JobsResolvedValues | |
|
run_duration
|
run_duration | integer |
Tempo in millisecondi impiegato per l'esecuzione del processo e tutte le relative riparazioni per terminare. |
|
run_id
|
run_id | integer |
ID dell'esecuzione dell'attività. |
|
run_if
|
run_if | JobsRunIf | |
|
run_job_task
|
run_job_task | JobsRunJobTask | |
|
run_page_url
|
run_page_url | string | |
|
setup_duration
|
setup_duration | integer |
Tempo in millisecondi necessario per configurare il cluster. Per le esecuzioni eseguite in nuovi cluster questo è il tempo di creazione del cluster, per le esecuzioni eseguite in cluster esistenti questa volta dovrebbero essere molto brevi. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo setup_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration. |
|
spark_jar_task
|
spark_jar_task | Object | |
|
spark_python_task
|
spark_python_task | Object | |
|
spark_submit_task
|
spark_submit_task | Object | |
|
sql_task
|
sql_task | Object | |
|
ora_di_inizio
|
start_time | integer |
Ora in cui questa esecuzione è stata avviata in millisecondi di periodo (millisecondi dal 1/1/1970 UTC). Questo potrebbe non essere il momento in cui l'attività del processo inizia l'esecuzione, ad esempio se il processo è pianificato per l'esecuzione in un nuovo cluster, è il momento in cui viene eseguita la chiamata di creazione del cluster. |
|
status
|
status | JobsRunStatus | |
|
task_key
|
task_key | string |
Nome univoco per l'attività. Questo campo viene usato per fare riferimento a questa attività da altre attività. Questo campo è obbligatorio e deve essere univoco all'interno del processo padre. In Aggiorna o Reimposta questo campo viene usato per fare riferimento alle attività da aggiornare o reimpostare. |
|
timeout_seconds
|
timeout_seconds | integer |
Timeout facoltativo applicato a ogni esecuzione di questa attività di processo. Il valore 0 indica che non è previsto alcun timeout. |
|
webhook_notifications
|
webhook_notifications | Object |
JobsRunConditionTask
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
sinistra
|
left | string |
Operando sinistro dell'attività della condizione. Può essere un valore stringa o un riferimento a uno stato del processo o a un parametro. |
|
Op
|
op | JobsConditionTaskOp | |
|
risultato
|
outcome | string |
Risultato della valutazione dell'espressione della condizione. Compilato se l'attività è stata completata correttamente. Può essere "true" o "false" |
|
A destra
|
right | string |
Operando destro dell'attività della condizione. Può essere un valore stringa o un riferimento a uno stato del processo o a un parametro. |
JobsTriggerType
JobsTriggerInfo
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
run_id
|
run_id | integer |
ID esecuzione dell'attività Esegui processo |
JobsRunOutput
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
clean_rooms_notebook_output
|
clean_rooms_notebook_output | Object | |
|
dashboard_output
|
dashboard_output | Object | |
|
dbt_output
|
dbt_output | Object | |
|
Errore
|
error | string |
Messaggio di errore che indica perché un'attività non è riuscita o perché l'output non è disponibile. Il messaggio non è strutturato e il formato esatto è soggetto a modifiche. |
|
error_trace
|
error_trace | string |
Se si è verificato un errore durante l'esecuzione, questo campo contiene eventuali tracce dello stack disponibili. |
|
info
|
info | string | |
|
logs
|
logs | string |
Output delle attività che scrivono in flussi standard (stdout/stderr), ad esempio spark_jar_task, spark_python_task python_wheel_task. Non è supportato per le notebook_task, le pipeline_task o le spark_submit_task. Azure Databricks limita questa API a restituire gli ultimi 5 MB di questi log. |
|
logs_truncated
|
logs_truncated | boolean |
Indica se i log vengono troncati. |
|
metadata
|
metadata | Object | |
|
notebook_output
|
notebook_output | JobsNotebookOutput | |
|
run_job_output
|
run_job_output | JobsRunJobOutput | |
|
sql_output
|
sql_output | Object |
JobsNotebookOutput
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
risultato
|
result | string |
Valore passato a dbutils.notebook.exit(). Azure Databricks limita questa API per restituire i primi 5 MB del valore. Per ottenere un risultato più ampio, il processo può archiviare i risultati in un servizio di archiviazione cloud. Questo campo è assente se dbutils.notebook.exit() non è mai stato chiamato. |
|
troncato
|
truncated | boolean |
Indica se il risultato è stato troncato. |
JobsRunJobOutput
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
run_id
|
run_id | integer |
ID esecuzione dell'esecuzione del processo attivato |
JobsResolvedValues
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
condition_task
|
condition_task | JobsResolvedConditionTaskValues | |
|
dbt_task
|
dbt_task | JobsResolvedDbtTaskValues | |
|
notebook_task
|
notebook_task | JobsResolvedNotebookTaskValues | |
|
python_wheel_task
|
python_wheel_task | JobsResolvedPythonWheelTaskValues | |
|
run_job_task
|
run_job_task | JobsResolvedRunJobTaskValues | |
|
simulation_task
|
simulation_task | JobsResolvedParamPairValues | |
|
spark_jar_task
|
spark_jar_task | JobsResolvedStringParamsValues | |
|
spark_python_task
|
spark_python_task | JobsResolvedStringParamsValues | |
|
spark_submit_task
|
spark_submit_task | JobsResolvedStringParamsValues | |
|
sql_task
|
sql_task | JobsResolvedParamPairValues |
JobsResolvedConditionTaskValues
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
sinistra
|
left | string | |
|
A destra
|
right | string |
JobsResolvedDbtTaskValues
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
commands
|
commands | array of string |
JobsResolvedNotebookTaskValues
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
base_parameters
|
base_parameters | object |
JobsResolvedPythonWheelTaskValues
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
named_parameters
|
named_parameters | object | |
|
parameters
|
parameters | array of string |
JobsResolvedRunJobTaskValues
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
job_parameters
|
job_parameters | object | |
|
parameters
|
parameters | object |
JobsResolvedParamPairValues
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
parameters
|
parameters | object |
JobsResolvedStringParamsValues
| Nome | Percorso | Tipo | Descrizione |
|---|---|---|---|
|
parameters
|
parameters | array of string |