Condividi tramite


Azure Databricks

Azure Databricks offre una piattaforma unificata per la gestione, la governance e l'analisi dei dati scalabili, combinando flussi di lavoro semplificati con la possibilità di gestire in modo efficiente diversi tipi di dati

Questo connettore è disponibile nei prodotti e nelle aree seguenti:

Servizio Class Regions
Copilot Studio Di alta qualità Tutte le aree di Power Automate , ad eccezione delle seguenti:
     - Governo degli Stati Uniti (GCC)
     - Us Government (GCC High)
     - China Cloud gestito da 21Vianet
     - Dipartimento della Difesa degli Stati Uniti (DoD)
Power Apps Di alta qualità Tutte le aree di Power Apps , ad eccezione dei seguenti:
     - Governo degli Stati Uniti (GCC)
     - Us Government (GCC High)
     - China Cloud gestito da 21Vianet
     - Dipartimento della Difesa degli Stati Uniti (DoD)
Power Automate Di alta qualità Tutte le aree di Power Automate , ad eccezione delle seguenti:
     - Governo degli Stati Uniti (GCC)
     - Us Government (GCC High)
     - China Cloud gestito da 21Vianet
     - Dipartimento della Difesa degli Stati Uniti (DoD)
Contatto
Nome Supporto di Databricks
URL https://help.databricks.com
Email eng-partner-eco-help@databricks.com
Metadati del connettore
Editore Databricks Inc.
Sito web https://www.databricks.com/
Informativa sulla privacy https://www.databricks.com/legal/privacynotice
Categorie Data

Connettersi ad Azure Databricks utilizzando Microsoft Power Platform

Questa pagina illustra come connettersi ad Azure Databricks da Microsoft Power Platform aggiungendo Azure Databricks come connessione dati. Quando si è connessi, è possibile usare i dati di Azure Databricks dalle piattaforme seguenti:

  • Power Apps: consente di compilare applicazioni che possono leggere e scrivere in Azure Databricks, mantenendo al tempo stesso i controlli di governance di Azure Databricks.
  • Power Automate: consente di compilare flussi e aggiungere azioni che consentono di eseguire SQL personalizzato o un processo esistente e ottenere i risultati.
  • Copilot Studio: creare agenti personalizzati usando i dati di Azure Databricks come origine delle informazioni.

Prima di iniziare

Prima di connettersi ad Azure Databricks da Power Platform, è necessario soddisfare i requisiti seguenti:

  • Si dispone di un account Microsoft Entra ID (in precedenza Azure Active Directory).
  • Si dispone di una licenza premium di Power Apps.
  • Si dispone di un account Azure Databricks.
  • È possibile accedere a un'istanza di SQL Warehouse in Azure Databricks.

Facoltativo: connettersi con reti virtuali di Azure

Se l'area di lavoro di Azure Databricks usa reti virtuali, è possibile connettersi in due modi:

  1. Integrare Power Platform con le risorse all'interno della rete virtuale senza esporle tramite la rete Internet pubblica. Per connettersi all'endpoint privato dell'area di lavoro di Azure Databricks, eseguire le operazioni seguenti dopo aver configurato la connettività privata ad Azure Databricks:

    Per altre informazioni sulle reti virtuali, vedere Panoramica del supporto della rete virtuale.

  2. Abilita l'accesso tramite distribuzione ibrida, in cui un collegamento privato di front-end con un endpoint pubblico è protetto tramite un elenco di accesso IP dell'area di lavoro. Per abilitare l'accesso, eseguire le operazioni seguenti:

    1. Abilitare l'accesso pubblico a livello di area di lavoro. Per altre informazioni, vedere Configurare gli elenchi di accesso IP per le aree di lavoro.
    2. Aggiungere l'intervallo IP azureConnectors o un intervallo IP specifico di Power Platform in base all'area dell'ambiente all'elenco di accesso IP dell'area di lavoro.

Facoltativo: creare un'entità servizio Microsoft Entra

Important

Se Azure Databricks e Power Platform si trovano in tenant diversi, è necessario usare le entità servizio per l'autenticazione.

Prima di connettersi, completare i passaggi seguenti per creare, configurare e assegnare un principale del servizio di Microsoft Entra all'area di lavoro o all'account di Azure Databricks.

Passaggio 1: Aggiungere una connessione di Azure Databricks a Power Platform

Nota: Se si usa Copilot Studio, è consigliabile creare la connessione Databricks in Power Apps o Power Automate. Può quindi essere usato in Copilot Studio.

Per aggiungere una connessione di Azure Databricks, seguire questa procedura:

  1. Nella barra laterale di Power Apps o Power Automate fare clic su Connessioni.

  2. Fare clic su + Nuova connessione nell'angolo superiore sinistro.

  3. Cercare "Azure Databricks" usando la barra di ricerca in alto a destra.

  4. Selezionare il riquadro Azure Databricks .

  5. Selezionare il tipo di autenticazione dal menu a discesa.

  6. Selezionare il metodo di autenticazione e immettere le informazioni di autenticazione.

    • Se la distribuzione di Power Platform e l'account Azure Databricks si trovano nello stesso tenant di Microsoft Entra, è possibile usare la connessione OAuth. Immettere le informazioni seguenti:

      • Per Nome host del server, inserire il nome host del magazzino SQL di Azure Databricks.
      • Per Percorso HTTP immettere il percorso HTTP di SQL Warehouse.
      • Clicca su Crea.
      • Accedere con l'ID Microsoft Entra.
    • La connessione all'entità servizio può essere usata in qualsiasi scenario. Prima di connettersi, creare un principale del servizio Microsoft Entra. Immettere le informazioni seguenti:

      • Per ID client immettere l'ID principale del servizio.
      • Per Segreto del client, immettere il segreto del principale del servizio.
      • In Tenant inserisci il tenant del principale del servizio.
      • Per Hostname, immettere il nome host di Azure Databricks SQL Warehouse.
      • Per Percorso HTTP immettere il percorso HTTP di SQL Warehouse.
      • (Opzionale) È possibile rinominare o condividere la connessione del principale di servizio con i membri del team una volta creata la connessione.
    • Per trovare i dettagli della connessione di Azure Databricks SQL Warehouse, vedere Ottenere i dettagli della connessione per una risorsa di calcolo di Azure Databricks.

  7. Clicca su Crea.

Passaggio 2: Usare la connessione di Azure Databricks

Dopo aver creato una connessione di Azure Databricks in Power Apps o Power Automate, è possibile usare i dati di Azure Databricks per creare app canvas di Power, flussi di Power Automate e agenti di Copilot Studio.

Usare i dati di Azure Databricks per creare app canvas di Power

Important

È possibile usare le app canvas solo se ci si connette direttamente ad Azure Databricks nell'app. Non è possibile usare tabelle virtuali.

Per aggiungere i dati di Azure Databricks all'applicazione, seguire questa procedura:

  1. Nella barra di spostamento più a sinistra fare clic su Crea.
  2. Fare clic su Inizia con un'area di disegno vuota e selezionare le dimensioni dell'area di disegno desiderate per creare una nuova app canvas.
  3. Nell'applicazione fare clic su Aggiungiconnettori>dati> diAzure Databricks. Selezionare la connessione di Azure Databricks creata.
  4. Selezionare un catalogo dalla barra laterale Scegliere un set di dati .
  5. Nella barra laterale Scegliere un set di dati selezionare tutte le tabelle a cui connettere l'app canvas.
  6. Fare clic su Connetti.

Operazioni dei dati in Power Apps:

Il connettore supporta operazioni di creazione, aggiornamento ed eliminazione, ma solo per le tabelle con una chiave primaria definita. Quando si eseguono operazioni di creazione, è necessario specificare sempre la chiave primaria.

Nota: Azure Databricks supporta colonne Identity generate. In questo caso, i valori della chiave primaria vengono generati automaticamente nel server durante la creazione di righe e non possono essere specificati manualmente.

Usare i dati di Azure Databricks per creare flussi di Power Automate

L'API di esecuzione delle istruzioni e l'API Processi vengono esposte all'interno di Power Automate, consentendo di scrivere istruzioni SQL ed eseguire processi esistenti. Per creare un flusso di Power Automate usando Azure Databricks come azione, eseguire le operazioni seguenti:

  1. Nella barra di spostamento più a sinistra fare clic su Crea.
  2. Creare un flusso e aggiungere qualsiasi tipo di trigger.
  3. Dal nuovo flusso fare clic + e cercare "Databricks" per visualizzare le azioni disponibili.

Per scrivere SQL, selezionare una delle azioni seguenti:

  • Eseguire un'istruzione SQL: scrivere ed eseguire un'istruzione SQL. Immetti gli elementi seguenti:

    • Per Corpo/warehouse_id, inserire l'ID del magazzino in cui eseguire l'istruzione SQL.
    • Per Corpo/statement_id immettere l'ID dell'istruzione SQL da eseguire.
    • Per altre informazioni sui parametri avanzati, vedere qui.
  • Controllare lo stato e ottenere i risultati: controllare lo stato di un'istruzione SQL e raccogliere i risultati. Immetti gli elementi seguenti:

    • Per ID dichiarazione, immettere l'ID restituito quando è stata eseguita l'istruzione SQL.
    • Per altre informazioni sul parametro, vedere qui.
  • Annullare l'esecuzione di un'istruzione: termina l'esecuzione di un'istruzione SQL. Immetti gli elementi seguenti:

    • Per ID dell'istruzione, immettere l'ID dell'istruzione SQL da interrompere.
    • Per altre informazioni sul parametro, vedere qui.
  • Ottenere il risultato in base all'indice del blocco: ottenere i risultati per indice di blocco, adatto per set di risultati di grandi dimensioni. Immetti gli elementi seguenti:

    • Per ID istruzione immettere l'ID dell'istruzione SQL di cui desideri recuperare i risultati.
    • Per Indice blocchi immettere l'indice del blocco di destinazione.
    • Per altre informazioni sui parametri, vedere qui.

Per interagire con un processo databricks esistente, selezionare una delle azioni seguenti:

  • Elenca processi: recupera un elenco di processi. Per altre informazioni, vedere qui.
  • Attivare una nuova esecuzione del processo: esegue un processo e restituisce il run_id dell'esecuzione attivata. Per altre informazioni, vedere qui.
  • Ottenere un'esecuzione di un singolo processo: restituisce i metadati relativi a un'esecuzione, inclusi lo stato di esecuzione (ad esempio RUNNING, SUCCESS, FAILED), l'ora di inizio e di fine, la durata dell'esecuzione, le informazioni sul cluster e così via. Per altre informazioni, vedere qui.
  • Annullare un'esecuzione del processo: annulla l'esecuzione di un processo o un'esecuzione di un'attività. Per ulteriori informazioni, vedi qui.
  • Ottenere l'output per un'esecuzione di un singolo processo: recupera l'output e i metadati di una singola esecuzione di un'attività. Per ulteriori informazioni, vedi qui.

Usare Azure Databricks come origine delle conoscenze in Copilot Studio

Per aggiungere i dati di Azure Databricks come origine delle informazioni a un agente di Copilot Studio, seguire questa procedura:

  1. Nella barra laterale fare clic su Agente.
  2. Selezionare un agente esistente o creare un nuovo agente facendo clic su + Nuovo agente.
    • Descrivere l'agente immettendo un messaggio e quindi fare clic su Crea.
    • In alternativa, fare clic su Ignora per specificare manualmente le informazioni dell'agente.
  3. Nella scheda Knowledge fare clic su + Knowledge.
  4. Fare clic su Avanzate.
  5. Selezionare Azure Databricks come origine delle informazioni.
  6. Immettere il nome del catalogo in cui si trovano i dati.
  7. Fare clic su Connetti.
  8. Selezionare le tabelle che si vuole che l'agente usi come fonte di conoscenza e fare clic su Aggiungi.

Creare tabelle virtuali di Dataverse con i dati di Azure Databricks

È anche possibile creare tabelle virtuali di Dataverse con il connettore Azure Databricks. Le tabelle virtuali, note anche come entità virtuali, integrano i dati di sistemi esterni con Microsoft Dataverse. Una tabella virtuale definisce una tabella in Dataverse senza archiviare la tabella fisica nel database Dataverse. Per altre informazioni sulle tabelle virtuali, vedere Introduzione alle tabelle virtuali (entità).

Nota

Anche se le tabelle virtuali non utilizzano la capacità di archiviazione di Dataverse, Databricks consiglia di usare connessioni dirette per ottenere prestazioni migliori.

È necessario avere il ruolo Di personalizzazione del sistema o Amministratore di sistema. Per altre informazioni, vedere Ruoli di sicurezza per Power Platform.

Seguire questa procedura per creare una tabella virtuale Dataverse:

  1. Nella barra laterale di Power Apps fare clic su Tabelle.

  2. Fare clic su + Nuova tabella dalla barra dei menu e selezionare Crea una tabella virtuale.

  3. Selezionare una connessione di Azure Databricks esistente o creare una nuova connessione ad Azure Databricks. Per aggiungere una nuova connessione, vedere Passaggio 1: Aggiungere una connessione di Azure Databricks a Power Platform.

    Databricks consiglia di usare una connessione entità servizio per creare una tabella virtuale.

  4. Fare clic su Avanti.

  5. Selezionare le tabelle da rappresentare come tabella virtuale Dataverse.

    • Le tabelle virtuali di Dataverse richiedono una chiave primaria. Di conseguenza, le viste non possono essere tabelle virtuali, ma le viste materializzate possono.
  6. Fare clic su Avanti.

  7. Configurare la tabella virtuale aggiornando i dettagli della tabella, se necessario.

  8. Fare clic su Avanti.

  9. Confermare i dettagli dell'origine dati e fare clic su Fine.

  10. Usare la tabella virtuale Dataverse in Power Apps, Power Automate e Copilot Studio.

Per un elenco delle limitazioni note delle tabelle virtuali di Dataverse, vedere Limitazioni note e risoluzione dei problemi.

Eseguire gli aggiornamenti batch

Se è necessario eseguire operazioni di creazione, aggiornamento o eliminazione in blocco in risposta agli input di Power Apps, Databricks consiglia di implementare un flusso di Power Automate. A tale scopo, effettuare le seguenti operazioni:

  1. Creare un'app canvas usando la connessione di Azure Databricks in Power Apps.

  2. Creare un flusso di Power Automate usando la connessione di Azure Databricks e usare Power Apps come trigger.

  3. Nel trigger di Power Automate aggiungere i campi di input da passare da Power Apps a Power Automate.

  4. Creare un oggetto raccolta all'interno di Power Apps per raccogliere tutte le modifiche.

  5. Aggiungi il flusso di Power Automate alla tua app Canvas.

  6. Chiamare il flusso di Power Automate dalla tua app per canvas e iterare sulla raccolta utilizzando il comando ForAll.

    ForAll(collectionName, FlowName.Run(input field 1, input field 2, input field 3, …)
    

Scritture simultanee

La concorrenza a livello di riga riduce i conflitti tra le operazioni di scrittura simultanee rilevando le modifiche a livello di riga e risolvendo automaticamente i conflitti che si verificano quando si scrive simultaneamente l'aggiornamento o si eliminano righe diverse nello stesso file di dati.

La concorrenza a livello di riga è inclusa in Databricks Runtime 14.2 o versione successiva. La concorrenza a livello di riga è supportata per impostazione predefinita per i tipi di tabelle seguenti:

  • Tabelle con vettori di eliminazione abilitati e senza partizionamento
  • Tabelle con raggruppamento liquido, a meno che i vettori di eliminazione non siano disattivati

Per abilitare i vettori di eliminazione, eseguire il comando SQL seguente:

ALTER TABLE table_name SET TBLPROPERTIES ('delta.enableDeletionVectors' = true);

Per altre informazioni sui conflitti di scrittura simultanei in Azure Databricks, vedere Livelli di isolamento e conflitti di scrittura in Azure Databricks.

Aggiungere Azure Databricks a un criterio dati

Aggiungendo Azure Databricks a un criterio dati aziendali, Azure Databricks non può condividere dati con i connettori in gruppi diversi. Ciò protegge i dati e impedisce che vengano condivisi con gli utenti che non devono avere accesso. Per altre informazioni, vedere Gestire i criteri dati.

Per aggiungere il connettore Azure Databricks a una politica dati di Power Platform:

  1. Da qualsiasi applicazione Power Platform fare clic sull'ingranaggio delle impostazioni in alto a destra e selezionare Interfaccia di amministrazione.
  2. Nella barra laterale fare clic su Criteri>criteri dati.
  3. Se si usa la nuova interfaccia di amministrazione, fare clic su Dati di sicurezza> eInformativa sui dati>.
  4. Fare clic su + Nuovo criterio o selezionare un criterio esistente.
  5. Se si crea una nuova policy, immettere un nome.
  6. Selezionare un ambiente da aggiungere ai criteri e fare clic su + Aggiungi ai criteri precedenti.
  7. Fare clic su Avanti.
  8. Cercare e selezionare il connettore Azure Databricks .
  9. Fare clic su Sposta in azienda e fare clic su Avanti.
  10. Esaminare i criteri e fare clic su Crea criterio.

Limitazioni

  • Il connettore Power Platform non supporta i cloud per enti pubblici.

Limitazioni di Power App

Le formule di PowerFx seguenti calcolano i valori usando solo i dati recuperati in locale:

Categoria Formula
Funzione Table - GroupBy
-Distinto
Aggregation - CountRows
- StdevP
- StdevS

Creazione di una connessione

Il connettore supporta i tipi di autenticazione seguenti:

Connessione OAuth Connessione OAuth Tutte le aree geografiche Non condivisibile
Connessione all'entità servizio Connessione all'entità servizio Tutte le aree geografiche Condivisibile
Impostazione predefinita [DEPRECATO] Questa opzione è solo per le connessioni meno recenti senza un tipo di autenticazione esplicito e viene fornita solo per la compatibilità con le versioni precedenti. Tutte le aree geografiche Non condivisibile

Connessione OAuth

ID autenticazione: oauth2-auth

Applicabile: tutte le aree

Connessione OAuth

Questa non è una connessione condivisibile. Se l'app power viene condivisa con un altro utente, verrà richiesto a un altro utente di creare una nuova connessione in modo esplicito.

Nome TIPO Description Obbligatorio
Nome host server (esempio: adb-3980263885549757139.2.azuredatabricks.net) corda Nome server dell'area di lavoro di Databricks Vero
Percorso HTTP (esempio: /sql/1.0/warehouses/a9c4e781bd29f315) corda Percorso HTTP di Databricks SQL Warehouse Vero

Connessione all'entità servizio

ID autenticazione: oAuthClientCredentials

Applicabile: tutte le aree

Connessione all'entità servizio

Si tratta di una connessione condivisibile. Se l'app per l'alimentazione viene condivisa con un altro utente, anche la connessione viene condivisa. Per altre informazioni, vedere Panoramica dei connettori per le app canvas - Power Apps | Microsoft Docs

Nome TIPO Description Obbligatorio
ID cliente corda Vero
Segreto del cliente securestring Vero
Tenant corda Vero
Nome host server (esempio: adb-3980263885549757139.2.azuredatabricks.net) corda Nome server dell'area di lavoro di Databricks Vero
Percorso HTTP (esempio: /sql/1.0/warehouses/a9c4e781bd29f315) corda Percorso HTTP di Databricks SQL Warehouse Vero

Impostazione predefinita [DEPRECATO]

Applicabile: tutte le aree

Questa opzione è solo per le connessioni meno recenti senza un tipo di autenticazione esplicito e viene fornita solo per la compatibilità con le versioni precedenti.

Questa non è una connessione condivisibile. Se l'app power viene condivisa con un altro utente, verrà richiesto a un altro utente di creare una nuova connessione in modo esplicito.

Limiti per la limitazione delle richieste

Nome Chiamate Periodo di rinnovo
Chiamate API per connessione 100 60 secondi

Azioni

Annullare l'esecuzione dell'istruzione

Richiede l'annullamento di un'istruzione in esecuzione. I chiamanti devono eseguire il polling dello stato per visualizzare lo stato del terminale.

Annullare un'esecuzione

Annulla un'esecuzione di un processo o un'esecuzione di un'attività. L'esecuzione viene annullata in modo asincrono, quindi potrebbe essere ancora in esecuzione al termine della richiesta.

Attivare una nuova esecuzione del processo

Eseguire un processo e restituire il run_id dell'esecuzione attivata.

Azure Databricks Genie

Eseguire query sugli spazi Genie per ottenere informazioni dettagliate dai dati.

Controllare lo stato e ottenere i risultati

Ottenere lo stato, il manifesto e i risultati dell'istruzione

Elencare i processi

Recupera un elenco di processi.

Eseguire un'istruzione SQL

Eseguire un'istruzione SQL e, facoltativamente, attendere i risultati per un periodo di tempo specificato.

Ottenere il risultato in base all'indice di blocco

Dopo l'esecuzione dell'istruzione SUCCEEDED, questa richiesta può essere usata per recuperare qualsiasi blocco in base all'indice.

Ottenere l'output per una singola esecuzione

Recuperare l'output e i metadati di una singola esecuzione di un'attività. Quando un'attività notebook restituisce un valore tramite la chiamata dbutils.notebook.exit(), è possibile usare questo endpoint per recuperare tale valore. Azure Databricks limita questa API alla restituzione dei primi 5 MB dell'output. Per restituire un risultato più ampio, è possibile archiviare i risultati dei processi in un servizio di archiviazione cloud. Questo endpoint verifica che il parametro run_id sia valido e restituisca un codice di stato HTTP 400 se il parametro run_id non è valido. Le esecuzioni vengono rimosse automaticamente dopo 60 giorni. Se si desidera farvi riferimento oltre 60 giorni, è necessario salvare i risultati di esecuzione precedenti prima della scadenza.

Ottenere un'esecuzione di un singolo processo

Recupera i metadati di un'esecuzione. Le matrici di grandi dimensioni nei risultati verranno impaginate quando superano 100 elementi. Una richiesta per una singola esecuzione restituirà tutte le proprietà per l'esecuzione e i primi 100 elementi delle proprietà della matrice (attività, job_clusters, job_parameters e repair_history). Usare il campo next_page_token per verificare la presenza di altri risultati e passarne il valore come page_token nelle richieste successive. Se le proprietà di una matrice hanno più di 100 elementi, i risultati aggiuntivi verranno restituiti nelle richieste successive. Le matrici senza risultati aggiuntivi saranno vuote nelle pagine successive.

Annullare l'esecuzione dell'istruzione

Richiede l'annullamento di un'istruzione in esecuzione. I chiamanti devono eseguire il polling dello stato per visualizzare lo stato del terminale.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID istruzione
statement_id True string

ID istruzione

Annullare un'esecuzione

Annulla un'esecuzione di un processo o un'esecuzione di un'attività. L'esecuzione viene annullata in modo asincrono, quindi potrebbe essere ancora in esecuzione al termine della richiesta.

Parametri

Nome Chiave Necessario Tipo Descrizione
run_id
run_id True integer

Questo campo è obbligatorio.

Attivare una nuova esecuzione del processo

Eseguire un processo e restituire il run_id dell'esecuzione attivata.

Parametri

Nome Chiave Necessario Tipo Descrizione
idempotency_token
idempotency_token string

Token facoltativo per garantire l'idempotenza delle richieste di esecuzione del processo. Se esiste già un'esecuzione con il token specificato, la richiesta non crea una nuova esecuzione ma restituisce l'ID dell'esecuzione esistente. Se viene eliminata un'esecuzione con il token specificato, viene restituito un errore. Se si specifica il token di idempotenza, in caso di errore è possibile riprovare fino a quando la richiesta non riesce. Azure Databricks garantisce che venga avviata esattamente un'esecuzione con tale token di idempotenza. Questo token deve avere al massimo 64 caratteri. Per altre informazioni, vedere Come garantire l'idempotenza per i processi.

job_id
job_id True integer

ID del processo da eseguire

job_parameters
job_parameters object

Parametri a livello di processo usati nell'esecuzione. ad esempio "param": "overriding_val"

soltanto
only array of string

Elenco di chiavi di attività da eseguire all'interno del processo. Se questo campo non viene specificato, verranno eseguite tutte le attività nel processo.

performance_target
performance_target string
full_refresh
full_refresh boolean

Se true, attiva un aggiornamento completo nella tabella live delta.

enabled
enabled True boolean

Se true, abilitare la coda per il processo. Questo campo è obbligatorio.

Restituisce

Azure Databricks Genie

Eseguire query sugli spazi Genie per ottenere informazioni dettagliate dai dati.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID spazio genie
genie_space_id True string

ID spazio genie

Controllare lo stato e ottenere i risultati

Ottenere lo stato, il manifesto e i risultati dell'istruzione

Parametri

Nome Chiave Necessario Tipo Descrizione
ID istruzione
statement_id True string

ID istruzione

Restituisce

Risposta all'esecuzione dell'istruzione

Elencare i processi

Recupera un elenco di processi.

Parametri

Nome Chiave Necessario Tipo Descrizione
Limite
limit integer

Numero di processi da restituire. Questo valore deve essere maggiore di 0 e minore o uguale a 100. Il valore predefinito è 20.

Espandere Attività
expand_tasks boolean

Indica se includere i dettagli dell'attività e del cluster nella risposta. Si noti che verranno visualizzati solo i primi 100 elementi. Usare :method:jobs/get per impaginare tutte le attività e i cluster.

Nome processo
name string

Filtro per l'elenco in base al nome esatto (senza distinzione tra maiuscole e minuscole).

Token di pagina
page_token string

Usare next_page_token o prev_page_token restituiti dalla richiesta precedente per elencare rispettivamente la pagina successiva o precedente dei processi.

Restituisce

Eseguire un'istruzione SQL

Eseguire un'istruzione SQL e, facoltativamente, attendere i risultati per un periodo di tempo specificato.

Parametri

Nome Chiave Necessario Tipo Descrizione
warehouse_id
warehouse_id True string

ID magazzino di destinazione

dichiarazione
statement True string

Istruzione SQL da eseguire. L'istruzione può essere facoltativamente parametrizzata, vedere i parametri

nome
name True string

Nome indicatore di parametro

type
type string

Tipo di dati del parametro

value
value string

Valore del parametro

catalog
catalog string

Catalogo predefinito per l'esecuzione

schema
schema string

Schema predefinito per l'esecuzione

disposizione
disposition string

Modalità di recupero dei risultati

format
format string

Formato set di risultati

on_wait_timeout
on_wait_timeout string

Azione sul timeout

wait_timeout
wait_timeout string

Timeout di attesa dei risultati

byte_limit
byte_limit integer

Limite di byte dei risultati

row_limit
row_limit integer

Limite di righe dei risultati

Restituisce

Risposta all'esecuzione dell'istruzione

Ottenere il risultato in base all'indice di blocco

Dopo l'esecuzione dell'istruzione SUCCEEDED, questa richiesta può essere usata per recuperare qualsiasi blocco in base all'indice.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID istruzione
statement_id True string

ID istruzione

Indice blocchi
chunk_index True string

Indice blocchi

Restituisce

Ottenere l'output per una singola esecuzione

Recuperare l'output e i metadati di una singola esecuzione di un'attività. Quando un'attività notebook restituisce un valore tramite la chiamata dbutils.notebook.exit(), è possibile usare questo endpoint per recuperare tale valore. Azure Databricks limita questa API alla restituzione dei primi 5 MB dell'output. Per restituire un risultato più ampio, è possibile archiviare i risultati dei processi in un servizio di archiviazione cloud. Questo endpoint verifica che il parametro run_id sia valido e restituisca un codice di stato HTTP 400 se il parametro run_id non è valido. Le esecuzioni vengono rimosse automaticamente dopo 60 giorni. Se si desidera farvi riferimento oltre 60 giorni, è necessario salvare i risultati di esecuzione precedenti prima della scadenza.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID esecuzione
run_id True integer

Identificatore canonico per l'esecuzione.

Restituisce

Ottenere un'esecuzione di un singolo processo

Recupera i metadati di un'esecuzione. Le matrici di grandi dimensioni nei risultati verranno impaginate quando superano 100 elementi. Una richiesta per una singola esecuzione restituirà tutte le proprietà per l'esecuzione e i primi 100 elementi delle proprietà della matrice (attività, job_clusters, job_parameters e repair_history). Usare il campo next_page_token per verificare la presenza di altri risultati e passarne il valore come page_token nelle richieste successive. Se le proprietà di una matrice hanno più di 100 elementi, i risultati aggiuntivi verranno restituiti nelle richieste successive. Le matrici senza risultati aggiuntivi saranno vuote nelle pagine successive.

Parametri

Nome Chiave Necessario Tipo Descrizione
ID esecuzione
run_id True integer

Identificatore canonico dell'esecuzione per cui recuperare i metadati. Questo campo è obbligatorio.

Includi cronologia
include_history boolean

Indica se includere la cronologia di ripristino nella risposta.

Includi valori risolti
include_resolved_values boolean

Indica se includere i valori dei parametri risolti nella risposta.

Token di pagina
page_token string

Usare next_page_token restituito dalla risposta GetRun precedente per richiedere la pagina successiva delle proprietà della matrice di esecuzione.

Restituisce

Corpo
JobsRun

Definizioni

Oggetto

SqlBaseChunkInfo

Metadati per un blocco di set di risultati

Nome Percorso Tipo Descrizione
byte_count
byte_count integer

Numero di byte nel blocco dei risultati

chunk_index
chunk_index integer

Posizione nella sequenza di blocchi del set di risultati

row_count
row_count integer

Numero di righe nel blocco dei risultati

row_offset
row_offset integer

Offset di riga iniziale nel set di risultati

SqlColumnInfo

Nome Percorso Tipo Descrizione
nome
name string

Nome della colonna

posizione
position integer

Posizione colonna (in base 0)

type_interval_type
type_interval_type string

Formato del tipo di intervallo

type_name
type_name SqlColumnInfoTypeName

Nome del tipo di dati di base. Non sono inclusi dettagli per tipi complessi, ad esempio STRUCT, MAP o ARRAY.

type_precision
type_precision integer

Numero di cifre per il tipo DECIMAL

type_scale
type_scale integer

Numero di posizioni decimali per il tipo DECIMAL

type_text
type_text string

Specifica completa del tipo SQL

SqlColumnInfoTypeName

Nome del tipo di dati di base. Non sono inclusi dettagli per tipi complessi, ad esempio STRUCT, MAP o ARRAY.

Nome del tipo di dati di base. Non sono inclusi dettagli per tipi complessi, ad esempio STRUCT, MAP o ARRAY.

SqlStatementResponse

Risposta all'esecuzione dell'istruzione

Nome Percorso Tipo Descrizione
manifesto
manifest SqlResultManifest

Schema e metadati del set di risultati

risultato
result SqlResultData
statement_id
statement_id string

ID istruzione

status
status SqlStatementStatus

Stato di esecuzione dell'istruzione

SqlResultManifest

Schema e metadati del set di risultati

Nome Percorso Tipo Descrizione
Blocchi
chunks array of SqlBaseChunkInfo

Metadati del blocco dei risultati

format
format string
schema
schema SqlResultSchema

Definizioni di colonna del set di risultati

total_byte_count
total_byte_count integer

Totale byte nel set di risultati

total_chunk_count
total_chunk_count integer

Numero totale di blocchi

total_row_count
total_row_count integer

Numero totale di righe

troncato
truncated boolean

Stato troncamento dei risultati

SqlStatementStatus

Stato di esecuzione dell'istruzione

Nome Percorso Tipo Descrizione
Errore
error SqlServiceError
state
state SqlStatementState

Stato di esecuzione dell'istruzione

SqlStatementState

Stato di esecuzione dell'istruzione

Stato di esecuzione dell'istruzione

SqlServiceError

Nome Percorso Tipo Descrizione
error_code
error_code string
message
message string

Messaggio di errore

SqlResultSchema

Definizioni di colonna del set di risultati

Nome Percorso Tipo Descrizione
column_count
column_count integer
columns
columns array of SqlColumnInfo

SqlResultData

Nome Percorso Tipo Descrizione
byte_count
byte_count integer

Byte nel blocco dei risultati

chunk_index
chunk_index integer

Posizione blocco

data_array
data_array SqlJsonArray

Matrice di matrici con valori stringa

external_links
external_links array of SqlExternalLink
next_chunk_index
next_chunk_index integer

Indice blocco successivo

next_chunk_internal_link
next_chunk_internal_link string

Collegamento blocco successivo

row_count
row_count integer

Righe in blocchi

row_offset
row_offset integer

Offset di riga iniziale

SqlJsonArray

Matrice di matrici con valori stringa

Nome Percorso Tipo Descrizione
Elementi
array of
Nome Percorso Tipo Descrizione
byte_count
byte_count integer

Byte in blocchi

chunk_index
chunk_index integer

Posizione blocco

scadenza
expiration date-time

Data di scadenza del collegamento

external_link
external_link string
http_headers
http_headers object

Intestazioni HTTP obbligatorie

next_chunk_index
next_chunk_index integer

Indice blocco successivo

next_chunk_internal_link
next_chunk_internal_link string

Collegamento blocco successivo

row_count
row_count integer

Righe in blocchi

row_offset
row_offset integer

Offset di riga iniziale

JobsRunNowResponse

Nome Percorso Tipo Descrizione
run_id
run_id integer

ID univoco globale dell'esecuzione appena attivata.

JobsPerformanceTarget

JobsPipelineParams

Nome Percorso Tipo Descrizione
full_refresh
full_refresh boolean

Se true, attiva un aggiornamento completo nella tabella live delta.

JobsQueueSettings

Nome Percorso Tipo Descrizione
enabled
enabled boolean

Se true, abilitare la coda per il processo. Questo campo è obbligatorio.

JobsListJobsResponse

Nome Percorso Tipo Descrizione
jobs
jobs array of JobsBaseJob

Elenco di processi. Incluso nella risposta solo se sono presenti processi da elencare.

next_page_token
next_page_token string

Token che può essere usato per elencare la pagina successiva dei processi (se applicabile).

prev_page_token
prev_page_token string

Token che può essere usato per elencare la pagina precedente dei processi (se applicabile).

ProcessiBaseJob

Nome Percorso Tipo Descrizione
created_time
created_time integer

Ora in cui questo processo è stato creato in millisecondi di periodo (millisecondi dal 1/1/1970 UTC).

creator_user_name
creator_user_name string

Nome utente autore. Questo campo non verrà incluso nella risposta se l'utente è già stato eliminato.

effective_budget_policy_id
effective_budget_policy_id uuid

ID dei criteri di budget usati da questo processo a scopo di attribuzione dei costi. Può essere impostato tramite (in ordine di precedenza): 1. Amministratori budget tramite l'account o la console dell'area di lavoro 2. Interfaccia utente dei processi nella pagina dei dettagli del processo e API Processi usando budget_policy_id 3. Impostazione predefinita dedotta in base ai criteri di budget accessibili dell'identità run_as durante la creazione o la modifica dei processi.

ha_di_piu
has_more boolean

Indica se il processo ha più proprietà di matrice (attività, job_clusters) non visualizzate. È possibile accedervi tramite l'endpoint :method:jobs/get. È rilevante solo per le richieste API 2.2 :method:jobs/list con expand_tasks=true.

job_id
job_id integer

Identificatore canonico per questo processo.

settings
settings JobsJobSettings
trigger_state
trigger_state JobsTriggerStateProto

JobsJobSettings

Nome Percorso Tipo Descrizione
budget_policy_id
budget_policy_id uuid

ID dei criteri di budget specificati dall'utente da usare per questo processo. Se non specificato, è possibile applicare una politica di budget predefinita durante la creazione o la modifica dell'incarico. Vedere effective_budget_policy_id per i criteri di budget usati da questo carico di lavoro.

continuo
continuous JobsContinuous
implementazione
deployment JobsJobDeployment
descrizione
description string

Descrizione facoltativa per il lavoro. La lunghezza massima è di 27700 caratteri nella codifica UTF-8.

edit_mode
edit_mode JobsJobEditMode
email_notifications
email_notifications JobsJobEmailNotifications
environments
environments array of JobsJobEnvironment

Un elenco delle specifiche dell'ambiente di esecuzione delle attività a cui le attività serverless di questo compito possono fare riferimento. È necessario che sia presente un ambiente per le attività serverless. Per le attività del notebook serverless, l'ambiente è accessibile nel pannello dell'ambiente del notebook. Per altre attività serverless, è necessario specificare l'ambiente attività usando environment_key nelle impostazioni dell'attività.

git_source
git_source JobsGitSource
Salute
health JobsJobsHealthRules
job_clusters
job_clusters array of JobsJobCluster

Elenco delle specifiche del cluster di lavori che possono essere condivise e riutilizzate dalle attività di questo lavoro. Le librerie non possono essere dichiarate in un cluster di processi condivisi. È necessario dichiarare librerie dipendenti nelle impostazioni delle attività.

max_concurrent_runs
max_concurrent_runs integer

Numero massimo consentito facoltativo di esecuzioni simultanee del lavoro. Impostare questo valore se si vuole essere in grado di eseguire più esecuzioni dello stesso processo contemporaneamente. Ciò è utile, ad esempio, se si attiva il processo in base a una pianificazione frequente e si vuole consentire le esecuzioni consecutive di sovrapporsi tra loro oppure se si desidera attivare più esecuzioni che differiscono in base ai relativi parametri di input. Questa impostazione influisce solo sulle nuove esecuzioni. Si supponga, ad esempio, che la concorrenza del processo sia 4 e che siano presenti 4 esecuzioni attive simultanee. Quindi l'impostazione della concorrenza su 3 non comporta l'interruzione delle esecuzioni attive. Tuttavia, da allora, le nuove esecuzioni vengono ignorate a meno che non siano presenti meno di 3 esecuzioni attive. Questo valore non può superare 1000. Se si imposta questo valore su 0, tutte le nuove esecuzioni verranno ignorate.

nome
name string

Nome facoltativo per il lavoro. La lunghezza massima è di 4096 byte nella codifica UTF-8.

notification_settings
notification_settings JobsJobNotificationSettings
parameters
parameters array of JobsJobParameterDefinition

Definizioni di parametri a livello di processo

performance_target
performance_target JobsPerformanceTarget
coda
queue JobsQueueSettings
run_as
run_as JobsJobRunAs
Orario
schedule JobsCronSchedule
tags
tags object

Mappa dei tag associati al processo. Questi vengono inoltrati al cluster come etichette di cluster per i gruppi di lavoro e sono soggetti alle stesse limitazioni delle etichette di cluster. È possibile aggiungere al lavoro un massimo di 25 tag.

tasks
tasks array of JobsTask

Elenco delle specifiche dell'attività da svolgere da questo lavoro. Supporta fino a 1000 elementi negli endpoint di scrittura (:method:jobs/create, :method:jobs/reset, :method:jobs/update, :method:jobs/submit). Gli endpoint di lettura restituiscono solo 100 attività. Se sono disponibili più di 100 attività, è possibile impaginarle usando :method:jobs/get. Usare il campo next_page_token nella radice dell'oggetto per determinare se sono disponibili altri risultati.

timeout_seconds
timeout_seconds integer

Un timeout facoltativo viene applicato a ogni esecuzione di questo processo. Il valore 0 indica che non è previsto alcun timeout.

trigger
trigger JobsTriggerSettings
webhook_notifications
webhook_notifications JobsWebhookNotifications

ProcessiContinuous

Nome Percorso Tipo Descrizione
pause_status
pause_status JobsPauseStatus

JobsPauseStatus

ProcessiJobDeployment

Nome Percorso Tipo Descrizione
tipo/gentile
kind JobsJobDeploymentKind
metadata_file_path
metadata_file_path string

Percorso del file contenente i metadati di distribuzione.

JobsJobDeploymentKind

JobsJobEditMode

ProcessiJobEmailNotifications

Nome Percorso Tipo Descrizione
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Un elenco di indirizzi di posta elettronica da notificare quando la durata di un'esecuzione supera la soglia specificata per la metrica RUN_DURATION_SECONDS nel campo integrità. Se non viene specificata alcuna regola per la metrica RUN_DURATION_SECONDS nel campo integrità per il processo, le notifiche non vengono inviate.

on_failure
on_failure array of string

Elenco di indirizzi di posta elettronica da notificare quando un'esecuzione non viene completata correttamente. Un'esecuzione viene considerata completata in modo non riuscito se termina con un INTERNAL_ERROR life_cycle_state o un errore o TIMED_OUT result_state. Se non viene specificato durante la creazione, la reimpostazione o l'aggiornamento dell'elenco è vuoto e le notifiche non vengono inviate.

on_start
on_start array of string

Elenco di indirizzi di posta elettronica per ricevere una notifica all'inizio di un'esecuzione. Se non specificato durante la creazione, la reimpostazione o l'aggiornamento del processo, l'elenco è vuoto e le notifiche non vengono inviate.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Elenco di indirizzi di posta elettronica da notificare quando vengono superate le soglie di backlog di streaming per qualsiasi flusso. Le soglie di backlog di streaming possono essere impostate nel campo integrità usando le metriche seguenti: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS o STREAMING_BACKLOG_FILES. Gli avvisi si basano sulla media di 10 minuti di queste metriche. Se il problema persiste, le notifiche vengono inviate nuovamente ogni 30 minuti.

on_success
on_success array of string

Elenco di indirizzi di posta elettronica per ricevere una notifica al completamento di un'esecuzione. Un'esecuzione viene considerata completata correttamente se termina con un life_cycle_state TERMINATO e un result_state SUCCESS. Se non specificato durante la creazione, la reimpostazione o l'aggiornamento del processo, l'elenco è vuoto e le notifiche non vengono inviate.

ProcessiJobEnvironment

Nome Percorso Tipo Descrizione
environment_key
environment_key string

Chiave di un ambiente. Deve essere univoco all'interno di un processo.

Spec
spec ComputeEnvironment

CalcoloEnvironment

Nome Percorso Tipo Descrizione
dipendenze
dependencies array of string

Elenco delle dipendenze pip, come supportato dalla versione di pip in questo ambiente. Ogni dipendenza è una riga di file di requisiti pip valida per https://pip.pypa.io/en/stable/reference/requirements-file-format/. Le dipendenze consentite includono un identificatore di requisiti, un URL di archivio, un percorso di progetto locale (ad esempio WSFS o volumi UC in Azure Databricks) o un URL di progetto VCS.

environment_version
environment_version string

Obbligatorio. Versione dell'ambiente usata dall'ambiente. Ogni versione include una versione python specifica e un set di pacchetti Python. La versione è una stringa costituita da un numero intero. Vedi https://learn.microsoft.com/azure/databricks/release-notes/serverless/#serverless-environment-versions.

JobsGitSource

Nome Percorso Tipo Descrizione
git_branch
git_branch string

Nome del ramo da archiviare e utilizzare da questo processo. Questo campo non può essere specificato in combinazione con git_tag o git_commit.

git_commit
git_commit string

Eseguire il commit per essere estratto e usato da questo processo. Questo campo non può essere specificato in combinazione con git_branch o git_tag.

git_provider
git_provider JobsGitProvider
git_snapshot
git_snapshot JobsGitSnapshot
git_tag
git_tag string

Nome del tag da archiviare e usare da questo processo. Questo campo non può essere specificato in combinazione con git_branch o git_commit.

git_url
git_url string

URL del repository da clonare da questo processo.

JobsGitProvider

JobsGitSnapshot

Nome Percorso Tipo Descrizione
used_commit
used_commit string

Commit usato per eseguire l'esecuzione. Se è stato specificato git_branch, punta all'oggetto HEAD del ramo al momento dell'esecuzione; se è stato specificato git_tag, punta al commit a cui punta il tag.

ProcessiJobsHealthRules

Nome Percorso Tipo Descrizione
regole
rules array of JobsJobsHealthRule

ProcessiJobsHealthRule

Nome Percorso Tipo Descrizione
metric
metric JobsJobsHealthMetric
Op
op JobsJobsHealthOperator
value
value integer

Specifica il valore soglia che la metrica di integrità deve rispettare per soddisfare la regola di integrità.

JobsJobsHealthMetric

JobsJobsHealthOperator

ProcessiJobCluster

Nome Percorso Tipo Descrizione
job_cluster_key
job_cluster_key string

Nome univoco per il cluster di processi. Questo campo è obbligatorio e deve essere univoco all'interno del processo. JobTaskSettings può fare riferimento a questo campo per determinare quale cluster avviare per l'esecuzione dell'attività.

new_cluster
new_cluster ComputeClusterSpec

ComputeClusterSpec

Nome Percorso Tipo Descrizione
apply_policy_default_values
apply_policy_default_values boolean

Se impostato su true, i valori predefiniti e fissi dei criteri verranno usati per i campi omessi. Se impostato su false, verranno applicati solo i valori fissi dei criteri.

autoscale
autoscale ComputeAutoScale
autotermination_minutes
autotermination_minutes integer

Termina automaticamente il cluster dopo il tempo di inattività specificato in minuti. Se non è impostato, il cluster non verrà terminato automaticamente. Se specificato, la soglia deve essere compresa tra 10 e 10000 minuti. Gli utenti possono anche impostare questo valore su 0 per disabilitare in modo esplicito la terminazione automatica.

azure_attributes
azure_attributes ComputeAzureAttributes
cluster_log_conf
cluster_log_conf ComputeClusterLogConf
cluster_name
cluster_name string

Nome del cluster richiesto dall'utente. Questo non deve essere univoco. Se non specificato durante la creazione, il nome del cluster sarà una stringa vuota. Per i cluster di processo, il nome del cluster viene impostato automaticamente in base agli ID di esecuzione del processo e del processo.

custom_tags
custom_tags object

Tag aggiuntivi per le risorse del cluster. Azure Databricks contrassegnerà tutte le risorse del cluster (ad esempio, istanze di AWS e volumi EBS) con questi tag oltre a default_tags. Note: - Attualmente Azure Databricks consente al massimo 45 tag personalizzati: i cluster possono riutilizzare solo le risorse cloud se i tag delle risorse sono un subset dei tag del cluster

data_security_mode
data_security_mode ComputeDataSecurityMode
docker_image
docker_image ComputeDockerImage
driver_instance_pool_id
driver_instance_pool_id string

L'ID facoltativo del pool di istanze a cui appartiene il driver del cluster. Il cluster del pool usa il pool di istanze con ID (instance_pool_id) se il pool di driver non è assegnato.

driver_node_type_id
driver_node_type_id string

Tipo di nodo del driver Spark. Si noti che questo campo è facoltativo; se non impostato, il tipo di nodo del driver verrà impostato sullo stesso valore di node_type_id definito in precedenza. Questo campo, insieme a node_type_id, non deve essere impostato se è impostato virtual_cluster_size. Se vengono specificati sia driver_node_type_id, node_type_id che virtual_cluster_size, driver_node_type_id e node_type_id hanno la precedenza.

enable_elastic_disk
enable_elastic_disk boolean

Scalabilità automatica dell'archiviazione locale: se abilitato, questo cluster acquisirà dinamicamente spazio su disco aggiuntivo quando i worker di Spark stanno esaurendo lo spazio su disco. Questa funzionalità richiede autorizzazioni AWS specifiche per funzionare correttamente. Per altre informazioni, vedere la Guida per l'utente.

enable_local_disk_encryption
enable_local_disk_encryption boolean

Se abilitare LUKS nei dischi locali delle macchine virtuali del cluster

init_scripts
init_scripts array of ComputeInitScriptInfo

Configurazione per l'archiviazione di script init. È possibile specificare un numero qualsiasi di destinazioni. Gli script vengono eseguiti in sequenza nell'ordine specificato. Se si specifica cluster_log_conf, i log degli script init vengono inviati a <destinazione>/<ID> cluster/init_scripts.

instance_pool_id
instance_pool_id string

ID facoltativo del pool di istanze a cui appartiene il cluster.

is_single_node
is_single_node boolean

Questo campo può essere usato solo quando kind = CLASSIC_PREVIEW. Se impostato su true, Azure Databricks imposta automaticamente custom_tags, spark_conf e num_workers correlati a un nodo singolo

tipo/gentile
kind ComputeKind
node_type_id
node_type_id string

Questo campo codifica, con un solo valore, le risorse disponibili in ognuno dei nodi Spark del cluster. Ad esempio, è possibile effettuare il provisioning e ottimizzare i nodi Spark per carichi di lavoro a elevato utilizzo di memoria o calcolo. È possibile recuperare un elenco dei tipi di nodo disponibili usando la chiamata API :method:clusters/listNodeTypes.

num_workers
num_workers integer

Numero di nodi di lavoro che il cluster deve avere. Un cluster include un driver Spark e num_workers executor per un totale di num_workers + 1 nodi Spark. Nota: quando si leggono le proprietà di un cluster, questo campo riflette il numero desiderato di ruoli di lavoro anziché il numero corrente effettivo di ruoli di lavoro. Ad esempio, se un cluster viene ridimensionato da 5 a 10 ruoli di lavoro, questo campo verrà immediatamente aggiornato in modo da riflettere le dimensioni di destinazione di 10 ruoli di lavoro, mentre i ruoli di lavoro elencati in spark_info aumenteranno gradualmente da 5 a 10 man mano che viene effettuato il provisioning dei nuovi nodi.

policy_id
policy_id string

ID dei criteri del cluster usati per creare il cluster, se applicabile.

runtime_engine
runtime_engine ComputeRuntimeEngine
single_user_name
single_user_name string

Nome utente singolo se data_security_mode è SINGLE_USER

spark_conf
spark_conf object

Oggetto contenente un set di coppie chiave-valore di configurazione Spark specificate dall'utente facoltative. Gli utenti possono anche passare una stringa di opzioni JVM aggiuntive al driver e agli executor rispettivamente tramite spark.driver.extraJavaOptions e spark.executor.extraJavaOptions.

spark_env_vars
spark_env_vars object

Oggetto contenente un set di coppie chiave-valore della variabile di ambiente specificate dall'utente facoltative. Si noti che la coppia chiave-valore del modulo (X,Y) verrà esportata così come è (ad esempio, esporta X='Y') durante l'avvio del driver e dei ruoli di lavoro. Per specificare un set aggiuntivo di SPARK_DAEMON_JAVA_OPTS, è consigliabile aggiungerli a $SPARK_DAEMON_JAVA_OPTS, come illustrato nell'esempio seguente. In questo modo vengono incluse anche tutte le variabili di ambiente gestite di Databricks predefinite. Variabili di ambiente Spark di esempio: {"SPARK_WORKER_MEMORY": "28000m", "SPARK_LOCAL_DIRS": "/local_disk0"} o {"SPARK_DAEMON_JAVA_OPTS": "$SPARK_DAEMON_JAVA_OPTS -Dspark.shuffle.service.enabled=true"}

spark_version
spark_version string

Versione Spark del cluster, ad esempio 3.3.x-scala2.11. È possibile recuperare un elenco delle versioni di Spark disponibili usando la chiamata API :method:clusters/sparkVersions.

ssh_public_keys
ssh_public_keys array of string

Contenuto della chiave pubblica SSH che verrà aggiunto a ogni nodo Spark in questo cluster. Le chiavi private corrispondenti possono essere usate per accedere con il nome utente ubuntu sulla porta 2200. È possibile specificare fino a 10 chiavi.

use_ml_runtime
use_ml_runtime boolean

Questo campo può essere usato solo quando kind = CLASSIC_PREVIEW. effective_spark_version è determinato da spark_version (versione DBR), da questo campo use_ml_runtime e dal fatto che node_type_id sia un nodo GPU o meno.

workload_type
workload_type ComputeWorkloadType

CalcoloAutoScale

Nome Percorso Tipo Descrizione
max_workers
max_workers integer

Numero massimo di ruoli di lavoro a cui il cluster può aumentare le prestazioni durante l'overload. Si noti che max_workers deve essere strettamente maggiore di min_workers.

min_workers
min_workers integer

Numero minimo di ruoli di lavoro a cui il cluster può ridurre le prestazioni quando è sottoutilizzato. È anche il numero iniziale di ruoli di lavoro che il cluster avrà dopo la creazione.

CalcoloAzureAttributes

Nome Percorso Tipo Descrizione
disponibilità
availability ComputeAzureAvailability
first_on_demand
first_on_demand integer

I primi first_on_demand nodi del cluster verranno posizionati su istanze su richiesta. Questo valore deve essere maggiore di 0 per assicurarsi che il nodo del driver del cluster sia posizionato in un'istanza su richiesta. Se questo valore è maggiore o uguale alla dimensione corrente del cluster, tutti i nodi verranno posizionati su istanze su richiesta. Se questo valore è minore delle dimensioni correnti del cluster, first_on_demand nodi verranno posizionati su istanze su richiesta e il resto verrà inserito nelle istanze di disponibilità. Si noti che questo valore non influisce sulle dimensioni del cluster e non può essere modificato per tutta la durata di un cluster.

log_analytics_info
log_analytics_info ComputeLogAnalyticsInfo
spot_bid_max_price
spot_bid_max_price double

Prezzo massimo dell'offerta da usare per le istanze spot di Azure. Il prezzo massimo per l'offerta non può essere superiore al prezzo su richiesta dell'istanza. Se non specificato, il valore predefinito è -1, che specifica che l'istanza non può essere rimossa in base al prezzo e solo in base alla disponibilità. Inoltre, il valore deve > essere 0 o -1.

CalcoloAzureAvailability

ComputeLogAnalyticsInfo

Nome Percorso Tipo Descrizione
log_analytics_primary_key
log_analytics_primary_key string
log_analytics_workspace_id
log_analytics_workspace_id string

ComputeClusterLogConf

Nome Percorso Tipo Descrizione
dbfs
dbfs ComputeDbfsStorageInfo
volumes
volumes ComputeVolumesStorageInfo

ComputeDbfsStorageInfo

Nome Percorso Tipo Descrizione
destination
destination string

destinazione dbfs, ad esempio dbfs:/my/path

ComputeVolumesStorageInfo

Nome Percorso Tipo Descrizione
destination
destination string

Destinazione volumi UC, ad esempio /Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh o dbfs:/Volumes/catalog/schema/vol1/init-scripts/setup-datadog.sh

ComputeDataSecurityMode

ComputeDockerImage

Nome Percorso Tipo Descrizione
basic_auth
basic_auth ComputeDockerBasicAuth
URL
url string

URL dell'immagine Docker.

ComputeDockerBasicAuth

Nome Percorso Tipo Descrizione
parola d’ordine
password string

Password dell'utente

username
username string

Nome dell'utente

ComputeInitScriptInfo

Nome Percorso Tipo Descrizione
abfss
abfss ComputeAdlsgen2Info
documento
file ComputeLocalFileInfo
Gcs
gcs ComputeGcsStorageInfo
volumes
volumes ComputeVolumesStorageInfo
workspace
workspace ComputeWorkspaceStorageInfo

ComputeAdlsgen2Info

Nome Percorso Tipo Descrizione
destination
destination string

destinazione abfss, ad esempio abfss://< container-name@>storage-account-name.dfs.core.windows.net/<>< directory-name>.

ComputeLocalFileInfo

Nome Percorso Tipo Descrizione
destination
destination string

destinazione file locale, ad esempio file:/my/local/file.sh

ComputeGcsStorageInfo

Nome Percorso Tipo Descrizione
destination
destination string

Destinazione/URI GCS, ad esempio gs://my-bucket/some-prefix

ComputeWorkspaceStorageInfo

Nome Percorso Tipo Descrizione
destination
destination string

destinazione wsfs, ad esempio workspace:/cluster-init-scripts/setup-datadog.sh

ComputeKind

ComputeRuntimeEngine

ComputeWorkloadType

Nome Percorso Tipo Descrizione
clients
clients ComputeClientsTypes

ComputeClientsTypes

Nome Percorso Tipo Descrizione
jobs
jobs boolean

Con il set di processi, il cluster può essere usato per i processi

Notebook
notebooks boolean

Con i notebook impostati, questo cluster può essere usato per i notebook

JobsJobNotificationSettings

Nome Percorso Tipo Descrizione
no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Se true, non inviare notifiche ai destinatari specificati in on_failure se l'esecuzione viene annullata.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Se true, non inviare notifiche ai destinatari specificati in on_failure se l'esecuzione viene ignorata.

JobsJobParameterDefinition

Nome Percorso Tipo Descrizione
default
default string

Valore predefinito del parametro.

nome
name string

Nome del parametro definito. Può contenere solo caratteri alfanumerici, _, -e .

ProcessiJobRunAs

Nome Percorso Tipo Descrizione
service_principal_name
service_principal_name string

ID applicazione di un'entità servizio attiva. L'impostazione di questo campo richiede il ruolo servicePrincipal/utente.

user_name
user_name string

L'email di un utente attivo dell'area di lavoro. Gli utenti non amministratori possono impostare questo campo solo sul proprio messaggio di posta elettronica.

JobsCronSchedule

Nome Percorso Tipo Descrizione
pause_status
pause_status JobsPauseStatus
quartz_cron_expression
quartz_cron_expression string

Espressione Cron che usa la sintassi Di Quarzi che descrive la pianificazione per un processo. Per informazioni dettagliate, vedere Trigger Cron . Questo campo è obbligatorio.

timezone_id
timezone_id string

ID fuso orario Java. La pianificazione per un processo viene risolta in relazione a questo fuso orario. Per informazioni dettagliate, vedere Fuso orario Java . Questo campo è obbligatorio.

JobsTask

Nome Percorso Tipo Descrizione
clean_rooms_notebook_task
clean_rooms_notebook_task Object
condition_task
condition_task JobsConditionTask
dashboard_task
dashboard_task JobsDashboardTask
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Matrice facoltativa di oggetti che specifica il grafico delle dipendenze dell'attività. Tutte le attività specificate in questo campo devono essere completate prima di eseguire questa attività. L'attività verrà eseguita solo se la condizione di run_if è true. La chiave è task_key e il valore è il nome assegnato all'attività dipendente.

descrizione
description string

Descrizione facoltativa per questa attività.

disable_auto_optimization
disable_auto_optimization boolean

Opzione per disabilitare l'ottimizzazione automatica in serverless

email_notifications
email_notifications JobsTaskEmailNotifications
environment_key
environment_key string

Chiave che fa riferimento a una specifica di ambiente in un processo. Questo campo è obbligatorio per le attività python script, python wheel e dbt quando si usa il calcolo serverless.

existing_cluster_id
existing_cluster_id string

Se existing_cluster_id, l'ID di un cluster esistente usato per tutte le esecuzioni. Quando si eseguono processi o attività in un cluster esistente, potrebbe essere necessario riavviare manualmente il cluster se smette di rispondere. È consigliabile eseguire processi e attività in nuovi cluster per una maggiore affidabilità

for_each_task
for_each_task JobsForEachTask
Salute
health JobsJobsHealthRules
job_cluster_key
job_cluster_key string

Se job_cluster_key, questa attività viene eseguita riutilizzando il cluster specificato in job.settings.job_clusters.

libraries
libraries array of ComputeLibrary

Elenco facoltativo di librerie da installare nel cluster. Il valore predefinito è un elenco vuoto.

max_retries
max_retries integer

Numero massimo facoltativo di tentativi di esecuzione non riuscita. Un'esecuzione viene considerata non riuscita se viene completata con l'result_state FAILED o INTERNAL_ERROR life_cycle_state. Il valore -1 significa riprovare per un periodo illimitato e il valore 0 significa non riprovare mai.

min_retry_interval_millis
min_retry_interval_millis integer

Intervallo minimo facoltativo in millisecondi tra l'inizio dell'esecuzione non riuscita e l'esecuzione successiva dei tentativi. Il comportamento predefinito è che le esecuzioni non riuscite vengono ritentate immediatamente.

new_cluster
new_cluster ComputeClusterSpec
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings JobsTaskNotificationSettings
pipeline_task
pipeline_task JobsPipelineTask
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task JobsPythonWheelTask
retry_on_timeout
retry_on_timeout boolean

Un criterio facoltativo per specificare se ripetere un processo quando si verifica il timeout. Il comportamento predefinito consiste nel non ritentare il timeout.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
spark_jar_task
spark_jar_task JobsSparkJarTask
spark_python_task
spark_python_task JobsSparkPythonTask
spark_submit_task
spark_submit_task JobsSparkSubmitTask
sql_task
sql_task Object
task_key
task_key string

Nome univoco per l'attività. Questo campo viene usato per fare riferimento a questa attività da altre attività. Questo campo è obbligatorio e deve essere univoco all'interno del processo padre. In Aggiorna o Reimposta questo campo viene usato per fare riferimento alle attività da aggiornare o reimpostare.

timeout_seconds
timeout_seconds integer

Timeout facoltativo applicato a ogni esecuzione di questa attività di processo. Il valore 0 indica che non è previsto alcun timeout.

webhook_notifications
webhook_notifications JobsWebhookNotifications

JobsConditionTask

Nome Percorso Tipo Descrizione
sinistra
left string

Operando sinistro dell'attività della condizione. Può essere un valore stringa o un riferimento a uno stato del processo o a un parametro.

Op
op JobsConditionTaskOp
A destra
right string

Operando destro dell'attività della condizione. Può essere un valore stringa o un riferimento a uno stato del processo o a un parametro.

JobsConditionTaskOp

JobsDashboardTask

Nome Percorso Tipo Descrizione
dashboard_id
dashboard_id string

Identificatore del dashboard da aggiornare.

subscription
subscription JobsSubscription
warehouse_id
warehouse_id string

Facoltativo: ID warehouse con cui eseguire il dashboard per la pianificazione. Se non specificato, verrà usato il warehouse predefinito del dashboard.

ProcessiSubscription

Nome Percorso Tipo Descrizione
custom_subject
custom_subject string

Facoltativo: consente agli utenti di specificare una riga dell'oggetto personalizzata nel messaggio di posta elettronica inviato ai sottoscrittori.

Pausa
paused boolean

Se true, la sottoscrizione non invierà messaggi di posta elettronica.

Abbonati
subscribers array of JobsSubscriptionSubscriber

Elenco di sottoscrittori a cui inviare lo snapshot del dashboard.

JobsSubscriptionSubscriber

Nome Percorso Tipo Descrizione
destination_id
destination_id string

Uno snapshot del dashboard verrà inviato alla destinazione quando è presente il campo destination_id.

user_name
user_name string

Uno snapshot del dashboard verrà inviato al messaggio di posta elettronica dell'utente quando è presente il campo user_name.

JobsSource

JobsTaskDependency

Nome Percorso Tipo Descrizione
risultato
outcome string

È possibile specificare solo le dipendenze dell'attività condizione. Risultato dell'attività dipendente che deve essere soddisfatta per l'esecuzione dell'attività.

task_key
task_key string

Il nome dell'attività da cui dipende questa attività.

JobsTaskEmailNotifications

Nome Percorso Tipo Descrizione
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of string

Un elenco di indirizzi di posta elettronica da notificare quando la durata di un'esecuzione supera la soglia specificata per la metrica RUN_DURATION_SECONDS nel campo integrità. Se non viene specificata alcuna regola per la metrica RUN_DURATION_SECONDS nel campo integrità per il processo, le notifiche non vengono inviate.

on_failure
on_failure array of string

Elenco di indirizzi di posta elettronica da notificare quando un'esecuzione non viene completata correttamente. Un'esecuzione viene considerata completata in modo non riuscito se termina con un INTERNAL_ERROR life_cycle_state o un errore o TIMED_OUT result_state. Se non viene specificato durante la creazione, la reimpostazione o l'aggiornamento dell'elenco è vuoto e le notifiche non vengono inviate.

on_start
on_start array of string

Elenco di indirizzi di posta elettronica per ricevere una notifica all'inizio di un'esecuzione. Se non specificato durante la creazione, la reimpostazione o l'aggiornamento del processo, l'elenco è vuoto e le notifiche non vengono inviate.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of string

Elenco di indirizzi di posta elettronica da notificare quando vengono superate le soglie di backlog di streaming per qualsiasi flusso. Le soglie di backlog di streaming possono essere impostate nel campo integrità usando le metriche seguenti: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS o STREAMING_BACKLOG_FILES. Gli avvisi si basano sulla media di 10 minuti di queste metriche. Se il problema persiste, le notifiche vengono inviate nuovamente ogni 30 minuti.

on_success
on_success array of string

Elenco di indirizzi di posta elettronica per ricevere una notifica al completamento di un'esecuzione. Un'esecuzione viene considerata completata correttamente se termina con un life_cycle_state TERMINATO e un result_state SUCCESS. Se non specificato durante la creazione, la reimpostazione o l'aggiornamento del processo, l'elenco è vuoto e le notifiche non vengono inviate.

CalcoloLibrary

Nome Percorso Tipo Descrizione
Cran
cran ComputeRCranLibrary
barattolo
jar string

URI della libreria JAR da installare. Gli URI supportati includono percorsi dell'area di lavoro, percorsi dei volumi del catalogo Unity e URI ADLS. Ad esempio: { "jar": "/Workspace/path/to/library.jar" }, { "jar" : "/Volumes/path/to/library.jar" } or { "jar": "abfss://my-bucket/library.jar" }. Se si usa ADLS, verificare che il cluster abbia accesso in lettura alla libreria. Potrebbe essere necessario avviare il cluster con un'entità servizio Microsoft Entra ID per accedere all'URI DI ADLS.

intenditore
maven ComputeMavenLibrary
pypi
pypi ComputePythonPyPiLibrary
requisiti
requirements string

URI del file requirements.txt da installare. Sono supportati solo i percorsi dell'area di lavoro e i percorsi dei volumi del catalogo Unity. Ad esempio: { "requirements": "/Workspace/path/to/requirements.txt" } o { "requirements" : "/Volumes/path/to/requirements.txt" }

whl
whl string

URI della libreria wheel da installare. Gli URI supportati includono percorsi dell'area di lavoro, percorsi dei volumi del catalogo Unity e URI ADLS. Ad esempio: { "whl": "/Workspace/path/to/library.whl" }, { "whl" : "/Volumes/path/to/library.whl" } or { "whl": "abfss://my-bucket/library.whl" }. Se si usa ADLS, verificare che il cluster abbia accesso in lettura alla libreria. Potrebbe essere necessario avviare il cluster con un'entità servizio Microsoft Entra ID per accedere all'URI DI ADLS.

JobsForEachTask

Nome Percorso Tipo Descrizione
Concorrenza
concurrency integer

Numero massimo facoltativo consentito di esecuzioni simultanee dell'attività. Impostare questo valore se si vuole poter eseguire più esecuzioni dell'attività contemporaneamente.

Ingressi
inputs string

Matrice per l'attività su cui eseguire l'iterazione. Può trattarsi di una stringa JSON o di un riferimento a un parametro di matrice.

compito
task Object

ComputeRCranLibrary

Nome Percorso Tipo Descrizione
pacchetto
package string

Nome del pacchetto CRAN da installare.

Repo
repo string

Repository in cui è possibile trovare il pacchetto. Se non specificato, viene utilizzato il repository CRAN predefinito.

ComputeMavenLibrary

Nome Percorso Tipo Descrizione
Coordinate
coordinates string

Coordinate maven in stile Gradle. Ad esempio: "org.jsoup:jsoup:1.7.2".

Esclusioni
exclusions array of string

Elenco delle dipendenze da escludere. Ad esempio: ["slf4j:slf4j", "*:hadoop-client"]. Esclusioni delle dipendenze Maven: https://maven.apache.org/guides/introduction/introduction-to-optional-and-excludes-dependencies.html.

Repo
repo string

Repository Maven da cui installare il pacchetto Maven. Se omesso, vengono cercati sia il repository centrale Maven che i pacchetti Spark.

ComputePythonPyPiLibrary

Nome Percorso Tipo Descrizione
pacchetto
package string

Nome del pacchetto pypi da installare. È supportata anche una specifica di versione esatta facoltativa. Esempi: "simplejson" e "simplejson==3.8.0".

Repo
repo string

Repository in cui è possibile trovare il pacchetto. Se non specificato, viene usato l'indice pip predefinito.

JobsNotebookTask

Nome Percorso Tipo Descrizione
base_parameters
base_parameters object

Parametri di base da usare per ogni esecuzione di questo processo. Se l'esecuzione viene avviata da una chiamata a :method:jobs/run Now con i parametri specificati, vengono unite le due mappe dei parametri. Se la stessa chiave viene specificata in base_parameters e in run-now, viene usato il valore di run-now. Usare le variabili del parametro Task per impostare i parametri contenenti informazioni sulle esecuzioni del processo. Se il notebook accetta un parametro non specificato nel base_parameters del processo o i parametri di override di run-now, viene usato il valore predefinito del notebook. Recuperare questi parametri in un notebook usando dbutils.widgets.get. La rappresentazione JSON di questo campo non può superare 1 MB.

notebook_path
notebook_path string

Percorso del notebook da eseguire nell'area di lavoro di Azure Databricks o nel repository remoto. Per i notebook archiviati nell'area di lavoro di Azure Databricks, il percorso deve essere assoluto e iniziare con una barra. Per i notebook archiviati in un repository remoto, il percorso deve essere relativo. Questo campo è obbligatorio.

source
source JobsSource
warehouse_id
warehouse_id string

Facoltativo warehouse_id per eseguire il notebook in un'istanza di SQL Warehouse. I data warehouse SQL classici NON sono supportati. Usare i data warehouse sql serverless o pro. Si noti che sql warehouse supporta solo le celle SQL; se il notebook contiene celle non SQL, l'esecuzione avrà esito negativo.

JobsTaskNotificationSettings

Nome Percorso Tipo Descrizione
alert_on_last_attempt
alert_on_last_attempt boolean

Se true, non inviare notifiche ai destinatari specificati in on_start per le esecuzioni ripetute e non inviare notifiche ai destinatari specificati in on_failure fino all'ultimo tentativo dell'esecuzione.

no_alert_for_canceled_runs
no_alert_for_canceled_runs boolean

Se true, non inviare notifiche ai destinatari specificati in on_failure se l'esecuzione viene annullata.

no_alert_for_skipped_runs
no_alert_for_skipped_runs boolean

Se true, non inviare notifiche ai destinatari specificati in on_failure se l'esecuzione viene ignorata.

JobsPipelineTask

Nome Percorso Tipo Descrizione
full_refresh
full_refresh boolean

Se true, attiva un aggiornamento completo nella tabella live delta.

pipeline_id
pipeline_id string

Nome completo dell'attività della pipeline da eseguire.

JobsPythonWheelTask

Nome Percorso Tipo Descrizione
entry_point
entry_point string

Punto di ingresso denominato da usare, se non esiste nei metadati del pacchetto, esegue la funzione dal pacchetto direttamente usando $packageName.$entryPoint()

named_parameters
named_parameters object

Parametri della riga di comando passati all'attività wheel python sotto forma di ["--name=task", "--data=dbfs:/path/to/data.json"]. Lasciare vuoto se i parametri non sono Null.

package_name
package_name string

Nome del pacchetto da eseguire

parameters
parameters array of string

Parametri della riga di comando passati all'attività wheel python. Lasciare vuoto se named_parameters non è Null.

JobsRunIf

JobsRunJobTask

Nome Percorso Tipo Descrizione
job_id
job_id integer

ID del processo da attivare.

job_parameters
job_parameters object

Parametri a livello di processo usati per attivare il processo.

pipeline_params
pipeline_params JobsPipelineParams

ProcessiSparkJarTask

Nome Percorso Tipo Descrizione
main_class_name
main_class_name string

Il nome completo della classe che contiene il metodo main da eseguire. Questa classe deve essere contenuta in un file JAR fornito come libreria. Il codice deve usare SparkContext.getOrCreate per ottenere un contesto Spark; in caso contrario, le esecuzioni del processo hanno esito negativo.

parameters
parameters array of string

Parametri passati al metodo main. Usare le variabili del parametro Task per impostare i parametri contenenti informazioni sulle esecuzioni del processo.

JobsSparkPythonTask

Nome Percorso Tipo Descrizione
parameters
parameters array of string

Parametri della riga di comando passati al file Python. Usare le variabili del parametro Task per impostare i parametri contenenti informazioni sulle esecuzioni del processo.

python_file
python_file string

File Python da eseguire. Sono supportati gli URI dei file cloud( ad esempio dbfs:/, s3:/, adls:/, gcs:/) e i percorsi dell'area di lavoro. Per i file Python archiviati nell'area di lavoro di Azure Databricks, il percorso deve essere assoluto e iniziare con /. Per i file archiviati in un repository remoto, il percorso deve essere relativo. Questo campo è obbligatorio.

source
source JobsSource

JobsSparkSubmitTask

Nome Percorso Tipo Descrizione
parameters
parameters array of string

Parametri della riga di comando passati a spark submit. Usare le variabili del parametro Task per impostare i parametri contenenti informazioni sulle esecuzioni del processo.

JobsWebhookNotifications

Nome Percorso Tipo Descrizione
on_duration_warning_threshold_exceeded
on_duration_warning_threshold_exceeded array of JobsWebhook

Elenco facoltativo di ID notifica di sistema da chiamare quando la durata di un'esecuzione supera la soglia specificata per la metrica RUN_DURATION_SECONDS nel campo integrità. È possibile specificare un massimo di 3 destinazioni per la proprietà on_duration_warning_threshold_exceeded.

on_failure
on_failure array of JobsWebhook

Elenco facoltativo di ID di notifica di sistema da chiamare quando l'esecuzione non riesce. È possibile specificare un massimo di 3 destinazioni per la proprietà on_failure.

on_start
on_start array of JobsWebhook

Elenco facoltativo di ID notifica di sistema da chiamare all'avvio dell'esecuzione. È possibile specificare un massimo di 3 destinazioni per la proprietà on_start.

on_streaming_backlog_exceeded
on_streaming_backlog_exceeded array of JobsWebhook

Elenco facoltativo di ID di notifica di sistema da chiamare quando vengono superate le soglie di backlog di streaming per qualsiasi flusso. Le soglie di backlog di streaming possono essere impostate nel campo integrità usando le metriche seguenti: STREAMING_BACKLOG_BYTES, STREAMING_BACKLOG_RECORDS, STREAMING_BACKLOG_SECONDS o STREAMING_BACKLOG_FILES. Gli avvisi si basano sulla media di 10 minuti di queste metriche. Se il problema persiste, le notifiche vengono inviate nuovamente ogni 30 minuti. È possibile specificare un massimo di 3 destinazioni per la proprietà on_streaming_backlog_exceeded.

on_success
on_success array of JobsWebhook

Elenco facoltativo di ID notifica di sistema da chiamare al termine dell'esecuzione. È possibile specificare un massimo di 3 destinazioni per la proprietà on_success.

JobsWebhook

Nome Percorso Tipo Descrizione
id
id string

JobsTriggerSettings

Nome Percorso Tipo Descrizione
file_arrival
file_arrival JobsFileArrivalTriggerConfiguration
pause_status
pause_status JobsPauseStatus
periodico
periodic JobsPeriodicTriggerConfiguration

JobsFileArrivalTriggerConfiguration

Nome Percorso Tipo Descrizione
min_time_between_triggers_seconds
min_time_between_triggers_seconds integer

Se impostato, il trigger avvia un'esecuzione solo dopo l'intervallo di tempo specificato trascorso dall'ultima attivazione del trigger. Il valore minimo consentito è 60 secondi

URL
url string

URL da monitorare per gli arrivi dei file. Il percorso deve puntare alla radice o a un sottopercorso della posizione esterna.

wait_after_last_change_seconds
wait_after_last_change_seconds integer

Se impostato, il trigger avvia un'esecuzione solo dopo che non è stata eseguita alcuna attività di file per il periodo di tempo specificato. In questo modo è possibile attendere l'arrivo di un batch di file in ingresso prima di attivare un'esecuzione. Il valore minimo consentito è 60 secondi.

JobsPeriodicTriggerConfiguration

Nome Percorso Tipo Descrizione
interval
interval integer

Intervallo in cui deve essere eseguito il trigger.

unità
unit JobsPeriodicTriggerConfigurationTimeUnit

JobsPeriodicTriggerConfigurationTimeUnit

JobsTriggerStateProto

Nome Percorso Tipo Descrizione
file_arrival
file_arrival JobsFileArrivalTriggerState

JobsFileArrivalTriggerState

Nome Percorso Tipo Descrizione
using_file_events
using_file_events boolean

Indica se il trigger sfrutta gli eventi di file per rilevare gli arrivi dei file.

ProcessiEsegui

Nome Percorso Tipo Descrizione
attempt_number
attempt_number integer

Numero di sequenza di questo tentativo di esecuzione per un'esecuzione di processo attivata. Il tentativo iniziale di un'esecuzione ha un attempt_number pari a 0. Se il tentativo di esecuzione iniziale ha esito negativo e il processo ha un criterio di ripetizione dei tentativi (max_retries > 0), le esecuzioni successive vengono create con un original_attempt_run_id dell'ID del tentativo originale e un attempt_number incrementato. Le esecuzioni vengono ritentate solo fino a quando non hanno esito positivo e il valore massimo attempt_number corrisponde al valore max_retries per il processo.

cleanup_duration
cleanup_duration integer

Tempo in millisecondi necessario per terminare il cluster e pulire gli elementi associati. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo cleanup_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration.

cluster_instance
cluster_instance JobsClusterInstance
cluster_spec
cluster_spec JobsClusterSpec
creator_user_name
creator_user_name string

Nome utente autore. Questo campo non verrà incluso nella risposta se l'utente è già stato eliminato.

descrizione
description string

Descrizione dell'esecuzione

effective_performance_target
effective_performance_target JobsPerformanceTarget
orario di fine
end_time integer

Ora in cui l'esecuzione è terminata in millisecondi di periodo (millisecondi dal 1/1/1970 UTC). Questo campo è impostato su 0 se il processo è ancora in esecuzione.

execution_duration
execution_duration integer

Tempo in millisecondi impiegato per eseguire i comandi nel file JAR o nel notebook fino a quando non vengono completati, non riusciti, scaduti, sono stati annullati o si è verificato un errore imprevisto. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo execution_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration.

git_source
git_source JobsGitSource
ha_di_piu
has_more boolean

Indica se l'esecuzione ha più proprietà della matrice (attività, job_clusters) che non vengono visualizzate. È possibile accedervi tramite l'endpoint :method:jobs/getrun. È rilevante solo per le richieste API 2.2 :method:jobs/listruns con expand_tasks=true.

job_clusters
job_clusters array of JobsJobCluster

Elenco delle specifiche del cluster di lavori che possono essere condivise e riutilizzate dalle attività di questo lavoro. Le librerie non possono essere dichiarate in un cluster di processi condivisi. È necessario dichiarare librerie dipendenti nelle impostazioni delle attività. Se sono disponibili più di 100 cluster di processi, è possibile impaginarli usando :method:jobs/getrun.

job_id
job_id integer

Identificatore canonico del processo che contiene questa esecuzione.

job_parameters
job_parameters array of JobsJobParameter

Parametri a livello di processo usati nell'esecuzione

job_run_id
job_run_id integer

ID dell'esecuzione del processo a cui appartiene questa esecuzione. Per il processo legacy e a singola attività, il campo viene popolato con l'ID di esecuzione del processo. Per le esecuzioni di attività, il campo viene popolato con l'ID dell'esecuzione del processo a cui appartiene l'attività.

next_page_token
next_page_token string

Token che può essere usato per elencare la pagina successiva delle proprietà della matrice.

original_attempt_run_id
original_attempt_run_id integer

Se questa esecuzione è un nuovo tentativo di esecuzione precedente, questo campo contiene il run_id del tentativo originale; in caso contrario, corrisponde al run_id.

overriding_parameters
overriding_parameters JobsRunParameters
queue_duration
queue_duration integer

Tempo in millisecondi trascorso dall'esecuzione nella coda.

repair_history
repair_history array of JobsRepairHistoryItem

Cronologia di ripristino dell'esecuzione.

run_duration
run_duration integer

Tempo in millisecondi impiegato per l'esecuzione del processo e tutte le relative riparazioni per terminare.

run_id
run_id integer

Identificatore canonico dell'esecuzione. Questo ID è univoco in tutte le esecuzioni di tutti i processi.

run_name
run_name string

Nome facoltativo per l'esecuzione. La lunghezza massima è di 4096 byte nella codifica UTF-8.

run_page_url
run_page_url string

URL della pagina dei dettagli dell'esecuzione.

tipo_di_esecuzione
run_type JobsRunType
Orario
schedule JobsCronSchedule
setup_duration
setup_duration integer

Tempo in millisecondi necessario per configurare il cluster. Per le esecuzioni eseguite in nuovi cluster questo è il tempo di creazione del cluster, per le esecuzioni eseguite in cluster esistenti questa volta dovrebbero essere molto brevi. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo setup_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration.

ora_di_inizio
start_time integer

Ora in cui questa esecuzione è stata avviata in millisecondi di periodo (millisecondi dal 1/1/1970 UTC). Questo potrebbe non essere il momento in cui l'attività del processo inizia l'esecuzione, ad esempio se il processo è pianificato per l'esecuzione in un nuovo cluster, è il momento in cui viene eseguita la chiamata di creazione del cluster.

status
status JobsRunStatus
tasks
tasks array of JobsRunTask

Elenco di attività eseguite dall'esecuzione. Ogni attività ha un proprio run_id che è possibile usare per chiamare JobsGetOutput per recuperare i resutls di esecuzione. Se sono disponibili più di 100 attività, è possibile impaginarle usando :method:jobs/getrun. Usare il campo next_page_token nella radice dell'oggetto per determinare se sono disponibili altri risultati.

trigger
trigger JobsTriggerType
trigger_info
trigger_info JobsTriggerInfo

JobsClusterInstance

Nome Percorso Tipo Descrizione
cluster_id
cluster_id string

Identificatore canonico per il cluster usato da un'esecuzione. Questo campo è sempre disponibile per l'esecuzione in cluster esistenti. Per l'esecuzione in nuovi cluster, diventa disponibile dopo la creazione del cluster. Questo valore può essere usato per visualizzare i log passando a /#setting/sparkui/$cluster_id/driver-logs. I log continuano a essere disponibili al termine dell'esecuzione. La risposta non includerà questo campo se l'identificatore non è ancora disponibile.

spark_context_id
spark_context_id string

Identificatore canonico per il contesto Spark usato da un'esecuzione. Questo campo viene compilato dopo l'inizio dell'esecuzione. Questo valore può essere usato per visualizzare l'interfaccia utente di Spark passando a /#setting/sparkui/$cluster_id/$spark_context_id. L'interfaccia utente di Spark continua a essere disponibile dopo il completamento dell'esecuzione. La risposta non includerà questo campo se l'identificatore non è ancora disponibile.

JobsClusterSpec

Nome Percorso Tipo Descrizione
existing_cluster_id
existing_cluster_id string

Se existing_cluster_id, l'ID di un cluster esistente usato per tutte le esecuzioni. Quando si eseguono processi o attività in un cluster esistente, potrebbe essere necessario riavviare manualmente il cluster se smette di rispondere. È consigliabile eseguire processi e attività in nuovi cluster per una maggiore affidabilità

job_cluster_key
job_cluster_key string

Se job_cluster_key, questa attività viene eseguita riutilizzando il cluster specificato in job.settings.job_clusters.

libraries
libraries array of ComputeLibrary

Elenco facoltativo di librerie da installare nel cluster. Il valore predefinito è un elenco vuoto.

new_cluster
new_cluster ComputeClusterSpec

ProcessiJobParameter

Nome Percorso Tipo Descrizione
default
default string

Valore predefinito facoltativo del parametro

nome
name string

Nome del parametro

value
value string

Valore utilizzato nell'esecuzione

JobsRunParameters

Nome Percorso Tipo Descrizione
pipeline_params
pipeline_params JobsPipelineParams

JobsRepairHistoryItem

Nome Percorso Tipo Descrizione
effective_performance_target
effective_performance_target JobsPerformanceTarget
orario di fine
end_time integer

Ora di fine dell'esecuzione (ripristinata).

id
id integer

ID del ripristino. Restituito solo per gli elementi che rappresentano un ripristino in repair_history.

ora_di_inizio
start_time integer

Ora di inizio dell'esecuzione (ripristinata).

status
status JobsRunStatus
task_run_ids
task_run_ids array of integer

ID esecuzione dell'attività eseguita come parte di questo elemento della cronologia di ripristino.

type
type JobsRepairHistoryItemType

JobsRunStatus

Nome Percorso Tipo Descrizione
queue_details
queue_details JobsQueueDetails
state
state JobsRunLifecycleStateV2State
termination_details
termination_details JobsTerminationDetails

JobsQueueDetails

Nome Percorso Tipo Descrizione
codice
code JobsQueueDetailsCodeCode
message
message string

Messaggio descrittivo con i dettagli di accodamento. Questo campo non è strutturato e il formato esatto è soggetto a modifiche.

JobsQueueDetailsCodeCode

JobsRunLifecycleStateV2State

JobsTerminationDetails

Nome Percorso Tipo Descrizione
codice
code JobsTerminationCodeCode
message
message string

Messaggio descrittivo con i dettagli di terminazione. Questo campo non è strutturato e il formato potrebbe cambiare.

type
type JobsTerminationTypeType

JobsTerminationCodeCode

JobsTerminationTypeType

JobsRepairHistoryItemType

JobsRunType

JobsRunTask

Nome Percorso Tipo Descrizione
attempt_number
attempt_number integer

Numero di sequenza di questo tentativo di esecuzione per un'esecuzione di processo attivata. Il tentativo iniziale di un'esecuzione ha un attempt_number pari a 0. Se il tentativo di esecuzione iniziale ha esito negativo e il processo ha un criterio di ripetizione dei tentativi (max_retries > 0), le esecuzioni successive vengono create con un original_attempt_run_id dell'ID del tentativo originale e un attempt_number incrementato. Le esecuzioni vengono ritentate solo fino a quando non hanno esito positivo e il valore massimo attempt_number corrisponde al valore max_retries per il processo.

clean_rooms_notebook_task
clean_rooms_notebook_task Object
cleanup_duration
cleanup_duration integer

Tempo in millisecondi necessario per terminare il cluster e pulire gli elementi associati. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo cleanup_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration.

cluster_instance
cluster_instance JobsClusterInstance
condition_task
condition_task JobsRunConditionTask
dashboard_task
dashboard_task Object
dbt_task
dbt_task Object
depends_on
depends_on array of JobsTaskDependency

Matrice facoltativa di oggetti che specifica il grafico delle dipendenze dell'attività. Tutte le attività specificate in questo campo devono essere completate correttamente prima di eseguire questa attività. La chiave è task_key e il valore è il nome assegnato all'attività dipendente.

descrizione
description string

Descrizione facoltativa per questa attività.

effective_performance_target
effective_performance_target JobsPerformanceTarget
email_notifications
email_notifications JobsJobEmailNotifications
orario di fine
end_time integer

Ora in cui l'esecuzione è terminata in millisecondi di periodo (millisecondi dal 1/1/1970 UTC). Questo campo è impostato su 0 se il processo è ancora in esecuzione.

environment_key
environment_key string

Chiave che fa riferimento a una specifica di ambiente in un processo. Questo campo è obbligatorio per le attività python script, python wheel e dbt quando si usa il calcolo serverless.

execution_duration
execution_duration integer

Tempo in millisecondi impiegato per eseguire i comandi nel file JAR o nel notebook fino a quando non vengono completati, non riusciti, scaduti, sono stati annullati o si è verificato un errore imprevisto. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo execution_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration.

existing_cluster_id
existing_cluster_id string

Se existing_cluster_id, l'ID di un cluster esistente usato per tutte le esecuzioni. Quando si eseguono processi o attività in un cluster esistente, potrebbe essere necessario riavviare manualmente il cluster se smette di rispondere. È consigliabile eseguire processi e attività in nuovi cluster per una maggiore affidabilità

for_each_task
for_each_task Object
git_source
git_source JobsGitSource
job_cluster_key
job_cluster_key string

Se job_cluster_key, questa attività viene eseguita riutilizzando il cluster specificato in job.settings.job_clusters.

libraries
libraries array of Object

Elenco facoltativo di librerie da installare nel cluster. Il valore predefinito è un elenco vuoto.

new_cluster
new_cluster Object
notebook_task
notebook_task JobsNotebookTask
notification_settings
notification_settings Object
pipeline_task
pipeline_task Object
power_bi_task
power_bi_task Object
python_wheel_task
python_wheel_task Object
queue_duration
queue_duration integer

Tempo in millisecondi trascorso dall'esecuzione nella coda.

resolved_values
resolved_values JobsResolvedValues
run_duration
run_duration integer

Tempo in millisecondi impiegato per l'esecuzione del processo e tutte le relative riparazioni per terminare.

run_id
run_id integer

ID dell'esecuzione dell'attività.

run_if
run_if JobsRunIf
run_job_task
run_job_task JobsRunJobTask
run_page_url
run_page_url string
setup_duration
setup_duration integer

Tempo in millisecondi necessario per configurare il cluster. Per le esecuzioni eseguite in nuovi cluster questo è il tempo di creazione del cluster, per le esecuzioni eseguite in cluster esistenti questa volta dovrebbero essere molto brevi. La durata di un'esecuzione di un'attività è la somma delle setup_duration, delle execution_duration e delle cleanup_duration. Il campo setup_duration è impostato su 0 per le esecuzioni del processo multitasking. La durata totale dell'esecuzione di un processo multitasking è il valore del campo run_duration.

spark_jar_task
spark_jar_task Object
spark_python_task
spark_python_task Object
spark_submit_task
spark_submit_task Object
sql_task
sql_task Object
ora_di_inizio
start_time integer

Ora in cui questa esecuzione è stata avviata in millisecondi di periodo (millisecondi dal 1/1/1970 UTC). Questo potrebbe non essere il momento in cui l'attività del processo inizia l'esecuzione, ad esempio se il processo è pianificato per l'esecuzione in un nuovo cluster, è il momento in cui viene eseguita la chiamata di creazione del cluster.

status
status JobsRunStatus
task_key
task_key string

Nome univoco per l'attività. Questo campo viene usato per fare riferimento a questa attività da altre attività. Questo campo è obbligatorio e deve essere univoco all'interno del processo padre. In Aggiorna o Reimposta questo campo viene usato per fare riferimento alle attività da aggiornare o reimpostare.

timeout_seconds
timeout_seconds integer

Timeout facoltativo applicato a ogni esecuzione di questa attività di processo. Il valore 0 indica che non è previsto alcun timeout.

webhook_notifications
webhook_notifications Object

JobsRunConditionTask

Nome Percorso Tipo Descrizione
sinistra
left string

Operando sinistro dell'attività della condizione. Può essere un valore stringa o un riferimento a uno stato del processo o a un parametro.

Op
op JobsConditionTaskOp
risultato
outcome string

Risultato della valutazione dell'espressione della condizione. Compilato se l'attività è stata completata correttamente. Può essere "true" o "false"

A destra
right string

Operando destro dell'attività della condizione. Può essere un valore stringa o un riferimento a uno stato del processo o a un parametro.

JobsTriggerType

JobsTriggerInfo

Nome Percorso Tipo Descrizione
run_id
run_id integer

ID esecuzione dell'attività Esegui processo

JobsRunOutput

Nome Percorso Tipo Descrizione
clean_rooms_notebook_output
clean_rooms_notebook_output Object
dashboard_output
dashboard_output Object
dbt_output
dbt_output Object
Errore
error string

Messaggio di errore che indica perché un'attività non è riuscita o perché l'output non è disponibile. Il messaggio non è strutturato e il formato esatto è soggetto a modifiche.

error_trace
error_trace string

Se si è verificato un errore durante l'esecuzione, questo campo contiene eventuali tracce dello stack disponibili.

info
info string
logs
logs string

Output delle attività che scrivono in flussi standard (stdout/stderr), ad esempio spark_jar_task, spark_python_task python_wheel_task. Non è supportato per le notebook_task, le pipeline_task o le spark_submit_task. Azure Databricks limita questa API a restituire gli ultimi 5 MB di questi log.

logs_truncated
logs_truncated boolean

Indica se i log vengono troncati.

metadata
metadata Object
notebook_output
notebook_output JobsNotebookOutput
run_job_output
run_job_output JobsRunJobOutput
sql_output
sql_output Object

JobsNotebookOutput

Nome Percorso Tipo Descrizione
risultato
result string

Valore passato a dbutils.notebook.exit(). Azure Databricks limita questa API per restituire i primi 5 MB del valore. Per ottenere un risultato più ampio, il processo può archiviare i risultati in un servizio di archiviazione cloud. Questo campo è assente se dbutils.notebook.exit() non è mai stato chiamato.

troncato
truncated boolean

Indica se il risultato è stato troncato.

JobsRunJobOutput

Nome Percorso Tipo Descrizione
run_id
run_id integer

ID esecuzione dell'esecuzione del processo attivato

JobsResolvedValues

Nome Percorso Tipo Descrizione
condition_task
condition_task JobsResolvedConditionTaskValues
dbt_task
dbt_task JobsResolvedDbtTaskValues
notebook_task
notebook_task JobsResolvedNotebookTaskValues
python_wheel_task
python_wheel_task JobsResolvedPythonWheelTaskValues
run_job_task
run_job_task JobsResolvedRunJobTaskValues
simulation_task
simulation_task JobsResolvedParamPairValues
spark_jar_task
spark_jar_task JobsResolvedStringParamsValues
spark_python_task
spark_python_task JobsResolvedStringParamsValues
spark_submit_task
spark_submit_task JobsResolvedStringParamsValues
sql_task
sql_task JobsResolvedParamPairValues

JobsResolvedConditionTaskValues

Nome Percorso Tipo Descrizione
sinistra
left string
A destra
right string

JobsResolvedDbtTaskValues

Nome Percorso Tipo Descrizione
commands
commands array of string

JobsResolvedNotebookTaskValues

Nome Percorso Tipo Descrizione
base_parameters
base_parameters object

JobsResolvedPythonWheelTaskValues

Nome Percorso Tipo Descrizione
named_parameters
named_parameters object
parameters
parameters array of string

JobsResolvedRunJobTaskValues

Nome Percorso Tipo Descrizione
job_parameters
job_parameters object
parameters
parameters object

JobsResolvedParamPairValues

Nome Percorso Tipo Descrizione
parameters
parameters object

JobsResolvedStringParamsValues

Nome Percorso Tipo Descrizione
parameters
parameters array of string