Condividi tramite


Configurare una pipeline serverless

Questo articolo descrive le configurazioni per le pipeline serverless.

Databricks consiglia di sviluppare nuove pipeline usando serverless. Alcuni carichi di lavoro potrebbero richiedere la configurazione del calcolo classico o l'uso del metastore Hive legacy. Vedere Configurare il calcolo classico per le pipeline e Usare Pipeline Dichiarative Spark di Lakeflow con metastore Hive legacy.

Annotazioni

  • Le pipeline serverless utilizzano sempre Unity Catalog. Vedere Usare il catalogo Unity con le pipeline.
  • Per le limitazioni di calcolo serverless, vedere limitazioni di calcolo serverless.
  • Non è possibile aggiungere manualmente le impostazioni di calcolo in un oggetto clusters nella configurazione JSON per una pipeline serverless. Se si tenta di eseguire questa operazione, si verifica un errore.
  • Se è necessario utilizzare un collegamento Azure Private Link con le pipeline dichiarative serverless di Lakeflow Spark, contattare il proprio rappresentante Databricks.

Requisiti

  • L'area di lavoro deve disporre di Unity Catalog abilitato per utilizzare pipeline serverless.

Importante

L'autorizzazione di creazione del cluster non è necessaria per configurare le pipeline serverless. Per impostazione predefinita, tutti gli utenti dell'area di lavoro possono usare pipeline serverless.

Le pipeline serverless rimuovono la maggior parte delle opzioni di configurazione, perché Azure Databricks gestisce tutta l'infrastruttura. Quando si crea una nuova pipeline, l'impostazione predefinita consiste nell'usare serverless. Per informazioni su come configurare una pipeline serverless, vedere Configurare le pipeline.

È anche possibile convertire le pipeline esistenti configurate con Unity Catalog per l'uso serverless. Consulta Convertire una pipeline esistente per l'uso di tecnologie serverless.

Altre considerazioni sulla configurazione

Per le pipeline serverless sono disponibili anche le opzioni di configurazione seguenti:

Criteri di budget serverless

Importante

Questa funzionalità è in Anteprima Pubblica.

Le politiche di budget serverless consentono alla vostra organizzazione di applicare tag personalizzati all'utilizzo serverless per un'attribuzione dettagliata della fatturazione. Dopo aver selezionato la casella di controllo Serverless, viene visualizzata l'impostazione Criterio di budget in cui è possibile selezionare il criterio che si desidera applicare alla pipeline. I tag vengono ereditati dalla politica di budget serverless e possono essere modificati solo dagli amministratori dello spazio di lavoro.

Annotazioni

Dopo che ti è stata assegnata una policy di budget serverless, le tue pipeline esistenti non sono automaticamente etichettate con la tua policy. È necessario aggiornare manualmente le pipeline esistenti se si desidera allegare una politica.

Per ulteriori informazioni sui criteri di budget serverless, consulta Utilizzo degli attributi con criteri di budget serverless.

Selezionare una modalità di prestazioni

Per le pipeline attivate, è possibile selezionare la modalità prestazioni di calcolo serverless usando l'impostazione Prestazioni ottimizzata nell'utilità di pianificazione della pipeline. Quando questa impostazione è disabilitata, la pipeline usa la modalità di prestazioni standard. La modalità prestazioni Standard è progettata per ridurre i costi per i carichi di lavoro in cui è accettabile una latenza di avvio leggermente superiore. I carichi di lavoro serverless che usano la modalità di prestazioni standard vengono in genere avviati entro quattro-sei minuti dall'attivazione, a seconda della disponibilità di calcolo e della pianificazione ottimizzata.

Quando è abilitata l'ottimizzazione delle prestazioni , la pipeline è ottimizzata per le prestazioni, con conseguente avvio e esecuzione più veloci per carichi di lavoro sensibili al tempo.

Entrambe le modalità usano lo stesso SKU, ma la modalità di prestazioni standard consuma meno DBU, indicando un utilizzo di calcolo inferiore.

Annotazioni

Per usare la modalità di prestazioni standard nelle pipeline continue, contattare il proprio team dell'account Databricks.

Le funzionalità della pipeline serverless

Oltre a semplificare la configurazione, le pipeline serverless hanno le funzionalità seguenti:

  • aggiornamento incrementale per le viste materializzate: gli aggiornamenti per le viste materializzate vengono aggiornati in modo incrementale quando possibile. L'aggiornamento incrementale ha gli stessi risultati della ricompilazione completa. L'aggiornamento usa un aggiornamento completo se i risultati non possono essere calcolati in modo incrementale. Vedere aggiornamento incrementale per le viste materializzate.
  • pipeline di flusso: per migliorare l'utilizzo, la velocità effettiva e la latenza per i carichi di lavoro di dati di streaming, ad esempio l'inserimento dei dati, i microbatches vengono messi in pipeline. In altre parole, invece di eseguire microbatches in sequenza come spark structured streaming standard, le pipeline dichiarative di Lakeflow Spark serverless eseguono contemporaneamente microbatches, migliorando l'utilizzo delle risorse di calcolo. La pipelining di flusso è abilitata per impostazione predefinita nelle pipeline serverless.
  • Scalabilità automatica verticale: le pipeline dichiarative di Lakeflow Spark serverless aggiungono alla scalabilità automatica orizzontale fornita da Databricks la scalabilità automatica avanzata allocando automaticamente i tipi di istanza più convenienti che possono eseguire la pipeline senza errori di memoria insufficiente. Consulta Che cos'è la scalabilità automatica verticale?

Convertire una pipeline esistente per far utilizzare la capacità serverless

È possibile convertire le pipeline esistenti configurate con Unity Catalog in pipeline serverless. Completa i passaggi seguenti:

  1. Nella barra laterale dell'area di lavoro di Azure Databricks fare clic su Processi e pipeline.
  2. Fare clic sul nome della pipeline.
  3. Fare clic su Impostazioni.
  4. Nella barra laterale destra, in Calcolo, fare clic sull'icona a forma di matita.
  5. Selezionare la casella accanto a Serverless.
  6. Fare clic su Salva.

Importante

Quando si abilita serverless, tutte le impostazioni di calcolo configurate per una pipeline vengono rimosse. Se si torna a una pipeline con aggiornamenti non serverless, è necessario riconfigurare le impostazioni di calcolo desiderate nella configurazione della pipeline.

Come è possibile trovare l'utilizzo DBU di una pipeline serverless?

È possibile trovare l'uso DBU delle pipeline dichiarative di Lakeflow Spark serverless eseguendo una query sulla tabella di utilizzo fatturabile, parte delle tabelle di sistema di Azure Databricks. Consulta Qual è il consumo DBU di una pipeline serverless?.