Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo descrive le configurazioni per le pipeline serverless.
Databricks consiglia di sviluppare nuove pipeline usando serverless. Alcuni carichi di lavoro potrebbero richiedere la configurazione del calcolo classico o l'uso del metastore Hive legacy. Vedere Configurare il calcolo classico per le pipeline e Usare Pipeline Dichiarative Spark di Lakeflow con metastore Hive legacy.
Annotazioni
- Le pipeline serverless utilizzano sempre Unity Catalog. Vedere Usare il catalogo Unity con le pipeline.
- Per le limitazioni di calcolo serverless, vedere limitazioni di calcolo serverless.
- Non è possibile aggiungere manualmente le impostazioni di calcolo in un oggetto
clustersnella configurazione JSON per una pipeline serverless. Se si tenta di eseguire questa operazione, si verifica un errore.
- Se è necessario utilizzare un collegamento Azure Private Link con le pipeline dichiarative serverless di Lakeflow Spark, contattare il proprio rappresentante Databricks.
Requisiti
- L'area di lavoro deve disporre di Unity Catalog abilitato per utilizzare pipeline serverless.
- L'area di lavoro deve trovarsi in una regione abilitata al serverless.
Configurazione consigliata per le pipeline serverless
Importante
L'autorizzazione di creazione del cluster non è necessaria per configurare le pipeline serverless. Per impostazione predefinita, tutti gli utenti dell'area di lavoro possono usare pipeline serverless.
Le pipeline serverless rimuovono la maggior parte delle opzioni di configurazione, perché Azure Databricks gestisce tutta l'infrastruttura. Quando si crea una nuova pipeline, l'impostazione predefinita consiste nell'usare serverless. Per informazioni su come configurare una pipeline serverless, vedere Configurare le pipeline.
È anche possibile convertire le pipeline esistenti configurate con Unity Catalog per l'uso serverless. Consulta Convertire una pipeline esistente per l'uso di tecnologie serverless.
Altre considerazioni sulla configurazione
Per le pipeline serverless sono disponibili anche le opzioni di configurazione seguenti:
- È possibile scegliere di usare la modalità continua durante l'esecuzione di pipeline nell'ambiente di produzione. Consultare Triggered vs. continuous pipeline mode (Modalità pipeline attivata e continua).
- Aggiungere Notifiche per gli aggiornamenti della posta elettronica in base a condizioni di esito positivo o negativo. Vedi Aggiungi le notifiche di posta elettronica agli eventi della pipeline.
- Usa il campo Configurazione per impostare coppie chiave-valore per la pipeline. Queste configurazioni servono due scopi:
- Impostare parametri arbitrari a cui è possibile fare riferimento nel codice sorgente. Consulta Usare i parametri con le pipeline.
- Configurare le impostazioni della pipeline e le configurazioni di Spark. Vedere Informazioni di riferimento sulle proprietà della pipeline.
- Utilizzare il canale Preview per testare la pipeline sui cambiamenti del runtime delle pipeline dichiarative di Lakeflow Spark in sospeso e provare nuove funzionalità.
Criteri di budget serverless
Importante
Questa funzionalità è in Anteprima Pubblica.
Le politiche di budget serverless consentono alla vostra organizzazione di applicare tag personalizzati all'utilizzo serverless per un'attribuzione dettagliata della fatturazione. Dopo aver selezionato la casella di controllo Serverless, viene visualizzata l'impostazione Criterio di budget in cui è possibile selezionare il criterio che si desidera applicare alla pipeline. I tag vengono ereditati dalla politica di budget serverless e possono essere modificati solo dagli amministratori dello spazio di lavoro.
Annotazioni
Dopo che ti è stata assegnata una policy di budget serverless, le tue pipeline esistenti non sono automaticamente etichettate con la tua policy. È necessario aggiornare manualmente le pipeline esistenti se si desidera allegare una politica.
Per ulteriori informazioni sui criteri di budget serverless, consulta Utilizzo degli attributi con criteri di budget serverless.
Selezionare una modalità di prestazioni
Per le pipeline attivate, è possibile selezionare la modalità prestazioni di calcolo serverless usando l'impostazione Prestazioni ottimizzata nell'utilità di pianificazione della pipeline. Quando questa impostazione è disabilitata, la pipeline usa la modalità di prestazioni standard. La modalità prestazioni Standard è progettata per ridurre i costi per i carichi di lavoro in cui è accettabile una latenza di avvio leggermente superiore. I carichi di lavoro serverless che usano la modalità di prestazioni standard vengono in genere avviati entro quattro-sei minuti dall'attivazione, a seconda della disponibilità di calcolo e della pianificazione ottimizzata.
Quando è abilitata l'ottimizzazione delle prestazioni , la pipeline è ottimizzata per le prestazioni, con conseguente avvio e esecuzione più veloci per carichi di lavoro sensibili al tempo.
Entrambe le modalità usano lo stesso SKU, ma la modalità di prestazioni standard consuma meno DBU, indicando un utilizzo di calcolo inferiore.
Annotazioni
Per usare la modalità di prestazioni standard nelle pipeline continue, contattare il proprio team dell'account Databricks.
Le funzionalità della pipeline serverless
Oltre a semplificare la configurazione, le pipeline serverless hanno le funzionalità seguenti:
- aggiornamento incrementale per le viste materializzate: gli aggiornamenti per le viste materializzate vengono aggiornati in modo incrementale quando possibile. L'aggiornamento incrementale ha gli stessi risultati della ricompilazione completa. L'aggiornamento usa un aggiornamento completo se i risultati non possono essere calcolati in modo incrementale. Vedere aggiornamento incrementale per le viste materializzate.
- pipeline di flusso: per migliorare l'utilizzo, la velocità effettiva e la latenza per i carichi di lavoro di dati di streaming, ad esempio l'inserimento dei dati, i microbatches vengono messi in pipeline. In altre parole, invece di eseguire microbatches in sequenza come spark structured streaming standard, le pipeline dichiarative di Lakeflow Spark serverless eseguono contemporaneamente microbatches, migliorando l'utilizzo delle risorse di calcolo. La pipelining di flusso è abilitata per impostazione predefinita nelle pipeline serverless.
- Scalabilità automatica verticale: le pipeline dichiarative di Lakeflow Spark serverless aggiungono alla scalabilità automatica orizzontale fornita da Databricks la scalabilità automatica avanzata allocando automaticamente i tipi di istanza più convenienti che possono eseguire la pipeline senza errori di memoria insufficiente. Consulta Che cos'è la scalabilità automatica verticale?
Convertire una pipeline esistente per far utilizzare la capacità serverless
È possibile convertire le pipeline esistenti configurate con Unity Catalog in pipeline serverless. Completa i passaggi seguenti:
- Nella barra laterale dell'area di lavoro di Azure Databricks fare clic su Processi e pipeline.
- Fare clic sul nome della pipeline.
- Fare clic su Impostazioni.
- Nella barra laterale destra, in Calcolo, fare clic
- Selezionare la casella accanto a Serverless.
- Fare clic su Salva.
Importante
Quando si abilita serverless, tutte le impostazioni di calcolo configurate per una pipeline vengono rimosse. Se si torna a una pipeline con aggiornamenti non serverless, è necessario riconfigurare le impostazioni di calcolo desiderate nella configurazione della pipeline.
Come è possibile trovare l'utilizzo DBU di una pipeline serverless?
È possibile trovare l'uso DBU delle pipeline dichiarative di Lakeflow Spark serverless eseguendo una query sulla tabella di utilizzo fatturabile, parte delle tabelle di sistema di Azure Databricks. Consulta Qual è il consumo DBU di una pipeline serverless?.