Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa pagina descrive le funzionalità di ottimizzazione per le query di streaming stateless disponibili in Databricks Runtime 18.0 e versioni successive.
Le query di streaming strutturato senza stato elaborano i dati senza mantenere uno stato intermedio. Queste query non usano operatori con stato, ad esempio aggregazioni di streaming, dropDuplicates, o join di flusso-flusso. Ad esempio, le query che usano join statici di flusso, MERGE INTO con tabelle Delta e altre operazioni che tengono traccia solo delle righe elaborate dall'origine al sink.
Esecuzione di query adattive e shuffle ottimizzata automaticamente
Azure Databricks supporta l'esecuzione di query adattive (AQE) e lo Shuffle Ottimizzato Automaticamente (AOS) per le query di streaming senza stato. Queste funzionalità consentono di ottimizzare i carichi di lavoro di streaming che usano join statici di flusso, MERGE INTO con tabelle Delta e operazioni simili.
Per abilitare AQE per le query di streaming stateless, impostare la configurazione seguente su true. Questa opzione è abilitata per impostazione predefinita:
spark.sql.adaptive.streaming.stateless.enabled true
Per abilitare AOS per le query di streaming senza stato, abilitare AQE e impostare la configurazione seguente:
spark.sql.shuffle.partitions auto
Modificare le partizioni di miscelazione durante il riavvio della query
Le query di streaming senza stato supportano la modifica del numero di partizioni di mescolamento quando si riavvia una query. In questo modo è possibile modificare il parallelismo per adattare volumi di input diversi.
Questa funzionalità è particolarmente utile per gli scenari di backfill cronologico. Ad esempio, è possibile elaborare il backfill cronologico con parallelismo superiore e quindi ridurre il parallelismo per l'input in tempo reale.
Per modificare il numero di partizioni di mescolamento, impostare la configurazione indicata di seguito sul valore desiderato e quindi riavviare la query.
spark.sql.shuffle.partitions <number>