Condividi tramite


Ottimizzazione e memorizzazione nella cache dei set di dati

I dashboard di intelligenza artificiale/BI sono strumenti preziosi per l'analisi dei dati e il processo decisionale e tempi di caricamento efficienti possono migliorare significativamente l'esperienza utente. Questo articolo illustra come le ottimizzazioni della memorizzazione nella cache e del set di dati rendono i dashboard più efficienti ed efficienti.

Prestazioni delle query

È possibile esaminare le query e le relative prestazioni nella cronologia delle query dell'area di lavoro. La cronologia delle query mostra le query SQL eseguite con SQL Warehouse. Fare clic su Icona cronologia Cronologia query nella barra laterale per visualizzare la cronologia delle query. Vedere Cronologia query.

Per i set di dati del dashboard, Azure Databricks applica ottimizzazioni delle prestazioni a seconda delle dimensioni del risultato del set di dati.

Ottimizzazioni del set di dati

I set di dati del dashboard di intelligenza artificiale/BI includono le ottimizzazioni delle prestazioni seguenti:

  • Se le dimensioni dei risultati del set di dati sono ridotte (minori di 64.000 righe o 10 MB, a seconda delle dimensioni inferiori), il risultato del set di dati viene eseguito sul client e vengono eseguiti filtri e aggregazioni specifici della visualizzazione nel client. L'applicazione di filtri e l'aggregazione dei dati per set di dati di piccole dimensioni è molto veloce e garantisce che il set di dati sia ridotto può aiutare a ottimizzare le prestazioni del dashboard. Con set di dati di piccole dimensioni, nella cronologia delle query viene visualizzata solo la query del set di dati.
  • Se la dimensione del risultato del set di dati è grande (maggiore o uguale a 64.000 righe o oltre 10 MB), il testo della query del set di dati viene incluso in una clausola SQL WITH e il filtro e l'aggregazione specifici della visualizzazione vengono eseguiti in una query sul back-end anziché nel client. Con set di dati di grandi dimensioni, la query di visualizzazione viene visualizzata nella cronologia delle query.
  • Per le query di visualizzazione inviate al back-end, le query di visualizzazione separate sullo stesso set di dati che condividono le stesse GROUP BY clausole e predicati di filtro vengono combinate in una singola query per l'elaborazione. In questo caso, gli utenti potrebbero visualizzare una query combinata nella cronologia delle query che recupera i risultati per più visualizzazioni.

Memorizzazione nella cache e aggiornamento dei dati

I dashboard mantengono una cache dei risultati di 24 ore per ottimizzare i tempi di caricamento iniziali, operando in modo ottimale. Ciò significa che mentre il sistema tenta sempre di usare i risultati delle query cronologici collegati alle credenziali del dashboard per migliorare le prestazioni, esistono alcuni casi in cui i risultati memorizzati nella cache non possono essere creati o mantenuti.

La tabella seguente illustra come la memorizzazione nella cache varia in base allo stato e alle credenziali del dashboard:

Tipo di dashboard Tipo di memorizzazione nella cache
Dashboard pubblicato con credenziali incorporate Cache condivisa. Tutti i visualizzatori visualizzano gli stessi risultati.
Dashboard bozza o dashboard pubblicato senza credenziali incorporate Cache per utente. I visualizzatori visualizzano i risultati in base alle autorizzazioni per i dati.

I dashboard usano automaticamente i risultati delle query memorizzati nella cache se i dati sottostanti rimangono invariati dopo l'ultima query o se i risultati sono stati recuperati meno di 24 ore fa. Se esistono risultati non aggiornati e i parametri vengono applicati al dashboard, le query verranno rieseguite a meno che non siano stati usati gli stessi parametri nelle ultime 24 ore. Analogamente, l'applicazione di filtri ai set di dati che superano 64.000 righe richiede di rieseguire le query, a meno che gli stessi filtri non siano stati applicati in precedenza nelle ultime 24 ore.

Query pianificate

L'aggiunta di una pianificazione a un dashboard pubblicato con credenziali incorporate può velocizzare notevolmente il processo di caricamento iniziale per tutti i visualizzatori del dashboard.

Per ogni aggiornamento pianificato del dashboard, si verifica quanto segue:

  • Tutta la logica SQL che definisce i set di dati viene eseguita nell'intervallo di tempo designato.
  • I risultati popolano la cache dei risultati della query e consentono di migliorare il tempo di caricamento iniziale del dashboard.