Condividi tramite


Guida rapida sulla preparazione dei dati

Le prestazioni di business intelligence di fascia alta dipendono dal modo in cui i dati vengono preparati e distribuiti in modo efficace da Lakehouse. Adottando modelli architetturali, applicando una struttura semantica e usando ottimizzazioni mirate, è possibile ridurre la complessità delle query, migliorare la velocità di risposta del dashboard e ridurre i costi di calcolo.

La tabella seguente riepiloga le procedure consigliate, l'impatto previsto, la documentazione correlata e gli elementi di azione associati. Questo contenuto è destinato a data engineer, sviluppatori di business intelligence e autori di dashboard che progettano, ottimizzano e gestiscono i carichi di lavoro di analisi in Lakehouse.

Preparazione dei dati

Procedura consigliata Impatto Docs Elementi di azione
Adottare un'architettura medallion Velocizza la trasformazione dei dati non elaborati in prodotti dati affidabili e pronti all'uso per un facile consumo. Esaminare e implementare i livelli di medaglione
Usare il clustering liquido Migliora le prestazioni delle query con salto di file e dati. Applicare su tabelle di grandi dimensioni con modelli di filtro
Usare tabelle gestite Azure Databricks regola automaticamente e ottimizza il livello di archiviazione e le prestazioni delle query. Creare tabelle gestite per i dati
Usare manualmente l'ottimizzazione predittiva o ottimizzare le tabelle Consente prestazioni migliori delle query ottimizzando le dimensioni e il layout dei file, eliminando i file obsoleti e aggiornando le statistiche. Attivare per le tabelle di produzione oppure pianificare una regolare ottimizzazione e analizzare le tabelle dopo le modifiche ai dati
Modellare i dati in un modello di schema star Semplifica l'esecuzione di query e utilizzo dei dati. Progettare tabelle dei fatti e delle dimensioni
Evitare tipi di dati estesi e colonne a cardinalità elevata Ottimizza le dimensioni del modello di dati e il consumo di memoria e migliora l'efficienza delle query. Esaminare i tipi di dati e la cardinalità
Dichiarare chiavi primarie ed esterne (con RELY) Ottimizza le query eliminando join e aggregazioni non necessari. Definire le chiavi nelle tabelle dei fatti e delle dimensioni
Usare le colonne generate automaticamente Riduce la necessità di calcolare i valori in fase di query. Identificare i campi calcolati di frequente
Usare viste materializzate e tabelle persistenti Migliora le prestazioni preaggregando i dati per le query più comuni e a elevato utilizzo di risorse. Creare viste aggregate per query comuni