Che cos'è l'architettura del lago medallion?

L'architettura medallion descrive una serie di livelli di dati che indicano la qualità dei dati archiviati nella lakehouse. Databricks consiglia di adottare un approccio a più livelli per creare una singola fonte di verità per i prodotti di dati aziendali. Questa architettura garantisce atomicità, coerenza, isolamento e durabilità quando i dati passano attraverso più livelli di convalida e trasformazioni prima di essere archiviati in un layout ottimizzato per l'analisi efficiente. I termini bronzo (crudo), argento (convalidato) e oro (arricchito) descrivono la qualità dei dati in ognuno di questi livelli.

È importante notare che questa architettura medallion non sostituisce altre tecniche di modellazione dimensionale. Gli schemi e le tabelle all'interno di ogni livello possono assumere diverse forme e gradi di normalizzazione a seconda della frequenza e della natura degli aggiornamenti dei dati e dei casi d'uso downstream per i dati.

Le organizzazioni possono sfruttare il lakehouse di Databricks per creare e gestire set di dati convalidati accessibili in tutta l'azienda. L'adozione di una mentalità organizzativa incentrata sulla cura dei dati come prodotti è un passaggio chiave per la creazione di un data lakehouse.

Inserire dati non elaborati a livello di bronzo

Il livello bronzo contiene dati non convalidati. I dati inseriti nel livello bronzo in genere:

  • Mantiene lo stato non elaborato dell'origine dati.
  • Viene accodato in modo incrementale e cresce nel tempo.
  • Può essere qualsiasi combinazione di transazioni di streaming e batch.

La conservazione della cronologia completa e non elaborata di ogni set di dati in un formato di archiviazione efficiente consente di ricreare qualsiasi stato di un determinato sistema dati.

È possibile aggiungere metadati aggiuntivi(ad esempio i nomi dei file di origine o registrare i dati dell'ora di elaborazione) ai dati sull'inserimento per migliorare l'individuabilità, la descrizione dello stato del set di dati di origine e ottimizzare le prestazioni nelle applicazioni downstream.

Convalidare e deduplicare i dati nel livello silver

Tenere presente che mentre il livello bronzo contiene l'intera cronologia dei dati in uno stato quasi non elaborato, il livello silver rappresenta una versione convalidata e arricchita dei dati che possono essere considerati attendibili per l'analisi downstream.

Mentre Databricks crede fortemente nella visione lakehouse guidata da tabelle bronze, silver e gold, semplicemente implementando un livello argento in modo efficiente, sbloccherà immediatamente molti dei potenziali vantaggi della lakehouse.

Per qualsiasi pipeline di dati, il livello silver può contenere più tabelle.

Analisi delle potenzialità con il livello oro

Questi dati gold sono spesso estremamente raffinati e aggregati, contenenti dati utili per l'analisi, l'apprendimento automatico e le applicazioni di produzione. Mentre tutte le tabelle del lakehouse devono servire uno scopo importante, le tabelle gold rappresentano i dati che sono stati trasformati in conoscenze, anziché solo informazioni.

Gli analisti si affidano in gran parte alle tabelle gold per le responsabilità principali e i dati condivisi con un cliente raramente vengono archiviati al di fuori di questo livello.

Aggiornamenti a queste tabelle vengono completate come parte di carichi di lavoro di produzione pianificati regolarmente, che consente di controllare i costi e consente di stabilire contratti di servizio per l'aggiornamento dei dati.

Anche se il lakehouse non ha gli stessi problemi di deadlock che possono verificarsi in un data warehouse aziendale, le tabelle gold vengono spesso archiviate in un contenitore di archiviazione separato per evitare limiti cloud per le richieste di dati.

In generale, poiché le aggregazioni, i join e i filtri vengono gestiti prima che i dati vengano scritti nel livello gold, gli utenti dovrebbero visualizzare prestazioni di query a bassa latenza sui dati nelle tabelle gold.