Condividi tramite


Scenario end-to-end di Lakehouse: panoramica e architettura

Microsoft Fabric è una soluzione completa di analisi per le aziende che copre tutto il necessario, da spostamento dati ad analisi in tempo reale e business intelligence. Offre una suite completa di servizi, tra cui data lake, ingegneria dei dati e integrazione dei dati, tutto in un'unica posizione. Per altre informazioni, vedere Che cos'è Microsoft Fabric?

Questa esercitazione illustra uno scenario end-to-end dall'acquisizione dei dati all'utilizzo dei dati. Consente di creare una conoscenza di base dell'infrastruttura, incluse le diverse esperienze e il modo in cui si integrano, nonché le esperienze di sviluppo professionale e cittadino fornite con l'uso di questa piattaforma. Questa esercitazione non è progettata per essere un'architettura di riferimento, un elenco completo di funzionalità e funzionalità o una raccomandazione di procedure consigliate specifiche.

Scenario end-to-end di Lakehouse

Tradizionalmente, le organizzazioni hanno creato data warehouse moderni per le loro esigenze di analisi dei dati transazionali e strutturate. E data lakehouse per le esigenze di analisi dei dati di Big Data (semi/non strutturate). Questi due sistemi sono stati eseguiti in parallelo, creando silo, duplicazione dei dati e aumento del costo totale di proprietà.

L'infrastruttura con l'unificazione dell'archivio dati e della standardizzazione nel formato Delta Lake consente di eliminare i silo, rimuovere la duplicazione dei dati e ridurre drasticamente il costo totale di proprietà.

Grazie alla flessibilità offerta da Fabric, è possibile implementare architetture lakehouse o data warehouse o combinarle insieme per ottenere il meglio di entrambe con un'implementazione semplice. In questa esercitazione si esaminerà un esempio di organizzazione di vendita al dettaglio e si creerà la sua lakehouse dall'inizio alla fine. Usa l'architettura medallion in cui il livello bronzo ha i dati non elaborati, il livello argento ha i dati convalidati e deduplicati e il livello oro ha dati estremamente raffinati. È possibile adottare lo stesso approccio per implementare una lakehouse per qualsiasi organizzazione di qualsiasi settore.

Questa esercitazione illustra in che modo uno sviluppatore della società fittizia Wide World Importers dal dominio di vendita al dettaglio completa i passaggi seguenti:

  1. Accedere all'account Power BI e iscriversi per ottenere la versione di valutazione gratuita di Microsoft Fabric. Se non si ha una licenza di Power BI, iscriversi per ottenere una licenza gratuita di Power BI e quindi avviare la versione di valutazione di Fabric.

  2. Creare e implementare una lakehouse end-to-end per l'organizzazione:

  3. Pulire le risorse eliminando l'area di lavoro e altri elementi.

Architettura

L'immagine seguente mostra l'architettura end-to-end lakehouse. I componenti coinvolti sono descritti nell'elenco seguente.

Diagramma dell'architettura end-to-end di una lakehouse in Microsoft Fabric.

  • Origini dati: Fabric semplifica la connessione a Servizi dati di Azure, oltre ad altre piattaforme basate sul cloud e origini dati locali, per semplificare l'inserimento dei dati.

  • Inserimento: è possibile creare rapidamente informazioni dettagliate per l'organizzazione usando più di 200 connettori nativi. Questi connettori sono integrati nella pipeline di Infrastruttura e usano la trasformazione dei dati di trascinamento della selezione intuitiva con il flusso di dati. Inoltre, con la funzionalità Collegamento in Fabric è possibile connettersi ai dati esistenti, senza dover copiarli o spostarli.

  • Trasformazione e archiviazione: l'infrastruttura standardizza in formato Delta Lake. Ciò significa che tutti i motori fabric possono accedere e modificare lo stesso set di dati archiviato in OneLake senza duplicare i dati. Questo sistema di archiviazione offre la flessibilità necessaria per creare lakehouse usando un'architettura medallion o una mesh di dati, a seconda delle esigenze dell'organizzazione. È possibile scegliere tra un'esperienza con poco codice o senza codice per la trasformazione dei dati, usando pipeline/flussi di dati o notebook/Spark per un'esperienza code-first.

  • Utilizzo: Power BI può usare i dati di Lakehouse per la creazione di report e la visualizzazione. Ogni Lakehouse ha un endpoint TDS predefinito denominato endpoint di analisi SQL per semplificare la connettività e l'esecuzione di query sui dati nelle tabelle Lakehouse da altri strumenti di creazione di report. L'endpoint di analisi SQL fornisce agli utenti la funzionalità di connessione SQL.

Set di dati di esempio

Questa esercitazione usa il database di esempio Wide World Importers (WWI). Per lo scenario end-to-end lakehouse, sono stati generati dati sufficienti per esplorare le funzionalità di scalabilità e prestazioni della piattaforma Fabric.

Wide World Importers (WWI) è un distributore e un distributore di novità all'ingrosso che opera dalla baia di San Francisco. Come commerciante all'ingrosso, i clienti della SECONDA guerra mondiale includono principalmente aziende che rivendere a singoli individui. WWI vende ai clienti della rivendita al dettaglio in tutti il Stati Uniti, tra cui negozi specializzati, supermercati, negozi di informatica, negozi di souvenir e alcuni privati. WWI vende anche ad altri rivenditori all'ingrosso tramite una rete di agenti che promuovono i prodotti per suo conto. Per altre informazioni sul profilo e sulle operazioni aziendali, vedere Database di esempio wide World Importers per Microsoft SQL.

In generale, i dati vengono portati da sistemi transazionali o applicazioni line-of-business in un lakehouse. Tuttavia, per motivi di semplicità in questa esercitazione, viene usato il modello dimensionale fornito da WWI come origine dati iniziale. Viene usato come origine per inserire i dati in un lakehouse e trasformarli in diverse fasi (Bronzo, Argento e Oro) di un'architettura medallion.

Modello di dati

Mentre il modello dimensionale WWI contiene numerose tabelle dei fatti, per questa esercitazione viene usata la tabella dei fatti Sale e le relative dimensioni correlate. L'esempio seguente illustra il modello di dati WWI:

Diagramma della tabella Dei fatti di vendita e delle dimensioni correlate per il modello di dati di questa esercitazione.

Flusso di dati e trasformazione

Come descritto in precedenza, vengono usati i dati di esempio di Wide World Importers (WWI) per creare questa lakehouse end-to-end. In questa implementazione, i dati di esempio vengono archiviati in un account di archiviazione dati di Azure in formato file Parquet per tutte le tabelle. Tuttavia, in scenari reali, i dati provengono in genere da varie origini e in formati diversi.

L'immagine seguente mostra l'origine, la destinazione e la trasformazione dei dati:

Diagramma del modo in cui i flussi di dati e le trasformazioni vengono trasformati in Microsoft Fabric.

  • Origine dati: i dati di origine sono in formato di file Parquet e in una struttura non partizionata. Viene archiviato in una cartella per ogni tabella. In questa esercitazione è stata configurata una pipeline per inserire i dati cronologici completi o un'ora nel lakehouse.

    In questa esercitazione viene usata la tabella dei fatti Sale , che contiene una cartella padre con dati cronologici per 11 mesi (con una sottocartella per ogni mese) e un'altra cartella contenente dati incrementali per tre mesi (una sottocartella per ogni mese). Durante l'inserimento iniziale dei dati, vengono inseriti 11 mesi di dati nella tabella lakehouse. Tuttavia, quando arrivano i dati incrementali, include i dati aggiornati per ottobre e novembre e i nuovi dati per i dati di dicembre e novembre vengono uniti ai dati esistenti e i nuovi dati dec vengono scritti nella tabella lakehouse, come illustrato nell'immagine seguente:

    Diagramma che mostra come i dati modificati possono essere uniti in modo incrementale in dati inseriti inizialmente in una lakehouse.

  • Lakehouse: in questa esercitazione si crea una lakehouse, si inseriscono i dati nella sezione file del lakehouse e quindi si creano tabelle delta lake nella sezione Tabelle della lakehouse.

  • Trasformazione: per la preparazione e la trasformazione dei dati, vengono visualizzati due approcci diversi. Viene illustrato l'uso di Notebook/Spark per gli utenti che preferiscono un'esperienza code-first e usano pipeline/flussi di dati per gli utenti che preferiscono un'esperienza con poco codice o senza codice.

  • Utilizzo: per illustrare l'utilizzo dei dati, si vedrà come usare la funzionalità DirectLake di Power BI per creare report, dashboard ed eseguire direttamente query sui dati dal lakehouse. Viene inoltre illustrato come rendere i dati disponibili agli strumenti di creazione di report di terze parti usando l'endpoint di analisi TDS/SQL. Questo endpoint consente di connettersi al warehouse ed eseguire query SQL per l'analisi.

Passaggio successivo