Scenario end-to-end di Lakehouse: panoramica e architettura

Microsoft Fabric è una soluzione di analisi all-in-one per le aziende che copre tutto il movimento dei dati, l'analisi in tempo reale e l'intelligence aziendale. Offre una suite completa di servizi, tra cui data lake, ingegneria dei dati e integrazione dei dati, tutti in un'unica posizione. Per altre informazioni, vedere Informazioni su Microsoft Fabric?

Questa esercitazione illustra uno scenario end-to-end dall'acquisizione dei dati all'utilizzo dei dati. Consente di creare una conoscenza di base di Fabric, tra cui le diverse esperienze e l'integrazione, nonché le esperienze professionali e di sviluppo cittadino che provengono dall'uso di questa piattaforma. Questa esercitazione non è destinata a essere un'architettura di riferimento, un elenco completo di funzionalità e funzionalità o una raccomandazione di procedure consigliate specifiche.

Importante

Microsoft Fabric è attualmente in ANTEPRIMA. Queste informazioni si riferiscono a un prodotto di versione preliminare che può essere modificato sostanzialmente prima che venga rilasciato. Microsoft non garantisce alcuna garanzia, espressa o implicita, rispetto alle informazioni fornite qui.

Scenario end-to-end di Lakehouse

Tradizionalmente, le organizzazioni hanno creato data warehouse moderni per le proprie esigenze di analisi dei dati transazionali e strutturate. E data lakehouse per le esigenze di analisi dei dati semi/non strutturate per Big Data. Questi due sistemi sono stati eseguiti in parallelo, creando silos, duplicità dei dati e aumento del costo totale della proprietà.

L'infrastruttura con l'unificazione dell'archivio dati e la standardizzazione nel formato Delta Lake consente di eliminare silos, rimuovere la duplicità dei dati e ridurre drasticamente il costo totale della proprietà.

Con la flessibilità offerta da Fabric, è possibile implementare architetture lakehouse o data warehouse o combinare queste due insieme per ottenere il meglio di entrambe con l'implementazione semplice. In questa esercitazione si esaminerà un esempio di organizzazione retail e si creerà la sua lakehouse dall'inizio alla fine. Usa l'architettura di medaglia in cui il livello di bronzo ha i dati non elaborati, il livello argento ha i dati convalidati e deduplicati e il livello oro ha dati estremamente raffinati. È possibile adottare lo stesso approccio per implementare una lakehouse per qualsiasi organizzazione di qualsiasi settore.

Questa esercitazione illustra come uno sviluppatore dell'azienda wide world importers fittizia dal dominio retail completa i passaggi seguenti:

  1. Accedere all'account Di Power BI o, se non ne è ancora disponibile uno, iscriversi per una versione di valutazione gratuita.

  2. Compilare e implementare una lakehouse end-to-end per l'organizzazione:

    • Creare un'area di lavoro di Fabric
    • Creare una lakehouse. Include una sezione facoltativa per implementare l'architettura medaglia che è il bronzo, argento e strati d'oro.
    • Inserire dati, trasformare i dati e caricarli nella lakehouse. Caricare i dati dalle zone bronzo, argento e oro come tabelle delta lake. È anche possibile esplorare OneLake, OneCopy dei dati in modalità lake e in modalità warehouse.
    • Connettersi alla lakehouse usando l'endpoint TDS/SQL e creare un report di Power BI usando DirectLake per analizzare i dati di vendita tra dimensioni diverse.
    • Facoltativamente, è possibile orchestrare e pianificare il flusso di inserimento e trasformazione dei dati con una pipeline.
  3. Pulire le risorse eliminando l'area di lavoro e altri elementi.

Architettura

L'immagine seguente mostra l'architettura end-to-end lakehouse. I componenti coinvolti sono descritti in dettaglio di seguito:

Diagramma dell'architettura end-to-end di una lakehouse in Microsoft Fabric.

  • Origini dati: Fabric semplifica la connessione ad Azure Data Services, oltre ad altre piattaforme basate sul cloud e origini dati locali, per semplificare l'inserimento dei dati.

  • Inserimento: è possibile creare rapidamente informazioni dettagliate per l'organizzazione usando più di 200 connettori nativi. Questi connettori sono integrati nella pipeline di Fabric e usano la trasformazione dei dati di trascinamento e rilascio descrittiva con flusso di dati. Inoltre, con la funzionalità Di collegamento in Fabric è possibile connettersi ai dati esistenti, senza dover copiare o spostarlo.

  • Trasformare e archiviare: l'infrastruttura standardizza in formato Delta Lake. Ciò significa che tutti i motori fabric possono accedere e modificare lo stesso set di dati archiviato in OneLake senza duplicare i dati. Questo sistema di archiviazione offre la flessibilità di compilazione di lakehouse usando un'architettura medallion o una mesh di dati, a seconda delle esigenze dell'organizzazione. È possibile scegliere tra un'esperienza a basso codice o senza codice per la trasformazione dei dati, usando pipeline/flussi di dati o notebook/Spark per un'esperienza code-first.

  • Utilizzo: Power BI può usare i dati da Lakehouse per la creazione di report e la visualizzazione. Ogni Lakehouse ha un endpoint TDS/SQL predefinito, per semplificare la connettività e l'esecuzione di query sui dati nelle tabelle Lakehouse da altri strumenti di creazione di report. Inoltre, quando viene creato un Lakehouse, viene generato automaticamente un elemento secondario corrispondente denominato warehouse con lo stesso nome di Lakehouse. Fornisce agli utenti la funzionalità dell'endpoint TDS/SQL.

Set di dati di esempio

Questa esercitazione usa il database di esempio Wide World Importers (WWI). Per lo scenario end-to-end lakehouse, sono stati generati dati sufficienti per esplorare le funzionalità di scalabilità e prestazioni della piattaforma Fabric.

Wide World Importers (WWI) è un importatore di merci all'ingrosso e un distributore di prodotti che operano dalla zona della Baia di San Francisco. Come rivenditore, i clienti della WWI includono principalmente aziende che rivalutano le persone. WWI vende ai clienti della rivendita al dettaglio in tutti il Stati Uniti, tra cui negozi specializzati, supermercati, negozi di informatica, negozi di souvenir e alcuni privati. WWI vende anche ad altri rivenditori all'ingrosso tramite una rete di agenti che promuovono i prodotti per suo conto. Per altre informazioni sul profilo aziendale e sull'operazione, vedere Database di esempio Wide World Importers per Microsoft SQL.

In generale, i dati vengono portati da sistemi transazionali o applicazioni line-of-business in una lakehouse. Tuttavia, per motivi di semplicità in questa esercitazione, verrà usato il modello dimensionale fornito dalla WWI come origine dati iniziale. Lo usiamo come origine per inserire i dati in una casa del lago e trasformarlo in fasi diverse (Bronzo, Argento e Oro) di un'architettura di medaglia.

Modello di dati

Mentre il modello dimensionale WWI contiene numerose tabelle dei fatti, per questa esercitazione si userà la tabella dei fatti sale e le relative dimensioni correlate. Nell'esempio seguente viene illustrato il modello di dati WWI:

Diagramma della tabella Dei fatti di vendita e delle dimensioni correlate per questo modello di dati dell'esercitazione.

Flusso di dati e trasformazione

Come descritto in precedenza, verranno usati i dati di esempio di Wide World Import (WWI) per creare questa end-to-end lakehouse. In questa implementazione i dati di esempio vengono archiviati in un account di archiviazione dati di Azure in formato file Parquet per tutte le tabelle. Tuttavia, negli scenari reali, i dati provengono in genere da varie origini e in formati diversi.

L'immagine seguente mostra la trasformazione origine, destinazione e dati:

Diagramma del modo in cui i flussi di dati e le trasformazioni vengono trasformati in Microsoft Fabric.

  • Origine dati: i dati di origine sono in formato file Parquet e in una struttura non partizionata. Viene archiviato in una cartella per ogni tabella. In questa esercitazione viene configurata una pipeline per inserire i dati cronologici completi o unotime nel lakehouse.

    Per illustrare le funzionalità per il carico di dati incrementali, è disponibile un'esercitazione facoltativa alla fine di questa esercitazione. In questa esercitazione viene usata la tabella dei fatti Sale , che include una cartella padre con dati cronologici per 11 mesi (con una sottocartella per ogni mese) e un'altra cartella contenente dati incrementali per tre mesi (una sottocartella per ogni mese). Durante l'inserimento iniziale dei dati, vengono inseriti 11 mesi di dati nella tabella lakehouse. Tuttavia, quando arrivano i dati incrementali, include i dati aggiornati per Oct e Nov e i nuovi dati per dec. Ott e Nov vengono uniti ai dati esistenti e i nuovi dati dec vengono scritti nella tabella lakehouse, come illustrato nell'immagine seguente:

    Diagramma che mostra come i dati modificati possono essere uniti in modo incrementale in dati inizialmente inseriti in una lakehouse.

  • Lakehouse: in questa esercitazione si creerà una lakehouse, inserire i dati nella sezione file della lakehouse e quindi creare tabelle delta lake nella sezione Tabelle della lakehouse. È possibile trovare un'esercitazione facoltativa, che illustra la creazione della lakehouse con l'architettura di medaglia alcuni consigli.

  • Trasformazione: per la preparazione e la trasformazione dei dati, verranno visualizzati due approcci diversi. Verrà illustrato l'uso di Notebooks/Spark per gli utenti che preferiscono un'esperienza code-first e useranno pipeline/flussi di dati per gli utenti che preferiscono un'esperienza con codice basso o senza codice.

  • Utilizzo: per illustrare l'utilizzo dei dati, si vedrà come usare la funzionalità DirectLake di Power BI per creare report, dashboard e eseguire query direttamente sui dati da lakehouse. Verrà inoltre illustrato come rendere i dati disponibili per gli strumenti di creazione di report di terze parti usando l'endpoint TDS/SQL. Questo endpoint consente di connettersi al warehouse ed eseguire query SQL per l'analisi.

Passaggi successivi

Passare all'articolo successivo per informazioni su come