Informazioni sui data warehouse in Fabric

Completato

Lakehouse di Fabric è una raccolta di file, cartelle, tabelle e collegamenti che si comporta come un database su un data lake. Viene usato dal motore Spark e dal motore SQL per l'elaborazione dei big data e dispone di funzionalità per le transazioni ACID quando si usano le tabelle formattate Delta open source.

L'esperienza del data warehouse di Fabric consente di passare dalla vista lake di Lakehouse (che supporta l'ingegneria dei dati e Apache Spark) all'esperienza SQL di un data warehouse tradizionale. Lakehouse consente di leggere le tabelle e di usare l'endpoint di Analisi SQL, mentre il data warehouse consente di modificare i dati.

Nell'esperienza del data warehouse, si modellano i dati usando tabelle e viste, si esegue T-SQL per eseguire query dei dati nel data warehouse e in Lakehouse, si usa T-SQL per eseguire operazioni DML sui dati all'interno del data warehouse e si usano livelli di creazione di report come Power BI.

Ora che si conoscono i principi dell'architettura di base per uno schema di data warehouse relazionale, si vedrà come creare un data warehouse.

Descrivere un data warehouse in Fabric

Nell'esperienza di data warehouse in Fabric, è possibile creare un livello relazionale sopra i dati fisici in Lakehouse ed esporlo agli strumenti di analisi e creazione di report. È possibile creare il data warehouse direttamente in Fabric da crea hub o all'interno di un'area di lavoro. Dopo aver creato un warehouse vuoto, è possibile aggiungervi oggetti.

Screenshot dell'interfaccia utente Fabric con una freccia che indica l'hub di creazione.

Dopo aver creato il warehouse, è possibile creare le tabelle usando T-SQL direttamente nell'interfaccia di Fabric.

Inserire i dati nel data warehouse

Esistono alcuni modi per inserire i dati in un data warehouse di Fabric, tra cui Pipeline, Flussi di dati, query tra database e il comando COPY INTO. Dopo l'inserimento, i dati diventano disponibili per l'analisi da parte di più gruppi aziendali, che possono usare funzionalità come l'esecuzione di query e la condivisione tra database per accedervi.

Creare tabelle

Per creare una tabella nel data warehouse, è possibile usare SQL Server Management Studio (SSMS) o un altro client SQL per connettersi al data warehouse ed eseguire un'istruzione CREATE TABLE. È anche possibile creare tabelle direttamente nell'interfaccia utente di Fabric.

È possibile copiare i dati da una posizione esterna in una tabella del data warehouse usando la sintassi COPY INTO. Ad esempio:

COPY INTO dbo.Region 
FROM 'https://mystorageaccountxxx.blob.core.windows.net/private/Region.csv' WITH ( 
            FILE_TYPE = 'CSV'
            ,CREDENTIAL = ( 
                IDENTITY = 'Shared Access Signature'
                , SECRET = 'xxx'
                )
            ,FIRSTROW = 2
            )
GO

Questa query SQL carica i dati da un file CSV archiviato in Archiviazione BLOB di Azure in una tabella denominata "Area" nel data warehouse di Fabric.

Screenshot dell'editor di query SQL con una query aperta.

Considerazioni sulle tabelle

Dopo aver creato le tabelle in un data warehouse, è importante prendere in considerazione il processo di caricamento dei dati in tali tabelle. Un approccio comune consiste nell'usare le tabelle di staging. In Fabric, è possibile usare i comandi T-SQL per caricare i dati dai file alle tabelle di staging del data warehouse.

Le tabelle di staging sono tabelle temporanee che possono essere usate per eseguire la pulizia dei dati, le trasformazioni dei dati e la convalida dei dati. È anche possibile usare le tabelle di staging per caricare i dati da più origini in una singola tabella di destinazione.

Il caricamento dei dati viene in genere eseguito come processo batch periodico in cui gli inserimenti e gli aggiornamenti del data warehouse sono programmati a intervalli regolari (ad esempio su base giornaliera, settimanale o mensile).

In genere, è consigliabile implementare il processo di caricamento del data warehouse affinché esegua le attività nell’ordine seguente:

  1. Inserire i nuovi dati da caricare in un data lake, applicando la pulizia o le trasformazioni di pre-caricamento in base alle esigenze.
  2. Caricare i dati dai file nelle tabelle di staging nel data warehouse relazionale.
  3. Caricare le tabelle delle dimensioni dai dati delle dimensioni nelle tabelle di staging, aggiornando le righe esistenti o inserendo nuove righe e generando valori di chiave sostitutiva, in base alle esigenze.
  4. Caricare le tabelle dei fatti dai dati dei fatti nelle tabelle di staging, cercando le chiavi sostitutive appropriate per le dimensioni correlate.
  5. Eseguire l'ottimizzazione post-caricamento aggiornando gli indici e le statistiche di distribuzione delle tabelle.

Se si dispone di tabelle nel lakehouse e si vuole poter eseguire query nel warehouse, ma non apportare modifiche, con un data warehouse di Fabric non è necessario copiare i dati dal lakehouse al data warehouse. È possibile eseguire query sui dati del lakehouse direttamente dal data warehouse usando l’esecuzione di query tra database.

Importante

L’uso delle tabelle del data warehouse di Fabric presenta attualmente alcune limitazioni. Per altre informazioni, vedere Tabelle nel data warehousing in Microsoft Fabric .