Guida alle decisioni di Microsoft Fabric: data warehouse o lakehouse
Usare questa guida di riferimento e gli scenari di esempio per scegliere tra il data warehouse o una lakehouse per i carichi di lavoro con Microsoft Fabric.
Importante
Microsoft Fabric è disponibile in anteprima.
Proprietà data warehouse e lakehouse
Data warehouse | Lakehouse | Power BI Datamart | |
---|---|---|---|
Volume dei dati | Nessuna limitazione | Nessuna limitazione | Fino a 100 GB |
Tipo di dati | Dati strutturati | Destrutturati semistrutturato, Strutturato |
Dati strutturati |
Persona per sviluppatori principale | Sviluppatore del data warehouse, Tecnico SQL |
Data engineer, Scienziato dei dati |
Sviluppatore cittadino |
Set di competenze per sviluppatori primario | SQL | Spark (Scala, PySpark, Spark SQL, R) |
Nessun codice, SQL |
Dati organizzati per | Database, schemi e tabelle | Cartelle e file, database e tabelle |
Database, tabelle, query |
Operazioni di lettura | Scintilla T-SQL |
Scintilla T-SQL |
Scintilla T-SQL, Power BI |
Operazioni di scrittura | T-SQL | Spark (Scala, PySpark, Spark SQL, R) |
Flussi di dati, T-SQL |
Transazioni con più tabelle | Sì | No | No |
Interfaccia di sviluppo principale | Script SQL | Notebook Spark, Definizioni dei processi Spark |
Power BI |
Sicurezza | Livello oggetto (tabella, vista, funzione, stored procedure e così via), a livello di colonna, livello di riga, DDL/DML |
Livello di riga, livello di tabella (quando si usa T-SQL), nessuno per Spark |
Editor della sicurezza a livello di riga predefinito |
Accedere ai dati tramite collegamenti | Sì (indirettamente attraverso il lago) | Sì | No |
Può essere un'origine per i tasti di scelta rapida | Sì (tabelle) | Sì (file e tabelle) | No |
Eseguire query tra elementi | Sì, eseguire query su tabelle lakehouse e warehouse | Sì, eseguire query su tabelle lakehouse e warehouse; eseguire query tra lakehouse (inclusi i collegamenti con Spark) |
No |
Scenari
Esaminare questi scenari per informazioni sulla scelta tra l'uso di un lakehouse o un data warehouse in Fabric.
Scenario 1
Susan, uno sviluppatore professionista, è una novità di Microsoft Fabric. Sono pronti per iniziare a pulire, modellare e analizzare i dati, ma devono decidere di creare un data warehouse o una lakehouse. Dopo aver esaminato i dettagli nella tabella precedente, i punti decisionali principali sono il set di competenze disponibile e la necessità di transazioni con più tabelle.
Susan ha trascorso molti anni a creare data warehouse su motori di database relazionali e ha familiarità con la sintassi e le funzionalità di SQL. Pensando al team più ampio, i principali consumer di questi dati sono anche esperti con gli strumenti analitici SQL e SQL. Susan decide di usare un data warehouse, che consente al team di interagire principalmente con T-SQL, consentendo anche a qualsiasi utente Spark dell'organizzazione di accedere ai dati.
Scenario 2
Rob, un data engineer, deve archiviare e modellare diversi terabyte di dati in Fabric. Il team ha una combinazione di competenze di PySpark e T-SQL. La maggior parte del team che esegue query T-SQL è costituita dai consumer e pertanto non è necessario scrivere istruzioni INSERT, UPDATE o DELETE. Gli sviluppatori rimanenti sono a conoscenza del funzionamento dei notebook e, poiché i dati vengono archiviati in Delta, possono interagire con una sintassi SQL simile.
Rob decide di usare una lakehouse, che consente al team di ingegneria dei dati di usare le proprie competenze diverse rispetto ai dati, consentendo ai membri del team altamente qualificati in T-SQL di utilizzare i dati.
Scenario 3
Ash, uno sviluppatore cittadino, è uno sviluppatore di Power BI. Hanno familiarità con Excel, Power BI e Office. Devono creare un prodotto dati per una business unit. Sanno che non hanno abbastanza le competenze per creare un data warehouse o una lakehouse e quelli sembrano troppo per le loro esigenze e volumi di dati. Esaminano i dettagli della tabella precedente e vedono che i punti decisionali principali sono le proprie competenze e la loro necessità di un self-service, nessuna funzionalità di codice e volume di dati inferiore a 100 GB.
Ash lavora con gli analisti aziendali che hanno familiarità con Power BI e Microsoft Office e sa che hanno già una sottoscrizione di capacità Premium. Poiché pensano al team più grande, si rendono conto che i consumatori primari di questi dati possono essere analisti, familiari con strumenti analitici senza codice e SQL. Ash decide di usare un datamart di Power BI, che consente al team di interagire rapidamente con la funzionalità, usando un'esperienza senza codice. Le query possono essere eseguite anche tramite Power BI e T-SQL, consentendo anche agli utenti Spark dell'organizzazione di accedere ai dati.