Guida alle decisioni di Microsoft Fabric: data warehouse o lakehouse

Usare questa guida di riferimento e gli scenari di esempio per scegliere tra il data warehouse o una lakehouse per i carichi di lavoro con Microsoft Fabric.

Importante

Microsoft Fabric è disponibile in anteprima.

Proprietà data warehouse e lakehouse

Data warehouse Lakehouse Power BI Datamart
Volume dei dati Nessuna limitazione Nessuna limitazione Fino a 100 GB
Tipo di dati Dati strutturati Destrutturati
semistrutturato,
Strutturato
Dati strutturati
Persona per sviluppatori principale Sviluppatore del data warehouse,
Tecnico SQL
Data engineer,
Scienziato dei dati
Sviluppatore cittadino
Set di competenze per sviluppatori primario SQL Spark
(Scala, PySpark, Spark SQL, R)
Nessun codice, SQL
Dati organizzati per Database, schemi e tabelle Cartelle e file,
database e tabelle
Database, tabelle, query
Operazioni di lettura Scintilla
T-SQL
Scintilla
T-SQL
Scintilla
T-SQL,
Power BI
Operazioni di scrittura T-SQL Spark
(Scala, PySpark, Spark SQL, R)
Flussi di dati, T-SQL
Transazioni con più tabelle No No
Interfaccia di sviluppo principale Script SQL Notebook Spark,
Definizioni dei processi Spark
Power BI
Sicurezza Livello oggetto (tabella, vista, funzione, stored procedure e così via),
a livello di colonna,
livello di riga,
DDL/DML
Livello di riga,
livello di tabella (quando si usa T-SQL),
nessuno per Spark
Editor della sicurezza a livello di riga predefinito
Accedere ai dati tramite collegamenti Sì (indirettamente attraverso il lago) No
Può essere un'origine per i tasti di scelta rapida Sì (tabelle) Sì (file e tabelle) No
Eseguire query tra elementi Sì, eseguire query su tabelle lakehouse e warehouse Sì, eseguire query su tabelle lakehouse e warehouse;
eseguire query tra lakehouse (inclusi i collegamenti con Spark)
No

Scenari

Esaminare questi scenari per informazioni sulla scelta tra l'uso di un lakehouse o un data warehouse in Fabric.

Scenario 1

Susan, uno sviluppatore professionista, è una novità di Microsoft Fabric. Sono pronti per iniziare a pulire, modellare e analizzare i dati, ma devono decidere di creare un data warehouse o una lakehouse. Dopo aver esaminato i dettagli nella tabella precedente, i punti decisionali principali sono il set di competenze disponibile e la necessità di transazioni con più tabelle.

Susan ha trascorso molti anni a creare data warehouse su motori di database relazionali e ha familiarità con la sintassi e le funzionalità di SQL. Pensando al team più ampio, i principali consumer di questi dati sono anche esperti con gli strumenti analitici SQL e SQL. Susan decide di usare un data warehouse, che consente al team di interagire principalmente con T-SQL, consentendo anche a qualsiasi utente Spark dell'organizzazione di accedere ai dati.

Scenario 2

Rob, un data engineer, deve archiviare e modellare diversi terabyte di dati in Fabric. Il team ha una combinazione di competenze di PySpark e T-SQL. La maggior parte del team che esegue query T-SQL è costituita dai consumer e pertanto non è necessario scrivere istruzioni INSERT, UPDATE o DELETE. Gli sviluppatori rimanenti sono a conoscenza del funzionamento dei notebook e, poiché i dati vengono archiviati in Delta, possono interagire con una sintassi SQL simile.

Rob decide di usare una lakehouse, che consente al team di ingegneria dei dati di usare le proprie competenze diverse rispetto ai dati, consentendo ai membri del team altamente qualificati in T-SQL di utilizzare i dati.

Scenario 3

Ash, uno sviluppatore cittadino, è uno sviluppatore di Power BI. Hanno familiarità con Excel, Power BI e Office. Devono creare un prodotto dati per una business unit. Sanno che non hanno abbastanza le competenze per creare un data warehouse o una lakehouse e quelli sembrano troppo per le loro esigenze e volumi di dati. Esaminano i dettagli della tabella precedente e vedono che i punti decisionali principali sono le proprie competenze e la loro necessità di un self-service, nessuna funzionalità di codice e volume di dati inferiore a 100 GB.

Ash lavora con gli analisti aziendali che hanno familiarità con Power BI e Microsoft Office e sa che hanno già una sottoscrizione di capacità Premium. Poiché pensano al team più grande, si rendono conto che i consumatori primari di questi dati possono essere analisti, familiari con strumenti analitici senza codice e SQL. Ash decide di usare un datamart di Power BI, che consente al team di interagire rapidamente con la funzionalità, usando un'esperienza senza codice. Le query possono essere eseguite anche tramite Power BI e T-SQL, consentendo anche agli utenti Spark dell'organizzazione di accedere ai dati.

Passaggi successivi