Microsoft Fabric-beslutningsvejledning: data warehouse eller lakehouse
Brug denne referencevejledning og eksempelscenarierne til at hjælpe dig med at vælge mellem data warehouse eller et lakehouse for dine arbejdsbelastninger ved hjælp af Microsoft Fabric.
Vigtigt
Microsoft Fabric findes i øjeblikket i PRØVEVERSION. Disse oplysninger er relateret til et foreløbig produkt, der kan blive ændret væsentligt, før det udgives. Microsoft giver ingen garantier, udtrykt eller stiltiende, med hensyn til de oplysninger, der er angivet her.
Egenskaber for data warehouse og lakehouse
Data warehouse | Lakehouse | Power BI-datamart | |
---|---|---|---|
Datamængde | Ubegrænset | Ubegrænset | Op til 100 GB |
Datatype | Struktureret | Ustruktureret semi-struktureret, Struktureret |
Struktureret |
Primær udviklerpersona | Data warehouse-udvikler, SQL-tekniker |
Datatekniker, dataforsker |
Borgerudvikler |
Primært udviklerkvalifikationssæt | SQL | Spark (Scala, PySpark, Spark SQL, R) |
Ingen kode, SQL |
Data, der er organiseret efter | Databaser, skemaer og tabeller | Mapper og filer, databaser og tabeller |
Database, tabeller, forespørgsler |
Læsehandlinger | Gnist T-SQL |
Gnist T-SQL |
Gnist T-SQL, Power BI |
Skrivehandlinger | T-SQL | Spark (Scala, PySpark, Spark SQL, R) |
Dataflow, T-SQL |
Transaktioner med flere tabeller | Ja | Nej | Nej |
Primær udviklingsgrænseflade | SQL-scripts | Spark-notesbøger, Spark-jobdefinitioner |
Power BI |
Sikkerhed | Objektniveau (tabel, visning, funktion, lagret procedure osv.) kolonneniveau, rækkeniveau, DDL/DML |
Rækkeniveau, tabelniveau (ved brug af T-SQL) ingen for Spark |
Indbygget RLS-editor |
Få adgang til data via genveje | Ja (indirekte gennem lakehouse) | Ja | Nej |
Kan være en kilde til genveje | Ja (tabeller) | Ja (filer og tabeller) | No |
Forespørgsel på tværs af elementer | Ja, forespørg på tværs af lakehouse- og warehouse-tabeller | Ja, forespørg på tværs af lakehouse- og warehouse-tabeller. forespørgsel på tværs af lakehouses (herunder genveje ved hjælp af Spark) |
No |
Scenarier
Gennemse disse scenarier for at få hjælp til at vælge mellem at bruge et lakehouse eller et data warehouse i Fabric.
Scenarie 1
Susan, der er professionel udvikler, er ny i Microsoft Fabric. De er klar til at komme i gang med at rense, modellere og analysere data, men skal beslutte at bygge et data warehouse eller et lakehouse. Efter gennemgang af detaljerne i den forrige tabel er de primære beslutningspunkter det tilgængelige kvalifikationssæt og behovet for transaktioner med flere tabeller.
Susan har brugt mange år på at bygge data warehouses på relationsdatabaseprogrammer og har kendskab til SQL-syntaks og -funktionalitet. Når vi tænker på det større team, er de primære forbrugere af disse data også dygtige til SQL- og SQL-analyseværktøjer. Susan beslutter sig for at bruge et data warehouse, hvilket gør det muligt for teamet primært at interagere med T-SQL, samtidig med at hun giver alle Spark-brugere i organisationen mulighed for at få adgang til dataene.
Scenarie 2
Rob, der er datatekniker, skal gemme og modellere flere terabyte data i Fabric. Teamet har en blanding af PySpark og T-SQL-færdigheder. De fleste af de team, der kører T-SQL-forespørgsler, er forbrugere og behøver derfor ikke at skrive INSERT-, UPDATE- eller DELETE-sætninger. De resterende udviklere er komfortable med at arbejde i notesbøger, og fordi dataene er gemt i Delta, kan de interagere med en lignende SQL-syntaks.
Rob beslutter sig for at bruge et lakehouse, som gør det muligt for datateknikerteamet at bruge deres forskellige færdigheder i forhold til dataene, samtidig med at de teammedlemmer, der er højtuddannede i T-SQL, kan bruge dataene.
Scenarie 3
Ash, der er borgerudvikler, er Power BI-udvikler. De kender Excel, Power BI og Office. De skal oprette et dataprodukt til en afdeling. De ved, at de ikke helt har færdighederne til at bygge et data warehouse eller et lakehouse, og de virker som for meget til deres behov og datamængder. De gennemgår detaljerne i den forrige tabel og ser, at de primære beslutningspunkter er deres egne færdigheder og deres behov for selvbetjening, ingen kodefunktion og datavolumen under 100 GB.
Ash arbejder sammen med forretningsanalytikere, der er fortrolige med Power BI og Microsoft Office, og ved, at de allerede har et Premium-kapacitetsabonnement. Når de tænker på deres større team, er de klar over, at de primære forbrugere af disse data kan være analytikere, der er fortrolige med værktøjer uden kode og SQL-analyse. Ash beslutter sig for at bruge en Power BI-datamart, som gør det muligt for teamet at interagere med at opbygge funktionaliteten hurtigt ved hjælp af en oplevelse uden kode. Forespørgsler kan udføres via Power BI og T-SQL, samtidig med at alle Spark-brugere i organisationen også kan få adgang til dataene.