Lakehouse ende-til-ende-scenario: oversikt og arkitektur
Microsoft Fabric er en alt-i-ett-analyseløsning for virksomheter som dekker alt fra databevegelse til datavitenskap, analyse i sanntid og forretningsanalyse. Den tilbyr en omfattende tjenesteserie, inkludert datainnsjø, datateknikk og dataintegrering, alt på ett sted. Hvis du vil ha mer informasjon, kan du se Hva er Microsoft Fabric?
Denne opplæringen veileder deg gjennom et ende-til-ende-scenario fra datainnhenting til dataforbruk. Det hjelper deg med å bygge en grunnleggende forståelse av Fabric, inkludert de ulike opplevelsene og hvordan de integreres, samt de profesjonelle og borgerlige utvikleropplevelsene som følger med å jobbe på denne plattformen. Denne opplæringen er ikke ment å være en referansearkitektur, en omfattende liste over funksjoner og funksjonalitet, eller en anbefaling av spesifikke anbefalte fremgangsmåter.
Viktig
Microsoft Fabric er for øyeblikket i PREVIEW. Denne informasjonen er knyttet til et forhåndsutgitt produkt som kan endres vesentlig før det utgis. Microsoft gir ingen garantier, uttrykt eller underforstått, med hensyn til informasjonen som er oppgitt her.
Lakehouse ende-til-ende-scenario
Organisasjoner har tradisjonelt bygget moderne datalagre for sine transaksjonelle og strukturerte dataanalysebehov. Og datasjøhus for store data (semi/ustrukturerte) dataanalysebehov. Disse to systemene kjørte parallelt, skapte siloer, dataduplisering og økte totale eierkostnader.
Fabric med sin samling av datalager og standardisering på Delta Lake format lar deg eliminere siloer, fjerne dataduplisering, og drastisk redusere totale eierkostnader.
Med fleksibiliteten som tilbys av Fabric, kan du implementere enten lakehouse- eller datalagerarkitekturer eller kombinere disse to sammen for å få det beste fra begge med enkel implementering. I denne opplæringen skal du ta et eksempel på en detaljhandelsorganisasjon og bygge lakehouse fra begynnelse til slutt. Den bruker medaljongarkitekturen der bronselaget har rådataene, sølvlaget har de validerte og deduplicerte dataene, og gulllaget har svært raffinerte data. Du kan bruke samme fremgangsmåte for å implementere et innsjøhus for enhver organisasjon fra alle bransjer.
Denne opplæringen forklarer hvordan en utvikler i det fiktive Wide World Importers-selskapet fra detaljhandeldomenet fullfører følgende trinn:
Logg på Power BI-kontoen, eller hvis du ikke har en ennå, kan du registrere deg for en gratis prøveversjon.
Bygg og implementer et ende-til-ende lakehouse for organisasjonen:
- Opprett et Fabric-arbeidsområde
- Lag et innsjøhus. Den inneholder en valgfri del for å implementere medaljongarkitekturen som er bronse-, sølv- og gulllagene.
- Ta inn data, transformer data og last dem inn i lakehouse. Last inn data fra bronse-, sølv- og gullsonene som delta lake-tabeller. Du kan også utforske OneLake, OneCopy av dataene dine i lake-modus og lagermodus.
- Koble til lakehouse ved hjelp av TDS/SQL-endepunkt, og opprett en Power BI-rapport ved hjelp av DirectLake for å analysere salgsdata på tvers av ulike dimensjoner.
- Du kan eventuelt organisere og planlegge datainntak og transformasjonsflyt med et datasamlebånd.
Rydd opp ressurser ved å slette arbeidsområdet og andre elementer.
Arkitektur
Bildet nedenfor viser lakehouse ende-til-ende arkitektur. Komponentene som er involvert er beskrevet i detaljert nedenfor:
Datakilder: Fabric gjør det raskt og enkelt å koble til Azure Data Services, i tillegg til andre skybaserte plattformer og lokale datakilder, for strømlinjeformet datainntak.
Inntak: Du kan raskt bygge innsikt for organisasjonen ved hjelp av mer enn 200 opprinnelige koblinger. Disse koblingene er integrert i Fabric-rørledningen og bruker den brukervennlige dra-og-slipp-datatransformasjonen med dataflyt. I tillegg, med Snarvei-funksjonen i Fabric, kan du koble til eksisterende data, uten å måtte kopiere eller flytte den.
Transformer og lagre: Fabric standardiserer på Delta Lake-format. Det betyr at alle Fabric-motorene kan få tilgang til og manipulere det samme datasettet som er lagret i OneLake uten å duplisere data. Dette lagringssystemet gir fleksibilitet til å bygge innsjøer ved hjelp av en medaljongarkitektur eller et datanett, avhengig av organisasjonens krav. Du kan velge mellom en opplevelse med lav kode eller ingen kode for datatransformasjon, ved hjelp av enten datasamlebånd/dataflyter eller notatblokk/Spark for å få en kode-først-opplevelse.
Forbruk: Power BI kan bruke data fra Lakehouse for rapportering og visualisering. Hver Lakehouse har et innebygd TDS/SQL-endepunkt, for enkel tilkobling og spørring av data i Lakehouse-tabellene fra andre rapporteringsverktøy. I tillegg, når en Lakehouse opprettes, genereres et tilsvarende sekundært element kalt et lager automatisk med samme navn som Lakehouse. Den gir brukerne TDS/SQL-endepunktfunksjonaliteten.
Eksempeldatasett
Denne opplæringen bruker eksempeldatabasen Wide World Importers (WWI). For lakehouse ende-til-ende-scenarioet har vi generert tilstrekkelige data til å utforske skalerings- og ytelsesegenskapene til Fabric-plattformen.
Wide World Importers (WWI) er en engros nyhet varer importør og distributør opererer fra San Francisco Bay-området. Som grossist inkluderer WWI kunder for det meste selskaper som videreselger til enkeltpersoner. WWI selger til detaljkunder over hele USA inkludert spesialbutikker, supermarkeder, databutikker, turistattraksjonbutikker og noen individer. WWI selger også til andre grossister via et nettverk av agenter som markedsfører produktene på WWI vegne. Hvis du vil ha mer informasjon om firmaets profil og drift, kan du se Eksempeldatabaser for Wide World Importers for Microsoft SQL.
Generelt sett hentes data fra transaksjonssystemer eller bransjeprogrammer til et innsjøhus. Men for enkelhets skyld i denne opplæringen vil vi bruke den dimensjonale modellen som leveres av WWI som vår opprinnelige datakilde. Vi bruker den som kilde til å innta dataene i et innsjøhus og forvandle dem gjennom forskjellige faser (bronse, sølv og gull) i en medaljongarkitektur.
Datamodell
Mens den WWI-dimensjonale modellen inneholder mange faktatabeller, bruker vi faktatabellen Salg og dens korrelerte dimensjoner for denne opplæringen. Følgende eksempel illustrerer datamodellen for WWI:
Data- og transformasjonsflyt
Som beskrevet tidligere vil vi bruke eksempeldataene fra wide world importers (WWI) eksempeldata til å bygge dette ende-til-ende lakehouse. I denne implementeringen lagres eksempeldataene i en Azure Data Storage-konto i Parquet-filformat for alle tabellene. I virkelige scenarioer kommer imidlertid data vanligvis fra ulike kilder og i ulike formater.
Bildet nedenfor viser kilde-, mål- og datatransformasjonen:
Datakilde: Kildedataene er i Parquet-filformat og i en upartisjonert struktur. Den lagres i en mappe for hver tabell. I denne opplæringen har vi satt opp et datasamlebånd for å innta fullstendige historiske data eller engangsdata til lakehouse.
Hvis du vil demonstrere funksjonene for trinnvis datainnlasting, har vi en valgfri opplæring på slutten av denne opplæringen. I denne opplæringen bruker vi faktatabellen Salg , som har én overordnet mappe med historiske data i 11 måneder (med én undermappe for hver måned) og en annen mappe som inneholder trinnvise data i tre måneder (én undermappe for hver måned). I løpet av den første datainntaken blir 11 måneder med data inntatt i lakehouse-tabellen. Men når de trinnvise dataene kommer, inkluderer den oppdaterte data for oktober og november, og nye data for desember. Okt- og nov-data slås sammen med eksisterende data, og de nye desember-dataene skrives inn i lakehouse-tabellen som vist på følgende bilde:
Lakehouse: I denne opplæringen skal du opprette en lakehouse, innta data i filer delen av lakehouse og deretter opprette delta lake tabeller i tabeller delen av lakehouse. Du kan finne en valgfri opplæring, som dekker oppretting av lakehouse med medaljongarkitektur noen anbefalinger.
Transformer: Når det gjelder klargjøring og transformasjon av data, vil du se to ulike tilnærminger. Vi demonstrerer bruken av Notatblokker/Spark for brukere som foretrekker en kode-først-opplevelse og bruker datasamlebånd/dataflyt for brukere som foretrekker en opplevelse med lav kode eller ingen kode.
Bruk: Hvis du vil demonstrere dataforbruk, vil du se hvordan du kan bruke DirectLake-funksjonen i Power BI til å opprette rapporter, instrumentbord og direkte spørre etter data fra lakehouse. I tillegg skal vi demonstrere hvordan du kan gjøre dataene tilgjengelige for tredjeparts rapporteringsverktøy ved hjelp av TDS/SQL-endepunktet. Med dette endepunktet kan du koble til lageret og kjøre SQL-spørringer for analyse.
Neste trinn
Gå videre til neste artikkel for å finne ut hvordan du