OneLake, OneDrive for data
OneLake er en enkel, enhetlig, logisk datainnsjø for hele organisasjonen. En data lake behandler store mengder data fra ulike kilder. I likhet med OneDrive leveres OneLake automatisk med alle Microsoft Fabric-leiere og er utformet for å være det eneste stedet for alle analysedataene dine. OneLake bringer kunder:
- Én datainnsjø for hele organisasjonen
- Én kopi av data for bruk med flere analytiske motorer
Før OneLake var det enklere for kundene å opprette flere innsjøer for ulike forretningsgrupper i stedet for å samarbeide på en enkelt innsjø, selv med ekstra kostnader for å administrere flere ressurser. OneLake fokuserer på å fjerne disse utfordringene ved å forbedre samarbeidet. Hver kundeleier har nøyaktig én OneLake. Det kan aldri være mer enn én, og hvis du har Fabric, kan det aldri være null. Hver Fabric-leier klargjør automatisk OneLake, uten ekstra ressurser å konfigurere eller administrere.
Konseptet med en leier er en unik fordel for en SaaS-tjeneste. Å vite hvor en kundes organisasjon begynner og slutter gir en naturlig styrings- og samsvarsgrense, som er under kontroll av en leieradministrator. Alle data som lander i OneLake, styres som standard. Selv om alle dataene er innenfor grensene som er angitt av leieradministratoren, er det viktig at denne administratoren ikke blir en sentral portvokter som hindrer andre deler av organisasjonen i å bidra til OneLake.
I en leier kan du opprette et hvilket som helst antall arbeidsområder. Arbeidsområder gjør det mulig for ulike deler av organisasjonen å distribuere eierskaps- og tilgangspolicyer. Hvert arbeidsområde er en del av en kapasitet som er knyttet til et bestemt område og faktureres separat.
I et arbeidsområde kan du opprette dataelementer og få tilgang til alle data i OneLake gjennom dataelementer. I likhet med hvordan Office lagrer Word-, Excel- og PowerPoint-filer i OneDrive, lagrer Fabric lakehouses, warehouses og andre elementer i OneLake. Elementer kan gi skreddersydde opplevelser for hver personlighet, slik som Apache Spark-utvikleropplevelsen i et lakehouse.
Hvis du vil ha mer informasjon om hvordan du kommer i gang med OneLake, kan du se Opprette et lakehouse med OneLake.
OneLake er åpen på alle nivåer. OneLake er bygget på toppen av Azure Data Lake Storage (ADLS) Gen2 og kan støtte alle typer filer, strukturerte eller ustrukturerte. Alle Fabric-dataelementer som datalagre og lakehouses lagrer dataene automatisk i OneLake i Delta Parquet-format. Hvis en datatekniker laster inn data i et lakehouse ved hjelp av Apache Spark, og deretter bruker en SQL-utvikler T-SQL til å laste inn data i et fullstendig transaksjonsdatalager, bidrar begge til den samme datasjøen. OneLake lagrer alle tabelldata i Delta Parquet-format.
OneLake støtter de samme ADLS Gen2-API-ene og SDK-ene for å være kompatible med eksisterende ADLS Gen2-programmer, inkludert Azure Databricks. Du kan håndtere data i OneLake som om det er én stor ADLS-lagringskonto for hele organisasjonen. Hvert arbeidsområde vises som en beholder i denne lagringskontoen, og ulike dataelementer vises som mapper i disse beholderne.
Hvis du vil ha mer informasjon om API-er og endepunkter, kan du se OneLake-tilgang og API-er. Hvis du vil ha eksempler på OneLake-integreringer med Azure, kan du se artikler om Azure Synapse Analytics, Azure Storage Explorer, Azure Databricks og Azure HDInsight .
OneLake er OneDrive for data. Akkurat som OneDrive kan du enkelt utforske OneLake-data fra Windows ved hjelp av OneLake-filutforskeren for Windows. Du kan navigere i alle arbeidsområder og dataelementer, enkelt laste opp, laste ned eller endre filer akkurat som du gjør i Office. OneLake-filutforskeren forenkler arbeidet med datainnsjøer, slik at selv ikke-tekniske forretningsbrukere kan bruke dem.
Hvis du vil ha mer informasjon, kan du se OneLake-filutforsker.
OneLake har som mål å gi deg mest mulig verdi av én enkelt kopi av data uten databevegelse eller duplisering. Du trenger ikke lenger å kopiere data bare for å bruke dem med en annen motor eller bryte ned siloer, slik at du kan analysere dataene med data fra andre kilder.
Snarveier gjør det enkelt for organisasjonen å dele data mellom brukere og programmer uten å måtte flytte og duplisere informasjon unødvendig. Når team arbeider uavhengig i separate arbeidsområder, kan du bruke snarveier til å kombinere data på tvers av ulike forretningsgrupper og domener til et virtuelt dataprodukt som passer til en brukers spesifikke behov.
En snarvei er en referanse til data som er lagret i andre filplasseringer. Disse filplasseringene kan være innenfor samme arbeidsområde eller på tvers av ulike arbeidsområder, i OneLake eller utenfor OneLake i ADLS, S3 eller Dataverse – med flere målplasseringer snart. Uansett plassering får snarveier filer og mapper til å se ut som om du har dem lagret lokalt.
Hvis du vil ha mer informasjon om hvordan du bruker snarveier, kan du se OneLake-snarveier.
Selv om programmer kan ha separasjon av lagring og databehandling, optimaliseres dataene ofte for én enkelt motor, noe som gjør det vanskelig å bruke de samme dataene på nytt for flere programmer. Med Fabric lagrer de forskjellige analytiske motorene (T-SQL, Apache Spark, Analysis Services osv.) data i det åpne Delta Parquet-formatet, slik at du kan bruke de samme dataene på tvers av flere motorer.
Det er ikke lenger nødvendig å kopiere data bare for å bruke dem med en annen motor. Du kan alltid velge den beste motoren for jobben du prøver å gjøre. Tenk deg for eksempel at du har et team av SQL-teknikere som bygger et fullstendig transaksjonsdatalager. De kan bruke T-SQL-motoren og all kraften i T-SQL til å opprette tabeller, transformere data og laste inn dataene til tabeller. Hvis en dataforsker ønsker å bruke disse dataene, trenger de ikke lenger å gå gjennom en spesiell Spark/SQL-driver. OneLake lagrer alle data i Delta Parquet-format. Dataforskere kan bruke den fulle kraften til Spark-motoren og bibliotekene med åpen kildekode direkte over dataene.
Forretningsbrukere kan bygge Power BI-rapporter direkte oppå OneLake ved hjelp av den nye Direct Lake-modusen i Analysis Services-motoren. Analysis Services-motoren er det som driver Semantiske Modeller for Power BI, og den har alltid tilbudt to moduser for tilgang til data: import og direkte spørring. Direct Lake-modus gir brukerne all importhastigheten uten å måtte kopiere dataene, og kombinerer det beste med import og direkte spørring. Hvis du vil ha mer informasjon, kan du se Direct Lake.
Eksempeldiagram som viser innlasting av data ved hjelp av Spark, spørring ved hjelp av T-SQL og visning av dataene i en Power BI-rapport.