IDEER-reise til en moderne dataplattform med Microsoft Fabric – fra petabytes til innsikt

Microsoft Fabric er en AI-drevet SaaS-plattform for ende-til-ende-bedriftsanalyse. Den støtter effektivt ulike dataroller på tvers av en organisasjon. For å optimalisere datakonsekvens og tilgjengelighet brukte Microsoft Fabric til å forbedre infrastrukturen for intern analyse under raske utviklinger av kunstig intelligens. Microsoft etablerte IDEAS (Insights, Data, Engineering, Analytics, Systems) for å bygge og vedlikeholde en omfattende dataanalyseplattform. IDEER har som mål å forene datakilder, eliminere siloer og skape én enkelt kilde til sannhet, noe som øker produktiviteten og AI-implementeringen på tvers av Microsoft. Ideer støtter først Office-produkter, og driver nå datadrevet innsikt på tvers av Microsoft 365, Sikkerhet og over 600 interne team som driver ai-innføring og produktivitet. Denne artikkelen beskriver IDEER reise med vedta Fabric.

En viktig funksjon i IDEER er å fungere som den sentrale data- og vekstmotoren for divisjonene Opplevelser og enheter(E+D) og Sikkerhet. IDEER fungerer også som det sentrale dataplanet for alle Copilot-opplevelser, noe som driver Copilots suksess ved å aggregere viktige innsikter, muliggjøre forskning og drive AI-opplevelser på tvers av Microsoft. Den administrerer 420 PiB (Pebibyte) av data fra 2700 kilder, tilpasser opplevelser på tvers av mer enn 350 produktoverflater og milliarder av kundeinteraksjoner årlig.

På grunn av omfanget og rollen i å drive viktige Microsoft-initiativer som Copilot, fungerer IDEAS som et virkelig testområde for nye datateknologier. IDEER er en pilotbruker og strategisk kunde null for Microsoft Fabric. Det gir verdifulle tilbakemeldinger og validerer Fabric evner på ulike nivåer. IDEER gir viktig innsikt som former Fabrics utvikling, mens Fabric gjør det mulig for IDEAS å oppnå sin visjon for fremtiden til sin AI-drevne dataplattform. Spesielt, Fabric tilbyr viktige fordeler i følgende fire viktige områder:

Aktivering av data for ai-innovasjon: Fabrics sømløse integrering med Microsoft-verktøy som Office og Azure AI akselererer opprettelsen av egendefinerte AI-modeller og -løsninger.
Effektivisere analyser med en enhetlig verktøykjede: Ved å tilby en enhetlig verktøykjede for alle dataroller, gir Fabric alle i IDEER mulighet til å forbedre samarbeid, effektivisere arbeidsflyter og maksimere dataverdien.
Økende samarbeid og fleksibilitet: Fabric muliggjør samarbeid på tvers av ulike datapersoner ved hjelp av de samme datasettene og verktøyene. Denne fleksibiliteten forenkler arbeid med ulike dataformater, plasseringer, optimaliserer tekniske prosesser og gjør det mulig for team å arbeide mer effektivt.
Redusere kostnader og risikoer: Fabrics enhetlige datainnsjø minimerer databevegelse, noe som reduserer tekniske kostnader og samsvarsrisiko ved å la flere databehandlingsmotorer operere på samme kopi av data. Ved å vedlikeholde én enkelt kopi av data, kan team effektivt bruke dem til flere formål, som støtter effektiv datastyring og samsvar.

Dette partnerskapet har som mål å levere betydelig forretnings- og produktivitetsverdi ved å opprette en moderne dataplattform for å møte dagens teknologiske krav. Denne artikkelen forklarer IDEER reise med å vedta Fabric.

Bygge et skalerbart datafundament med OneLake og Delta lake

Et sterkt, skalerbart fundament er nøkkelen til enhver moderne dataplattform. Kjernen i Microsoft Fabric er Delta Lake, et lagringslag med åpen kildekode som sikrer pålitelighet, ytelse og databehandling for datainnsjøer. Den brede kompatibiliteten med dataanalyseverktøy støtter et enhetlig dataøkosystem.

Delta Lake er grunnlaget for OneLake, Fabrics enhetlige logiske datainnsjø. OneLake optimaliserer dataverdien ved å eliminere duplisering og sikre en enkelt kilde til sannhet. Alle Fabric-opplevelser lagrer eller speiler data automatisk i OneLake ved hjelp av Delta Lake-formatet. OneLake integreres sømløst med eksisterende ADLS Gen2-lagring som muliggjør en jevn overgang for eksisterende datasett. Snarveier til ADLS Gen2 unngår store dataoverføringer og forbedrer administrerbarheten gjennom sentralisert tilgang og styring. Den støtter også ulike analyseverktøy, inkludert Spark, SQL og Power BI.

Power BIs Direct Lake-modus forbedrer denne enhetlige opplevelsen ved å aktivere rask spørring og visualisering av data direkte fra OneLake, noe som eliminerer databevegelse og behovet for tradisjonelle datamarts. Denne direkte tilgangen til Delta Lake effektiviserer analysearbeidsflyter. Stoffet er også fullt integrert med Copilot og AI på tvers av alle overflater. Disse funksjonene øker produktiviteten gjennom AI-assistert koding og dataanalyse, som støtter datadrevne beslutninger.

For å bruke disse funksjonene i IDEAS, var det første trinnet å sikre at dataintegreringssamlebånd sømløst kunne generere Delta Lake-tabeller. IDEER bruker følgende to ISO-sertifiserte datateknikksystemer:

Pharos: En lavkodeplattform for klargjøring og oppsamling av data. Den forenkler datatransformasjonen ved å fokusere på veldefinerte datafigurer med konsekvente metadata og deklarative definisjoner for utdatagenerering.
Nitro Hubs: Et omfattende datateknikksystem for pipeline-redigering og -administrasjon, med sterke datavern- og samsvarskontroller.

IDEER forbedret disse tjenestene for å generere optimaliserte Delta Lake-utganger ved hjelp av Fabric Spark-motoren, ved hjelp av teknikker som v-order, partisjonering og passende radgruppestørrelser. Når du lagrer data, fokuserer IDEER på å organisere dem for rask og effektiv henting, ettersom arbeidsbelastningene er leseintensive. Integrering av denne funksjonen med kjernetjenester som administrerer tusenvis av datasamlebånd, gjorde det mulig å skrive flere tusen dataressurser raskt til ADLS Gen2-lagring.

IDEAS-analyse krever 13 måneder med historiske data, men på grunn av personlige identifikatorer må vi følge Personvernforordningen (GDPR). For å overholde, utvidet vi Nitro Hubs GDPR-behandlingsfunksjoner for å håndtere sletteforespørsler i Delta Lake-tabeller ved hjelp av flettekommandoer i Fabric Spark-notatblokker. Vi implementerte også tids-To-Live (TTL) utløp for datopartisjonerte Delta-tabeller, noe som sikrer fjerning av personlige data innenfor GDPR-tidsrammer. Gold Layer-dataene våre (ved hjelp av medaljongarkitektur) aggregeres og er derimot fri for personlige identifikatorer. Vi lagrer for øyeblikket over 4 PiB med data i IDEAS OneLake.

Powering Microsoft 365 Copilot Analytics med Fabric

IDEER administrerer 420 PiB med data på tvers av over 600 team i Microsoft. Dataplattformen er bygget utelukkende på Azure for å bruke skalerbarhet for et team på over 600 personer. Ved å utvide Azure-funksjonene har IDEAS utviklet et robust og tilpasningsdykbart system. Hvis du vil lære mer om kjernesystemene som driver datalivssyklusen, kan du se Dataproduktivitet i ideer

Effektiv datatilgang er viktig for IDEER, og Microsoft Fabric har blitt en viktig enabler i strategien vår. Vi ønsket å forkorte tilbakemeldingssløyfen for interaktive spørringer og styrke raskere oppretting av rapporter og instrumentbord. Grunnlaget vårt er Unified Data Model (UDM), et sett med varige og utvidbare dataressurser som er utformet for gjenbruk for hele firmaet. Denne gjenbrukbarheten er nøkkelen til å opprettholde konsistens og effektivitet.

IDEER bruker medaljongarkitektur til å organisere data på tvers av tre lag: Bronse (rådata), Sølv (rensede og berikede data for analyse) og Gull (kuraterte, aggregerte data for forretningsintelligens og rapportering med verktøy som Power BI og Excel).

Ved å gjøre våre gull- og sølvlag tilgjengelige som UDM-ressurser i Fabric gjennom Delta Lake, forbedret vi analyseflyet Microsoft 365 Copilot. Vi ga direkte tilgang til forhåndsbearbeidede Silver-lag Microsoft 365 Copilot-data som Delta Lake-tabeller i OneLake. Den forbedret ytelsen og instrumentbordgjengivelsen dramatisk ved å eliminere gjentatte transformasjoner.

Videre eksponerer vi Våre Gold-lag Microsoft 365 Copilot-måledata som Delta Lake-tabeller forenklet dataoppdagelse og brukervennlighet. Det gjorde det mulig å opprette rike instrumentbord som støtter bedriftsledere og produktteam med Copilots innføring, ytelse og vekst. Denne tilnærmingen reduserte databevegelse, strømlinjeformet datagrafen og reduserte infrastrukturkostnader. Som et resultat spiller Microsoft 365 Copilot-analyse, nå drevet av Fabric, en viktig rolle i flere Microsoft-prosjekter.

Skaleringsstyring og automatisering i Fabric

Våre neste prioriteringer var å organisere arbeidsområder, optimalisere lakehouse struktur og automatisere operasjoner på tvers av tusenvis av eiendeler administrert i Fabric. I vår skala krever styring streng overholdelse av retningslinjer som bare gir tilgang til legitime databruksscenarioer, noe som gjør manuelle operasjoner umulige. For å løse dette har vi samarbeidet tett med Fabric SDK/API-teamene for å sikre tilgjengeligheten av API-er som gjør det mulig for oss å programmatisk opprette Fabric-artefakter og bruke detaljerte tillatelser på de aktuelle identitetene. Denne helautomatiske tilnærmingen gir konsekvens og skalerbarhet.

Vi organiserte arbeidsområdene våre i produksjons-, utviklings- og utforskningsmiljøer. Produksjonsdata er tilgjengelig via snarveier i produksjonsarbeidsområdet. Bare en dedikert arbeidsområdeidentitet har privilegert tilgang til å opprette og endre dem, mens alle andre brukere har skrivebeskyttet tilgang. Lakehouses befinner seg i produksjonsarbeidsområdet med bred lesetilgang og henvises av interne snarveier fra arbeidsområder for utforskning. Denne tilnærmingen isolerer effektivt produksjonsdata, samtidig som brukere kan samhandle med dem i en ikke-produksjonsinnstilling.

Neste inndelinger vil fordype seg i semantiske arbeidsområder som bare er dedikert til å være vert for semantiske modeller og rapporter. Lakehouses bak den semantiske modellen er i produksjonsarbeidsområdet for å kontrollere versjonskontroll og endringsadministrasjon. Etter hvert som Fabrics enhetlige sikkerhetsfunksjoner utvikler seg, fortsetter vi å raffinere tilgangskonfigurasjonen til lakehouse for å effektivisere tilgangsstyringsprosessene våre ytterligere. Denne automatiserte, API-drevne tilnærmingen er avgjørende for databehandling i stor skala og for konsekvent, sikker tilgang.

Forenkle rapportering med Direct Lake

En av de viktigste driverne for IDEER tidlig innføring av Fabric er Direct Lake semantisk modell. Denne funksjonen muliggjør enhetlig rapportering, noe som eliminerer behovet for å administrere separat SQL- og SSAS-infrastruktur og tillater brukere å arbeide i et integrert Stoff-grensesnitt.

IDEER benytter semantiske modeller for ulike brukstilfeller, som inkluderer:

Rapporter med én tabell
Azure Analysis Services-kuber
Importer stjerneskjemaer i modus med flere dimensjoner
Kohortanalyse for Analyseplan for Microsoft 365 Copilot

Vår validering av Direct Lake-tilnærmingen involverte overføring av eksisterende rapporter og modeller til Fabric, noe som gir flere viktige funn, som inkluderer:

Viktigheten av effektiv datamodellering. For modeller som inneholder milliarder av rader, er et robust stjerneskjema med numeriske nøkler avgjørende for å oppnå optimal spørringsytelse.
Optimalisering av data med V-order under oppretting ved hjelp av Fabric Spark er avgjørende for å maksimere Direct Lake-ytelsen.
Riktig partisjonering av deltatabeller og størrelse på radgrupper er avgjørende for å optimalisere både kald og varm hurtigbufferspørringsytelse.

Dette arbeidet førte til full overføring av analyseflyet Microsoft 365 Copilot til Fabric i desember 2024. Dette flyet leverer nå viktig forretningsinnsikt for Microsoft 365 Copilot på tvers av Microsoft.

Administrere livssyklusen for stoffutvikling for samsvar og pålitelighet

IDEER sikrer samsvar og pålitelighet gjennom streng endringsadministrasjon, produksjonsisolering og validering. For å oppfylle disse kravene i Fabric implementerte vi en robust utviklingslivssyklus ved hjelp av Git-integrasjon og en veldefinert arbeidsområdeorganisasjon. Denne tilnærmingen sikrer at endringer testes grundig og valideres før de når produksjon, minimerer forstyrrelser og bevarer dataintegritet.

Vi har opprettet dedikerte "semantiske arbeidsområder" for semantiske modeller og rapporteringsartefakter, noe som sikrer klar fordeling av bekymringer. Som tidligere nevnt befinner lakehouse-artefakter seg i et sikkert, skrivebeskyttet produksjonsarbeidsområde, med semantiske arbeidsområder som refererer til disse sentraliserte dataressursene. Denne arkitekturen støtter både samsvar og ytelse.

Vår semantiske modelllivssyklus innebærer at enkeltpersoner gjør endringer i et arbeidsområde som er dedikert til denne utviklingskategorien. Etter validering utfører Fabrics Git-integrasjon disse endringene i den aktuelle preproduksjonsgrenen. Gjennom Azure DevOps -utgivelsessamlebånd (ADO) blir disse endringene deretter forfremmet til git-grenen for produksjon og senere synkronisert til produksjonssemantiske arbeidsområder Dette sikrer at semantiske arbeidsområder for produksjon (der modeller og rapporter som er vendt mot sluttbrukere) alltid gjenspeiler validerte og godkjente endringer. På denne måten bidrar den til stabiliteten og påliteligheten til tjenestene våre.

For å forbedre påliteligheten til fabric-distribusjonen ytterligere, utviklet vi et instrumentbord for brukeropplevelse og ytelse ved hjelp av arbeidsområdetelemetri. Analyseloggene for stoffarbeidsområdet gir data om kjøretider og feil i semantiske modeller og Power BI-rapporter. Instrumentbordet vårt, bygget på fabric-hendelseshus, sporer viktige måledata for spørringsytelse og overvåker feilkategorier og priser for hver spørring.

I tillegg til å identifisere og løse potensielle problemer overvåker vi virkningen av problemer og antall berørte brukere. Denne doble tilnærmingen gjør det mulig for oss å proaktivt løse problemer før de sprer seg og for å forstå og trend påliteligheten til våre rapporter og semantiske modeller gjennom tilbakemeldinger fra brukerne. Ved å overvåke hyppigheten og bredden av brukerrapporterte problemer, kan vi direkte koordinere pålitelighetsmålene våre med bruk i den virkelige verden og redusere brukerpåvirkningen over tid.

Etter hvert som produktgruppen Fabric forbedrer telemetri og loggdata, vil vi innlemme rikere KPI-er og måledata i instrumentbordet vårt. Disse forbedringene forbedrer vår evne til proaktivt å oppdage problemer, noe som sikrer optimal ytelse og pålitelighet. I neste fase planlegger vi å utvide denne overvåkingsprosessen til andre Fabric-elementer, inkludert Lakehouse SQL-endepunkter og Spark-notatblokker.

Aktivere interaktiv analyse med Fabric

Databrukere starter ofte med Power BI-rapporter, men trenger raskt dypere utforskning utover rapporteringslaget. Fabric tilbyr to kraftige alternativer for interaktiv analyse: Fabric Spark og SQL Analytics-endepunktet, slik at brukerne kan utforske data i Silver- og Gold-lagene i Unified Data Model (UDM). OneLake Data Hub, Lakehouse Explorer og Avstammingsvisning gir rask tilgang til dataavhengigheter og oppstrømskilder. Men etter hvert som datakompleksiteten og størrelsen øker fra Gull til Bronse, blir spørringen mer utfordrende.

For å bygge en skalerbar dataplattform og forhindre fragmentering implementerte IDEAS en forbundsstrategi for viktige UDM Silver-lagressurser, som fungerer som autoritative kilder til sannhet. Dette gjorde det mulig for partnerteam å utvide disse ressursene med domenespesifikke attributter. En robust styringsprosess som omfatter gjennomgang, utvidelsesutformingsforbedring, definisjon av datagrensesnitt og eksponeringskontroll, sikrer dataintegritet og samsvar.

Mens utvidelser adresserer dataflaskehalser og skiller kjernedata fra eksterne attributter, introduserte de en ytelsesutfordring for interaktiv spørring, som vanligvis krever responstid på under 60 sekunder. Avhengigheten av gjentakende sammenføyninger mellom basisdata og utvidelser skapte en flaskehals. For å løse denne utfordringen forbedret vi datateknikksystemene våre for å materialisere visninger, og foretok grunndata med utvidelser for å minimere sammenføyningsoperasjoner for spørringstid. Delta Lakes sammenslåings- og låsefunksjoner aktiverte effektive partisjonsoppdateringer og sammenslåing av utvidelsesdata per enhet. Disse forhåndskomponerte Delta-tabellene vises nå som snarveier i våre lakehouses for både Fabric SQL og Spark-tilgang. Vi samarbeider også med Fabric-produktgruppen for å utforske potensiell opprinnelig integrering av denne funksjonaliteten. Videre utviklet vi Python-moduler med inndata med flere parametere for å optimalisere radfiltrering og kolonnevalg, noe som gir rask tilgang til kolonnebeskrivelser og datafriskhet i notatblokkmiljøet.

Innledende testing med Fabric Spark-spørringer på disse materialiserte ressursene har vist betydelige ytelsesgevinster på over 30X.

Sikre stoffmiljøet vårt: En helhetlig tilnærming til datastyring

I løpet av det siste året har vi utviklet oss fra et utforskende Fabric-arbeidsområde til å administrere flere F2048-produksjonsarbeidsområder med over 4 PiB med data i Delta Lake-format. Dataoppdagelse og samsvar forblir imidlertid komplekse utfordringer, spesielt etter hvert som personvernforskriftene utvikler seg. Ettersom IDEER gjør mer data tilgjengelig i Fabric, strekker våre samsvarsforpliktelser seg utover GDPR og Microsofts forpliktelse til datalagring innenfor EUs datagrense, slik at kommersielle personopplysninger lagres og behandles utelukkende i Europa.

Microsofts globale skala og håndtering av sensitive data drive IDEAS' sterke forpliktelse til personvern og styring av data. Dette strekker seg utover opprinnelige krav, og overholder ulike internasjonale og bransjespesifikke standarder. Det oversettes til robuste kontroller og prosesser for administrasjon av datatilgang.

I IDEAS overholder vi på det sterkeste prinsippet om minst privilegert og scenariobasert databruk for sikkerhet og samsvar. Dette prinsippet betyr å gi datatilgang bare til brukere eller identiteter med legitim godkjenning for bestemte brukstilfeller. Hvis du vil forhindre uautoriserte dataoverføringer, overvåker IDEAS aktivt for dataeksfiltrering i Fabric-arbeidsområder. Selv om Fabric tilbyr overvåking på leiernivå, krever Microsoft mer detaljert kontroll på arbeidsområdenivå.

For å løse dette, ideer utviklet Data Exfiltration Monitoring (DEM), en egendefinert funksjon som samler Fabric telemetri data i en sentralisert metadata lager og bruker regler for å oppdage brudd. Når et brudd oppdages, utløser DEM korrigerende handlinger, for eksempel å varsle brukeren, tilbakekalle tilgang eller blokkere fremtidig tilgang. Dette gjør det mulig for IDEER å gjøre sensitive data tilgjengelige i Fabric samtidig som de opprettholder streng overholdelse. Kombinert med våre investeringer i automatisere klargjøring av arbeidsområder, kan vi administrere kompatible arbeidsområder på tvers av utvidede datagrenser. Dataeksfiltreringsbeskyttelse er et viktig fokusområde for Fabric-produktgruppen, og vi ser frem til ytterligere forbedringer i dette området.

Til syvende og sist mener vi at personvern og styring ikke bare er en samsvarsbyrde, men en grunnleggende komponent i å bygge tillit og et betydelig konkurransefordel i dagens datadrevne verden. Microsoft prioriterer klarering, understreker personvern, brukerkontroll og ansvarlig databehandling på tvers av alle tjenester og produkter. IDEER abonnerer fullt ut på denne etosen, og erkjenner at robust datastyring er grunnleggende for suksessen og bærekraften til dataplattformen vår.

Konklusjon

Integrering av Microsoft Fabric i IDEAS-dataplattformen har forbedret datatilgang og økt produktivitet for våre dataforskere og ingeniører. Ved å bygge et enhetlig fundament med OneLake og Delta Lake, muliggjøre interaktiv analyse og etablere sterk styring, har Fabric gitt et robust dataanalysemiljø. Etter hvert som vi fortsetter å utforske og implementere Fabrics funksjoner, spesielt på områder som sanntidsanalyse og avansert AI-integrering, er vi sikre på at vi bygger en enhetlig og innovativ plattform som vil gi større innsikt og innvirkning for Microsoft.

Tilbakemeldinger

Var denne siden nyttig?

Last updated on 2025-04-01