Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
Microsoft Fabric er en AI-drevet SaaS-platform til komplette virksomhedsanalyser. Den understøtter effektivt forskellige dataroller på tværs af en organisation. For at optimere datakonsistens og tilgængelighed brugte Microsoft Fabric til at forbedre sin interne analyseinfrastruktur under hurtige fremskridt med kunstig intelligens. Microsoft etablerede IDEAS (Insights, Data, Engineering, Analytics, Systems) til at bygge og vedligeholde en omfattende dataanalyseplatform. IDEAS har til formål at samle datakilder, eliminere siloer og oprette en enkelt kilde til sandhed, hvilket øger produktivitet og ai-implementering på tværs af Microsoft. I starten understøtter IDEAS nu datadrevet indsigt på tværs af Microsoft 365, Sikkerhed og mere end 600 interne teams, der driver ai-implementering og produktivitet. Denne artikel beskriver IDEAS' rejse med at adoptere Fabric.
En vigtig funktion i IDEAS er at fungere som det centrale data- og vækstprogram for afdelingerne Oplevelser og enheder (E+D) og Sikkerhed. IDEAS fungerer også som det centrale dataplan for alle Copilot-oplevelser, hvilket er drivkraften bag Copilots succes ved at samle vigtig indsigt, muliggøre forskning og styrke AI-oplevelser på tværs af Microsoft. Den administrerer 420 PiB (Pebibyte) data fra 2.700 kilder og tilpasser oplevelser på tværs af mere end 350 produktoverflader og milliarder af kundeinteraktioner årligt.
På grund af dens omfang og rolle i at drive vigtige Microsoft-initiativer som Copilot fungerer IDEAS som en testplads i den virkelige verden for nye datateknologier. IDEAS er pilotbruger og strategisk "kundenulpunkt" for Microsoft Fabric. Det giver værdifuld feedback og validerer Fabric's funktioner på forskellige niveauer. IDEAS giver vigtig indsigt, der former Fabrics udvikling, mens Fabric gør det muligt for IDEAS at opnå sin vision for fremtiden for sin AI-drevne dataplatform. Fabric tilbyder især vigtige fordele inden for følgende fire nøgleområder:
Aktivering af data til AI-innovation: Fabric's problemfri integration med Microsoft-værktøjer som Office og Azure AI fremskynder oprettelsen af brugerdefinerede AI-modeller og -løsninger.
Strømlining af analyser med en samlet værktøjskæde: Ved at levere en samlet værktøjskæde til alle dataroller giver Fabric alle i IDEAS mulighed for at forbedre samarbejdet, strømline arbejdsprocesser og maksimere dataværdien.
Øget samarbejde og fleksibilitet: Fabric muliggør samarbejde på tværs af forskellige datapersoner ved hjælp af de samme datasæt og værktøjer. Denne fleksibilitet forenkler arbejdet med forskellige dataformater, placeringer, optimerer tekniske processer og gør det muligt for teams at arbejde mere effektivt.
Reduktion af omkostninger og risici: Fabric's samlede datasø minimerer dataflytning, hvilket reducerer tekniske omkostninger og risici for overholdelse af angivne standarder ved at gøre det muligt for flere beregningsprogrammer at arbejde på den samme kopi af data. Ved at vedligeholde en enkelt kopi af data kan teams effektivt bruge dem til flere formål, hvilket understøtter effektiv datastyring og overholdelse af angivne standarder.
Dette partnerskab har til formål at levere stor forretnings- og produktivitetsværdi ved at oprette en moderne dataplatform, der opfylder nutidens teknologiske krav. I denne artikel forklares IDEAS' rejse med at adoptere Fabric.
Opbygning af et skalerbart datafundament med OneLake og Delta Lake
Et stærkt, skalerbart fundament er nøglen til enhver moderne dataplatform. Kernen i Microsoft Fabric er Delta Lake, et lagerlag med åben kildekode, der sikrer pålidelighed, ydeevne og datastyring for datasøer. Dens brede kompatibilitet med dataanalyseværktøjer understøtter et samlet dataøkosystem.
Delta Lake er grundlaget for OneLake, Fabrics samlede logiske datasø. OneLake optimerer dataværdien ved at fjerne duplikering og sikre en enkelt kilde til sandhed. Alle Fabric-oplevelser gemmer eller spejler automatisk data i OneLake ved hjælp af Delta Lake-formatet. OneLake integreres problemfrit med eksisterende ADLS Gen2-lager, hvilket muliggør en problemfri overgang for eksisterende datasæt. Genveje til ADLS Gen2 undgår dataoverførsel i stor skala og forbedrer administrationen via centraliseret adgang og styring. Den understøtter også forskellige analyseværktøjer, herunder Spark, SQL og Power BI.
Power BI's Direct Lake-tilstand forbedrer denne samlede oplevelse ved at muliggøre hurtig forespørgsel og visualisering af data direkte fra OneLake, hvilket eliminerer dataflytning og behovet for traditionelle datacentre. Denne direkte adgang til Delta Lake strømliner analysearbejdsprocesser. Fabric er også fuldt integreret med Copilot og AI på tværs af alle overflader. Disse funktioner øger produktiviteten ved hjælp af AI-assisteret kodning og dataanalyse, hvilket understøtter datadrevet beslutningstagning.
For at anvende disse funktioner i IDEAS var det første skridt at sikre, at dataintegrationspipelines problemfrit kunne generere Delta Lake-tabeller. IDEAS bruger følgende to ISO-certificerede datatekniske systemer:
Pharos: En platform med lav kode til dataforberedelse og midlertidig lagring. Det forenkler datatransformationen ved at fokusere på veldefinerede datafigurer med ensartede metadata og deklarative definitioner til generering af output.
Nitro Hubs: Et omfattende datateknikersystem til oprettelse og administration af pipeliner med stærke kontrolelementer til beskyttelse af personlige oplysninger og overholdelse af angivne standarder.
IDEAS forbedrede disse tjenester for at generere optimerede Delta Lake-output ved hjælp af Fabric Spark-programmet og anvendte teknikker som f.eks. v-order-, partitionering og passende rækkegruppestørrelser. Når du gemmer data, fokuserer IDEAS på at organisere dem til hurtig og effektiv hentning, da arbejdsbelastningerne er læsetunge. Integration af denne funktion med kernetjenester, der administrerer tusindvis af pipelines, gjorde det muligt hurtigt at skrive flere tusinde dataaktiver til ADLS Gen2-lageret.
IDEAS-analyser kræver 13 måneders historiske data, men på grund af personlige identifikatorer skal vi overholde den generelle forordning om databeskyttelse (GDPR). For at overholde dette har vi udvidet databehandlingsfunktionerne for Nitrogen Hubs GDPR til at håndtere sletteanmodninger i Delta Lake-tabeller ved hjælp af flettekommandoer i Fabric Spark-notesbøger. Vi har også implementeret TTL-udløb (Time-To-Live) for datopartitionerede Delta-tabeller, der sikrer fjernelse af personlige data inden for GDPR-tidsrammer. I modsætning hertil aggregeres vores Gold-lagdata (ved hjælp af medaljonsarkitektur) og er fri for personlige id'er. Vi gemmer i øjeblikket mere end 4 PiB data i IDEAS OneLake.
Powering Microsoft 365 Copilot Analytics med Fabric
IDEAS administrerer 420 PiB data på tværs af mere end 600 teams i Microsoft. Dataplatformen er udelukkende bygget på Azure til at bruge skalerbarhed for et team på over 600 personer. Ved at udvide Azures funktioner har IDEAS udviklet et robust og fleksibelt system. Hvis du vil vide mere om de kernesystemer, der driver datalivscyklussen, kan du se Dataproduktivitet i idéer
Effektiv dataadgang er afgørende for IDEAS, og Microsoft Fabric er blevet en vigtig katalysator i vores strategi. Vi ønskede at forkorte feedbackløkken for interaktive forespørgsler og give mulighed for hurtigere oprettelse af rapporter og dashboards. Vores fundament er UDM-(Unified Data Model), et sæt holdbare og udvidelige dataaktiver, der er designet til genbrug i hele virksomheden. Denne genbrugelighed er nøglen til at opretholde ensartethed og effektivitet.
IDEAS anvender medaljonsarkitektur til at organisere data på tværs af tre lag: Bronze (rådata), Silver (rensede og forbedrede data til analyse) og Gold (organiserede, aggregerede data til business intelligence og rapportering med værktøjer som Power BI og Excel).
Ved at gøre vores guld- og sølvlag tilgængelige som UDM-aktiver i Fabric via Delta Lake har vi forbedret Microsoft 365 Copilot-analyseplanet. Vi har givet direkte adgang til forbehandlede Silver-lag Microsoft 365 Copilot-data som Delta Lake-tabeller i OneLake. Det forbedrede forespørgselsydeevnen og dashboardgengivelsen drastisk ved at fjerne gentagne transformationer.
Desuden er det muligt at vise vores Gold-lag Microsoft 365 Copilot-målepunkter som Delta Lake-tabeller med forenklet datasøgning og anvendelighed. Det gjorde det muligt at oprette omfattende dashboards, der understøtter virksomhedsledere og produktteams med Copilots implementering, ydeevne og vækst. Denne fremgangsmåde reducerede dataflytning, strømlinede datagrafen og reducerede infrastrukturomkostningerne. Derfor spiller Microsoft 365 Copilot-analyser, der nu er drevet af Fabric, en vigtig rolle i flere Microsoft-projekter.
Skalering af styring og automatisering i Fabric
Vores næste prioriteter var organisering af arbejdsområder, optimering af lakehouse-struktur og automatisering af handlinger på tværs af tusindvis af aktiver, der administreres i Fabric. I vores skala kræver styring streng overholdelse af politikker, der kun giver adgang til legitime scenarier for brug af data, hvilket gør manuelle handlinger umulige. For at løse dette har vi indgået et tæt samarbejde med Fabric SDK/API-teams for at sikre tilgængeligheden af API'er, der gør det muligt for os at oprette Fabric-artefakter programmatisk og anvende detaljerede tilladelser på de relevante identiteter. Denne fuldt automatiserede tilgang giver ensartethed og skalerbarhed.
Vi har organiseret vores arbejdsområder i produktions-, udviklings- og udforskningsmiljøer. Produktionsdata er tilgængelige via genveje i produktionsarbejdsområdet. Kun en dedikeret arbejdsområdeidentitet har privilegeret adgang til at oprette og redigere dem, mens alle andre brugere har skrivebeskyttet adgang. Lakehouses er placeret i produktionsarbejdsområdet med bred læseadgang og refereres af interne genveje fra arbejdsområder til udforskning. Denne fremgangsmåde isolerer effektivt produktionsdata, samtidig med at brugerne kan interagere med dem i en indstilling for ikke-produktion.
Næste afsnit vil dykke ned i vores semantiske arbejdsområder, der kun er dedikeret til at hoste semantiske modeller og rapporter. Lakehouses bag den semantiske model er i produktionsarbejdsområdet for at styre versionsstyring og ændringsstyring. I takt med at Fabric's samlede sikkerhedsfunktioner udvikler sig, fortsætter vi med at finjusteres vores konfiguration af lakehouse-adgang for yderligere at strømline vores processer for adgangsstyring. Denne automatiserede API-drevne tilgang er vigtig for datastyring i stor skala og for ensartet og sikker adgang.
Forenkling af rapportering med Direct Lake
En af de primære faktorer for IDEAS's tidlige indførelse af Fabric er Direct Lake semantiske model. Denne funktion muliggør samlet rapportering, hvilket fjerner behovet for at administrere separat SQL- og SSAS-infrastruktur og giver brugerne mulighed for at arbejde i en integreret Fabric-grænseflade.
IDEAS anvender semantiske modeller til forskellige use cases, som omfatter:
- Rapporter med en enkelt tabel
- Azure Analysis Services-kuber
- Stjerneskemaer i importtilstand med flere dimensioner
- Kohorteanalyse til Microsoft 365 Copilot-analyseplanet
Vores validering af Direct Lake-tilgangen involverede migrering af eksisterende rapporter og modeller til Fabric, hvilket gav flere vigtige resultater, som omfatter:
Vigtigheden af effektiv datamodellering. For modeller, der indeholder milliarder af rækker, er et robust stjerneskema med numeriske nøgler afgørende for at opnå optimal ydeevne af forespørgsler.
Optimering af data med V-Order under oprettelse ved hjælp af Fabric Spark er afgørende for at maksimere Direct Lake-ydeevnen.
Korrekt størrelse på deltatabelpartition og rækkegruppe er afgørende for at optimere ydeevnen for både kolde og varme cacheforespørgslen.
Denne indsats førte til fuld migrering af Microsoft 365 Copilot-analyseflyet til Fabric i december 2024. Dette fly leverer nu vigtig forretningsindsigt til Microsoft 365 Copilot på tværs af Microsoft.
Administration af Fabric-udviklingslivscyklussen for overholdelse og pålidelighed
IDEAS sikrer overholdelse og pålidelighed gennem streng ændringsstyring, produktionsisolering og validering. For at opfylde disse krav i Fabric har vi implementeret en robust udviklingslivscyklus ved hjælp af Git-integration og en veldefineret arbejdsområdeorganisation. Denne fremgangsmåde sikrer, at ændringer testes grundigt og valideres, før de når produktionen, minimerer afbrydelser og bevarer dataintegritet.
Vi har oprettet dedikerede "semantiske arbejdsområder" til semantiske modeller og rapporteringsartefakter, der sikrer en klar adskillelse af bekymringer. Som tidligere nævnt er lakehouse-artefakter placeret i et sikkert, skrivebeskyttet produktionsarbejdsområde, hvor semantiske arbejdsområder refererer til disse centraliserede dataaktiver. Denne arkitektur understøtter både overholdelse af angivne standarder og ydeevne.
Vores semantiske modellivscyklus omfatter enkeltpersoner, der foretager ændringer i et arbejdsområde, der er dedikeret til denne udviklingskategori. Efter valideringen sender Fabrics Git-integration disse ændringer til den relevante præproduktionsforgrening. Via ADO-udgivelsespipelines (Azure DevOps) overføres disse ændringer derefter til git-forgreningen til produktion og synkroniseres senere med de semantiske produktionsarbejdsområder Dette sikrer, at de semantiske produktionsarbejdsområder (hvor slutbrugerorienterede modeller og rapporter er placeret) altid afspejler validerede og godkendte ændringer. På denne måde bidrager det til stabiliteten og pålideligheden af vores tjenester.
For yderligere at forbedre pålideligheden af vores Fabric-udrulning udviklede vi en brugeroplevelse og et dashboard med ydeevne ved hjælp af arbejdsområdetelemetri. Fabric-arbejdsområdeanalyselogfilerne indeholder data om forespørgselsudførelsestider og -fejl i semantiske modeller og Power BI-rapporter. Vores dashboard, der er bygget på Fabric-hændelseshuse, sporer målepunkter for vigtige forespørgslers ydeevne og overvåger fejlkategorier og satser for hver forespørgsel.
Ud over at identificere og løse potentielle problemer overvåger vi virkningen af problemer og antallet af berørte brugere. Denne dobbelte tilgang giver os mulighed for proaktivt at håndtere problemer, før de spredes, og til at forstå og tendens pålideligheden af vores rapporter og semantiske modeller gennem brugerfeedback. Ved at overvåge hyppigheden og bredden af brugerrapporterede problemer kan vi direkte korrelere vores pålidelighedsmål med brug i den virkelige verden og reducere brugernes indvirkning over tid.
Da Fabric-produktgruppen forbedrer telemetri- og logdata, inkorporerer vi bedre KPI'er og målepunkter i vores dashboard. Disse forbedringer forbedrer vores evne til proaktivt at registrere problemer og sikre optimal ydeevne og pålidelighed. I den næste fase planlægger vi at udvide denne overvågningsproces til andre Fabric-elementer, herunder Lakehouse SQL-slutpunkter og Spark-notesbøger.
Aktivering af interaktive analyser med Fabric
Databrugere starter ofte med Power BI-rapporter, men har hurtigt brug for mere udforskning ud over rapporteringslaget. Fabric tilbyder to effektive muligheder for interaktiv analyse: Fabric Spark og SQL-analyseslutpunktet, der gør det muligt for brugerne at udforske data i Silver- og Gold-lagene i UDM (Unified Data Model). OneLake Data Hub, Lakehouse Explorer og Afstamningsvisning giver hurtig adgang til dataafhængigheder og upstreamkilder. Men i takt med at datakompleksiteten og størrelsen øges fra Guld til Bronze, bliver det mere udfordrende at forespørge.
For at bygge en skalerbar dataplatform og forhindre fragmentering har IDEAS implementeret en federationstrategi for vigtige UDM Silver-lagaktiver, der fungerer som autoritative kilder til sandhed. Dette gjorde det muligt for partnerteams at udvide disse aktiver med domænespecifikke attributter. En robust styringsproces, der omfatter gennemgang, udvidelsesdesignafgrænsning, definition af datagrænseflade og eksponeringskontrol, sikrer dataintegritet og overholdelse af angivne standarder.
Selvom udvidelser løser dataflaskehalse og adskiller kernedata fra eksterne attributter, introducerede de en ydeevneudfordring for interaktiv forespørgsel, som typisk kræver svartider på under 60 sekunder. Afhængigheden af gentagne joinforbindelser mellem basisdata og udvidelser skabte en flaskehals. For at overvinde denne udfordring har vi forbedret vores datatekniske systemer for at materialisere visninger og oprette basisdata på forhånd med udvidelser for at minimere handlinger for joinforbindelse i forespørgselstid. Delta Lakes fletnings- og låsefunktioner aktiverede effektive partitionsopdateringer og fletning af udvidelsesdata pr. enhed. Disse færdigkomputerede Delta-tabeller vises nu som genveje i vores lakehouses for både Fabric SQL- og Spark-adgang. Vi samarbejder også med Fabric-produktgruppen for at udforske potentiel oprindelig integration af denne funktionalitet. Desuden har vi udviklet Python-moduler med input med flere parametre for at optimere rækkefiltrering og valg af kolonner, hvilket giver hurtig adgang til kolonnebeskrivelser og datafrished i notesbogmiljøet.
Indledende test med Fabric Spark-forespørgsler på disse materialiserede aktiver har vist betydelige ydeevnegevinster på over 30X.
Sikring af vores Fabric-miljø: En holistisk tilgang til datastyring
I løbet af det seneste år er vi gået fra et udforskende Fabric-arbejdsområde til administration af flere F2048-produktionsarbejdsområder med mere end 4 PiB data i Delta Lake-format. Dataregistrering og overholdelse af angivne standarder er dog fortsat komplekse udfordringer, især i takt med at reglerne om beskyttelse af personlige oplysninger udvikler sig. Da IDEAS gør flere data tilgængelige i Fabric, strækker vores overholdelsesforpligtelser sig ud over GDPR og Microsofts forpligtelse til dataopbevaring inden for EU's datagrænse, så det sikres, at kommercielle personlige data gemmes og behandles udelukkende i Europa.
Microsofts globale skala og håndtering af følsomme data driver IDEAS' stærke engagement i beskyttelse af personlige oplysninger og styring. Dette strækker sig ud over de grundlæggende krav og overholder forskellige internationale og branchespecifikke standarder. Det oversættes til robuste kontrolelementer og processer til administration af dataadgang.
Hos IDEAS overholder vi på det kraftigste princippet om mindst mulige rettigheder og scenariebaseret brug af data til sikkerhed og overholdelse af angivne standarder. Dette princip betyder, at der kun skal gives dataadgang til brugere eller identiteter med legitim godkendelse i bestemte use cases. For at forhindre uautoriserede dataoverførsler overvåger IDEAS aktivt dataudfiltrering i Fabric-arbejdsområder. Mens Fabric leverer overvågning på lejerniveau, kræver Microsoft mere detaljeret kontrol på arbejdsområdeniveau.
For at løse dette har IDEAS udviklet DATA Exfiltration Monitoring (DEM), der er en brugerdefineret egenskab, der indsamler Fabric-telemetridata i et centraliseret metadatalager og anvender regler til registrering af overtrædelser. Når der registreres en overtrædelse, udløser DEM korrigerende handlinger, f.eks. at give brugeren besked, tilbagekalde adgang eller blokere fremtidig adgang. Dette gør det muligt for IDEAS at gøre følsomme data tilgængelige i Fabric og samtidig opretholde streng overholdelse. Kombineret med vores investeringer i automatisering af klargøring af arbejdsområder kan vi administrere arbejdsområder, der overholder angivne standarder, på tværs af udvidede datagrænser. Beskyttelse af dataudfiltrering er et vigtigt fokusområde for Fabric-produktgruppen, og vi ser frem til yderligere forbedringer på dette område.
I sidste ende mener vi, at beskyttelse af personlige oplysninger og styring ikke blot er en byrde for overholdelse af angivne standarder, men en grundlæggende komponent i opbygningen af tillid og en betydelig konkurrencemæssig fordel i dagens datadrevne verden. Microsoft prioriterer tillid og fremhæver beskyttelse af personlige oplysninger, brugerkontrol og ansvarlig datahåndtering på tværs af alle tjenester og produkter. IDEAS abonnerer fuldt ud på denne etos og anerkender, at robust datastyring er afgørende for succesen og bæredygtigheden af vores dataplatform.
Konklusion
Integration af Microsoft Fabric i IDEAS-dataplatformen har forbedret dataadgang og øget produktivitet for vores dataspecialister og -teknikere. Ved at opbygge et samlet fundament med OneLake og Delta Lake, muliggøre interaktive analyser og etablere stærk styring har Fabric leveret et robust dataanalysemiljø. I takt med at vi fortsætter med at udforske og implementere Fabric's funktioner, især på områder som analyse i realtid og avanceret ai-integration, er vi sikre på, at vi bygger en samlet og innovativ platform, der vil skabe større indsigt og indvirkning for Microsoft.