Delen via


Gegevensverwerkingsstandaarden voor AI en analyses

Een geïntegreerd gegevensplatform is afhankelijk van consistente opname-, transformatie- en publicatiestandaarden, zodat leiders gegevens voor analyses en AI kunnen vertrouwen. Aanbeveling: Stel organisatiebrede standaarden vast waarmee wordt bepaald welke gegevens in OneLake worden ingevoerd, hoe teams die gegevens verfijnen en hoe beheerde gegevensproducten consumenten bereiken (zie afbeelding 1). Als u deze aanbeveling wilt toepassen, gebruikt u dit artikel als controlelijst:

Diagram met de drie belangrijkste stappen voor het instellen van operationele standaarden. Stel eerst standaarden voor gegevensverwerking in, zoals het verplaatsen van gegevens door de bronzen, zilveren en gouden lagen. Stel ten tweede beveiligingsstandaarden in voor het beveiligen van gegevensproducten in verschillende Microsoft-services. Stel ten derde de verbruiks- en levenscyclusstandaarden in voor gegevensproducten. Afbeelding 1. Drie stappen voor het instellen van operationele standaarden voor gegevens.

1. Gegevensopnamestandaarden instellen

OneLake fungeert als de centrale data lake voor analyse en AI in Microsoft Fabric, dus leiders moeten bepalen wat er binnenkomt. Aanbeveling: Stel duidelijke grenzen in zodat teams alleen gegevens opnemen die ondersteuning bieden voor gedefinieerde bedrijfsresultaten. Gebruik de volgende controlelijst om deze aanbeveling toe te passen.

  1. Welke gegevens vereenigt u? Eenwording van gegevens in OneLake betekent het selecteren van gegevens die een gegevensproduct ondersteunen dat is gekoppeld aan een meetbaar bedrijfsresultaat. Aanbevolen procedures: Breng gegevens alleen naar OneLake als het een gegevensproduct ondersteunt en bedrijfswaarde toevoegt. Gegevensopname behandelen als een productbeslissing in plaats van een technische standaardinstelling. Richtlijnen voor beslissingen: Besluit om gegevens op te nemen wanneer hiermee een bedrijfsproces of resultaat wordt uitgelegd of meet dat leiders bijhouden. Kies ervoor om gegevens in operationele systemen of afdelingsopslag te laten wanneer er geen actieve use-case bestaat. Deze keuze vermindert de opslagkosten en governanceoverhead.

  2. Behoud samenwerking en kennisinhoud in Microsoft 365. Microsoft 365-gegevens ondersteunen Microsoft 365 Copilot-agents. Deze agents halen documenten, e-mailberichten en artefacten voor samenwerking op terwijl ze bestaande machtigingen respecteren. Zie de Architectuur van Microsoft 365 Copilot. Aanbevolen procedures: Gebruik Microsoft 365 als recordsysteem voor inhoud waarvan het primaire doel samenwerking, verwijzing of kennis ophalen is. Gebruik de implementatiehandleiding voor Microsoft 365 om deze gegevens voor te bereiden.

  3. Operationele databases integreren via ondersteunde patronen. Operationele databases leveren vaak analyses en AI-scenario's, maar directe toegang creëert risico's en instabiliteit. Aanbevolen procedures: Gebruik door Microsoft Fabric ondersteunde patronen, zoals snelkoppelingen voor virtuele toegang en spiegeling voor gerepliceerde toegang. Azure-databases vereisen vaak spiegeling voor betrouwbare integratie. Richtlijnen voor beslissingen: Kies snelkoppelingen wanneer virtuele toegang voldoet aan de prestatiebehoeften. Kies spiegeling wanneer analyseprestaties, isolatie of downstream hergebruik een fysieke kopie in OneLake vereist.

  4. Bestaande data lakes integreren. Veel organisaties werken al met data lakes, zoals Azure Data Lake Storage (ADLS), Google Cloud Storage of Amazon S3. Aanbevolen procedures: Behandel bestaande meren als onderdeel van het geïntegreerde gegevensdomein in plaats van onmiddellijke migratie af te dwingen. Gebruik snelkoppelingen of spiegeling. Richtlijnen voor beslissingen: Bepaal op basis van gereedheid en risico. Kies snelkoppelingen om duplicatie te voorkomen. Kies spiegeling wanneer consistentie, prestaties of naleving opweegt tegen duplicatiekosten.

  5. Surface Azure Databricks-uitvoer in OneLake. Azure Databricks produceert vaak al gecureerde analysegegevens. Aanbevolen procedures: Houd Databricks-pijplijnen op hun plek en geef de uiteindelijke Gold-uitvoer weer in OneLake. Richtlijnen voor beslissingen: Kies snelkoppelingen om replicatie te voorkomen en wanneer externe toegang voldoet aan de behoeften. Kies spiegeling wanneer governance- of verbruikspatronen lokale gegevens vragen.

  6. Afzonderlijke interne en externe gegevensinname. Voor interne analysegegevens en externe gegevens zijn verschillende besturingselementen vereist. Aanbevolen procedures: Maak afzonderlijke werkruimten of datalake-gebieden voor externe gegevensproducten. Sla alleen goedgekeurde externe gegevenssets op die locaties op. Richtlijnen voor beslissingen: Bepaal vroeg of gegevens interne beslissingen of extern delen ondersteunen. Kies fysieke scheiding om onbedoelde blootstelling te verminderen en het afdwingen van beveiligingsbeleid te vereenvoudigen.

2. Standaarden voor gegevenstransformatie instellen

Het ophalen van gegevens in OneLake is alleen de eerste stap. De echte waarde komt van het transformeren van onbewerkte gegevens in hoogwaardige, kant-en-klare gegevensproducten. Leiders ontwerpen geen pijplijnen, maar ze definiëren platformen en architectuurstandaarden die fragmentatie voorkomen. Aanbeveling: Transformatieplatforms standaardiseren en een consistente verfijningsarchitectuur afdwingen. Gebruik de volgende controlelijst om deze aanbeveling toe te passen:

2.1. Het juiste gegevensplatform gebruiken

Uw keuze voor platform stelt operationele vereisten in voor uw gegevensproducten in Microsoft- en Azure-omgevingen. Aanbeveling: Houd voor elk gegevensproduct de balans tussen eenvoud en integratie met de behoefte aan gespecialiseerde technische mogelijkheden. Gebruik de volgende controlelijst om deze aanbeveling toe te passen:

  1. Fabric (standaard). Fabric biedt geïntegreerde data engineering-, analyse- en BI-engines die rechtstreeks op OneLake werken, die fungeren als het geïntegreerde beheerde gegevensdomein voor de organisatie. Aanbevolen procedures: Gebruik Fabric voor standaardanalyse, rapportage en gegevensvoorbereiding. Gun systeemeigen Fabric-engines, zoals Dataflows Gen2, Spark en SQL, om toegangsbeheer, herkomst en kostenbeheer te vereenvoudigen. Gebruik OneLake als één opslaglaag. Richtlijnen voor beslissingen: Kies Fabric wanneer de vereisten passen bij ingebouwde mogelijkheden en wanneer de leiding waarde hecht aan geïntegreerde governance en facturering. Accepteer beperkte aanpassingen in ruil voor lagere operationele overhead.

  2. Azure Databricks. Veel mensen geven de voorkeur aan Azure Databricks. Het biedt ondersteuning voor grootschalige verwerking en geavanceerde machine learning-scenario's. Aanbevolen procedures: Blijf Databricks gebruiken waar expertise of schaal al bestaat. Vereisen dat uitvoer in OneLake terechtkomt of verbinding maakt via OneLake-snelkoppelingen, zodat governance, beveiliging en detectie gecentraliseerd blijven. Richtlijnen voor beslissingen: Kies Databricks wanneer Fabric niet voldoet aan de huidige vereisten. Accepteer hogere integratie- en vaardigheidsoverhead als compromis.

  3. Grenzen van platformeigendom afdwingen. Duidelijke platformgrenzen voorkomen dubbele kosten en inconsistente logica tussen systemen. Aanbevolen procedures: Wijs de verantwoordelijkheid voor elke workloadklasse toe aan één platform. Een architectuurbeoordeling vereisen voordat u platformoverschrijdende verwerking goedkeurt. Richtlijnen voor beslissingen: Bepaal welk platform eigenaar is van opname-, transformatie- en analyseresultaten. Voorkom dubbele transformaties en overlappende pijplijnen die hetzelfde bedrijfsresultaat leveren.

2.2. Medallion-architectuur toepassen

De medaillonarchitectuur brengt vertrouwen, consistentie en governance in alle gegevensproducten tot stand door een duidelijke voortgang te definiëren van onbewerkte gegevens tot bedrijfsgerichte resultaten. Aanbeveling: Alle gegevensproducten in OneLake moeten een brons-, zilver- en goudstructuur volgen en snelkoppelingen die deze lagen omzeilen, verbieden. Gebruik de volgende controlelijst om deze aanbeveling toe te passen:

  1. Een bronslaag verplichten als het recordsysteem (onbewerkte opname): de bronslaag legt gegevens precies vast zodra deze binnenkomen in OneLake en behoudt de oorspronkelijke bronkwaliteit. Aanbevolen procedures: Sla gegevens op als alleen-toevoegen en onveranderbaar. Verbied correcties of verrijking in deze fase. Vereisen dat elke binnenkomende gegevensset eerst in brons terechtkomt. Richtlijnen voor beslissingen: Beslis dat brons alleen bestaat om de waarheid van bronsystemen te behouden. Accepteer tragere bruikbaarheid in ruil voor controlebaarheid en traceerbaarheid.

  2. Stel de zilveren laag in als de vertrouwde weergave. De zilveren laag bevat gevalideerde, gestandaardiseerde en opgeschoonde gegevens waarop teams vertrouwen voor consistente analyse. Aanbevolen procedures: Regels voor gegevenskwaliteit toepassen, uitlijning opmaken en eenvoudige bedrijfsvalidatie. Documenteer silver datasets duidelijk en beheers wijzigingen via governance-processen. Richtlijnen voor beslissingen: Kies zilver als gezaghebbende opgeschoonde laag. Voorkom dat teams onbewerkte gegevens onafhankelijk van elkaar kunnen herstellen, waardoor conflicterende interpretaties ontstaan.

  3. Gold (bedrijfscontext, dataproducten): Certificeer gold datasets als zakelijke dataproducten. De gouden laag levert beheerde gegevensproducten die leiders gebruiken voor beslissingen, prestatietracering en rapportage. Aanbevolen procedures: Kwaliteitsgegevens afstemmen op goedgekeurde bedrijfsdefinities en metriek. Optimaliseer structuren voor verbruik. Registreer elke gouden gegevensset als een gegevensproduct in Microsoft Purview met eigendom, doel en vernieuwingsgegevens. Richtlijnen voor beslissingen: Bepaal dat elke gegevensset die wordt gebruikt in teams of voor beslissingen in goud moet bestaan. Weiger gegevenssets die niet beheerd of gecertificeerd zijn en die governance omzeilen.

  4. Maak opgeschoonde producten voor extern gebruik. Extern delen vereist een opzettelijke scheiding van interne operationele gegevens. Aanbevolen procedures: Produceer gecureerde gegevenssets die gevoelige velden verwijderen of maskeren en waar nodig details verminderen. Wijs eigendom toe en pas duidelijke labels toe, zoals openbaar of extern gebruik. Sla deze gegevenssets op goedgekeurde locaties op. Richtlijnen voor beslissingen: Kies ervoor om externe gegevenssets als onafhankelijke producten te behandelen. Accepteer extra governancestappen om juridische en beveiligingsrisico's te verminderen.

Fabric ondersteunt dit model via gematerialiseerde lake weergaven, die de transformaties automatisch kunnen beheren. Zie Medalillon Lakehouse Architecture in Fabric. Zie End-to-End analytics met Microsoft Fabric voor een analysearchitectuur.

Tabel. Voorbeeld van medaillonarchitectuur. Gold Layer combineert gegevens uit twee gegevenssets.

Dataset Laag Voorbeeldgegevens Wat is er gebeurd
Verkooptransacties Brons OrderID=984321 · StoreID=17 · Bedrag="1,200" · TxnDate="2026-01-05T14:32:09Z" Deze record is precies vanaf het verkoopsysteem aangekomen zoals verzonden. Hoeveelheid is tekst. Tijdstempel volgt het systeemformaat. Er wordt geen betekenis toegepast.
Zilver OrderID=984321 · StoreID=17 · Bedrag=1200,00 · TxnDate=2026-01-05 De transactie wordt gestandaardiseerd en gevalideerd. Het bedrag is numeriek. Datum volgt bedrijfsvoorschriften. Gegevens zijn nu betrouwbaar.
Winkelnotitie Brons StoreID="17" · RegionName="EAST" Deze record is aangekomen vanuit een locatiesysteem. Opmaak weerspiegelt de bron.
Zilver StoreID=17 · Regio=Oost De winkelidentificatoren zijn afgestemd op verkoopgegevens. Regiowaarden worden opgeschoond en eenduidig.
Dagelijkse omzet per regio Goud Regio=Oost · Datum=2026-01-05 · TotalRevenue=425000 Deze waarde combineert Silver-verkooptransacties met Silver Store-referentiegegevens. Afzonderlijke records worden samengevat om een zakelijke vraag te beantwoorden.

2.3. Een adaptieve gouden laag overwegen

Adaptive Gold is hier opgenomen als een vooruitziende overweging. Het idee is dat u AI-agents gebruikt om gouden lagen te maken. Agents kunnen patronen waarnemen die u mogelijk niet kunt zien. Als gebruikers vaak vragen om 'belangrijkste klantproblemen per regio per maand', kunnen AI-agents die gegevensset materialiseren. Deze mogelijkheid is momenteel niet beschikbaar in Microsoft Fabric. Hiervoor moet een aangepaste AI-agent worden gebouwd die werkt op Fabric en Power BI-telemetrie.

3. Standaarden voor het publiceren van gegevensproduct instellen

Publicatiestandaarden bepalen hoe uw organisatie vertrouwde gegevensproducten beschikbaar maakt via Microsoft Fabric OneLake en Microsoft Purview. Het doel is om hergebruik te schalen, governance af te dwingen en risico's voor analyses en AI-workloads te verminderen. Aanbeveling: Stel één publicatiestandaard vast waarmee elk goedgekeurd gegevensproduct kan worden gedetecteerd, beheerd en duidelijk is bedoeld voor een gedefinieerd publiek voordat het algemeen wordt gebruikt. Gebruik de volgende controlelijst om deze aanbeveling toe te passen:

  1. Publicatie standaardiseren via OneLake Catalog. OneLake Catalog biedt een geïntegreerd toegangsoppervlak voor gegevensproducten op fabric- en externe verwerkingsplatforms, zoals Databricks. Aanbevolen procedures: Gebruik OneLake als standaarduitvoerings- en verbruikslaag voor alle goedgekeurde gegevensproducten. Behandel Microsoft Purview als het recordsysteem voor governance- en bedrijfsdefinities. Met deze uitlijning kunnen Power BI-, Fabric-gegevensagents en Azure AI Search gegevens consistent gebruiken terwijl gecentraliseerde zichtbaarheid van governance mogelijk is.

  2. Vindbaarheid garanderen. Vindbaarheid zorgt ervoor dat besluitvormers en consumenten vertrouwde gegevensproducten kunnen vinden zonder gebruik te maken van informele kennis. Aanbevolen procedures: Zichtbaarheid van Fabric-werkruimte configureren zodat relevante doelgroepen items kunnen detecteren. Ze hebben geen toegang nodig, alleen de mogelijkheid om toegang aan te vragen. Schakel Werkstromen voor Purview-toegangsaanvragen in, zodat gebruikers rechtstreeks vanuit de catalogus machtigingen kunnen aanvragen. Besluitvorming richtlijnen: Kies brede ontdekbaarheid wanneer hergebruik over domeinen heen het doel is. Kies beperkte detectie wanneer wettelijke of vertrouwelijkheidsbeperkingen van toepassing zijn. Zichtbaarheid verdelen met toegangsbeheer in plaats van assets te verbergen.

  3. Mandaat voor metagegevensverrijking bij publicatie. Metagegevens bieden context waarmee leiders fitness, vertrouwen en hergebruik van een gegevensproduct kunnen beoordelen. Beste werkwijzen: Vereisen beschrijvende metagegevens bij publicatie. Gebruik tags in Fabric om producten te classificeren op bedrijfsdomein of initiatief. Zorg ervoor dat beschrijvingen het doel en het gegevensbereik uitleggen. Deze praktijk biedt ondersteuning voor cataloguszoekopdrachten en verbetert het vertrouwen in hergebruik. Richtlijnen voor beslissingen: Bepaal of de vereisten voor metagegevens minimaal blijven of een standaardschema afdwingen. Kies een standaardschema wanneer de organisatie meerdere domeinen gebruikt en consistentie nodig heeft. Kies een lichtere benadering voor vroege volwassenheidsfasen.

  4. Keur goed en certificeer indien nodig. Goedkeurings- en certificeringscriteria definiëren. Goedkeuring geeft het vertrouwensniveau en de governancerijpheid aan voor de organisatie. Aanbevolen procedures: Gebruik 'Gepromoot' om producten die door het domein worden aanbevolen te markeren. Gebruik Gecertificeerd om producten aan te geven die een formele governancebeoordeling hebben doorstaan. Certificering toepassen op Gold-gegevenssets die ondersteuning bieden voor leidinggevende rapportage of kritieke analyses. Reference Fabric-goedkeuringsrichtlijnen bij Goedkeuring. Richtlijnen voor beslissingen: Bepaal welke producten certificering vereisen. Kies verplichte certificering voor executive- of regelgevingsworkloads. Kies optionele certificering wanneer snelheid en experimenten prioriteit hebben. Accepteer tragere onboarding als de afweging voor een hogere vertrouwensrelatie.

  5. Publiceren als een gegevensproduct in Purview. Purview-gegevensproducten bieden een weergave op een hoger niveau waarmee assets worden gegroepeerd in een beheerde productlevenscyclus. Aanbevolen procedures: Maak een Purview-gegevensproductvermelding voor elk gepubliceerd gegevensproduct. Neem productnaam, beschrijving, eigenaren, kwaliteitsstatus en gerelateerde assets op, zoals tabellen, modellen en rapporten. Referentiegegevensproducten in unified catalog. Richtlijnen voor beslissingen: Bepaal of Purview-gegevensproducten vereist zijn voor alle gepubliceerde assets of alleen voor strategische producten. Kies volledige dekking wanneer portfoliozichtbaarheid belangrijk is. Kies selectieve dekking wanneer de governancecapaciteit beperkt is.

  6. De beoogde doelgroep en het gebruik declareren. Duidelijke intentie voorkomt misbruik en ondersteunt naleving in analyse- en AI-scenario's. Aanbevolen procedures: Vereisen dat elk gegevensproduct de beoogde doelgroep en het ondersteunde workloadtype aangeeft. Geef intern, partner of openbaar gebruik op. Ai-, analyse-, BI- of openbare webscenario's identificeren. Gebruik Purview-metagegevens, woordenlijsttermen en vertrouwelijkheidslabels samen om deze intentie consistent uit te drukken. Richtlijnen voor beslissingen: Bepaal of extern of agentgebruik extra goedkeuring vereist. Kies strengere goedkeuring wanneer gegevens organisatiegrenzen verlaten. Accepteer tragere publicatie als het compromis voor verminderd risico.

Volgende stap