Delen via


Overzicht van landingszone voor analysegegevensbeheer op cloudschaal

De landingszone voor gegevensbeheer is een beheerfunctie en is centraal in analyses op cloudschaal. Het is verantwoordelijk voor het beheer van uw analyseplatform.

Diagram van overzicht van landingszone voor gegevensbeheer.

Uw landingszone voor gegevensbeheer is een afzonderlijk abonnement met dezelfde standaardservices voor Azure-landingszones. Het maakt gegevensbeheer van uw gegevens mogelijk via crawlers, die verbinding maken met uw data lakes en polyglot-opslag in uw datalandingszones. Peering van virtuele netwerken verbindt uw landingszone voor gegevensbeheer met uw datalandingszones en connectiviteitsabonnement.

Gebruik deze architectuur als uitgangspunt. Download het Visio-bestand en pas het aan uw specifieke zakelijke en technische vereisten aan bij het plannen van de implementatie van de landingszone voor gegevensbeheer.

Notitie

Polyglot-persistentie is een opslagterm die uw keuze beschrijft tussen verschillende technologieën voor gegevensopslag/gegevensarchieven ter ondersteuning van uw verschillende gegevenstypen en hun opslagbehoeften. In wezen is polyglot persistence het concept dat een toepassing meer dan één kerndatabase of opslagtechnologie kan gebruiken.

Belangrijk

Uw landingszone voor gegevensbeheer moet worden geïmplementeerd als een afzonderlijk abonnement onder een beheergroep met de juiste governance. Vervolgens kunt u governance in uw organisatie beheren. De Azure-landingszoneversneller laat zien hoe u Azure-landingszones moet benaderen.

Data catalogus

Resourcegroep: governance-rg

De gegevenscatalogus registreert en onderhoudt de gegevensgegevens op een gecentraliseerde locatie en maakt deze beschikbaar voor de organisatie. Het zorgt ervoor dat ondernemingen dubbele gegevensproducten voorkomen die worden veroorzaakt door redundante gegevensopname door verschillende projectteams.

U wordt aangeraden een gegevenscatalogusservice te maken om de metagegevens te definiëren van de gegevensproducten die zijn opgeslagen in de datalandingszones.

Cloudanalyses zijn afhankelijk van Microsoft Purview om zakelijke gegevensbronnen te registreren, ze te classificeren, gegevenskwaliteit te garanderen en veilige, selfservicetoegang te bieden.

Microsoft Purview is een tenantservice en kan communiceren met elke landingszone voor gegevens door een beheerd virtueel netwerk te maken dat is geïmplementeerd in de regio van uw gegevenslandingszones. U kunt Azure Managed Virtual Network Integration Runtimes (IR) implementeren binnen Microsoft Purview Managed Virtual Networks in elke beschikbare Microsoft Purview-regio. Van daaruit kan de ir van het beheerde virtuele netwerk privé-eindpunten gebruiken om veilig verbinding te maken met de ondersteunde gegevensbronnen en deze te scannen. Zie Beheerde virtuele netwerken gebruiken met uw Microsoft Purview-account voor meer informatie. Het maken van een beheerde virtuele netwerk-IR in Managed Virtual Network zorgt ervoor dat het proces voor gegevensintegratie geïsoleerd en veilig is.

Notitie

Hoewel deze documentatie voornamelijk gericht is op het gebruik van Microsoft Purview voor governance, hebben ondernemingen mogelijk geïnvesteerd in andere producten, zoals Alation, Okera of Collibra. Deze oplossingen zijn gebaseerd op abonnementen en we raden u aan om deze te implementeren in de landingszone voor gegevensbeheer. Houd er rekening mee dat er mogelijk een aangepaste integratie vereist is.

Zie de best practices voor gegevenscatalogus en Microsoft Purview-implementatie voor analyses op cloudschaal voor meer informatie.

Beheer van gegevenskwaliteit

Resourcegroep: governance-rg2

Ga verder met uw huidige oplossing.

U moet de gegevenskwaliteit zo dicht mogelijk bij uw gegevensbron beheren, zodat u problemen met de kwaliteit van uw analyses en AI-activa kunt voorkomen. Als u metrische gegevens en validatie van kwaliteit naar uw gegevensintegratie verplaatst, wordt het kwaliteitsproces afgestemd op de teams die zich het dichtst bij uw gegevens bevinden. Deze teams hebben het grootste inzicht in uw gegevensasset.

Gegevensherkomst biedt ook betrouwbaarheid van gegevenskwaliteit en u moet deze opgeven voor alle gegevensproducten en -producten.

Zie Gegevenskwaliteit voor meer informatie over gegevenskwaliteitsbeheer.

Opslagplaats voor gegevensmodellering

Resourcegroep: governance-rg2

U moet entiteitsrelatiemodellen vastleggen en opslaan op een centrale locatie binnen uw landingszone voor gegevensbeheer. Dit biedt gegevensgebruikers één plek om conceptuele diagrammen te vinden.

Veel klanten gebruiken ER Studio en iServer om hun gegevensproducten te modelleren voordat ze worden opgenomen.

Mastergegevensbeheer

Resourcegroep: governance-rg2

Beheer van hoofdgegevensbeheer bevindt zich in de landingszone voor gegevensbeheer. Hoofdgegevensbeheer in data mesh bevat specifieke overwegingen die u moet aanroepen voor data mesh.

Veel hoofdoplossingen voor gegevensbeheer zijn volledig geïntegreerd met Microsoft Entra ID. Met deze integratie kunt u uw gegevens beveiligen en verschillende weergaven bieden voor verschillende gebruikersgroepen.

Zie Master Data Management System voor meer informatie.

API-catalogus

Resourcegroep: governance-rg2

Uw datatoepassingsteams over de hele groep maken waarschijnlijk verschillende API's voor hun gegevenstoepassing. Deze API's kunnen moeilijk worden gedetecteerd in uw organisatie. Het plaatsen van een API-catalogus in uw landingszone voor gegevensbeheer kan dit probleem oplossen.

Een API-catalogus kan helpen bij het standaardiseren van uw documentatie en biedt een plek voor interne samenwerking op API's. Het kan ook het verbruik, de publicatie en het beheer van besturingselementen in uw organisatie stimuleren.

Gegevens delen en contracten

Resourcegroep: governance-rg2

Analyse op cloudschaal maakt gebruik van Microsoft Entra-rechtenbeheer of Microsoft Purview-beleid om de toegang tot het delen van gegevens te beheren. Zelfs dit is mogelijk dat u nog steeds een opslagplaats voor delen en contracten nodig hebt. Deze opslagplaats is een organisatiefunctie en moet zich in uw landingszone voor gegevensbeheer bevinden.

Uw contracten moeten informatie bevatten over gegevensvalidatie, modellen en beveiligingsbeleid.

Zie Gegevenscontracten voor meer informatie

Azure Container Registry

Resourcegroep: containers-rg

Uw landingszone voor gegevensbeheer fungeert als host voor een Azure Container Registry. Met Azure Container Registry kunnen uw gegevensplatformbewerkingen standaardcontainers implementeren voor gebruik in data science-projecten die uw datatoepassingsteams gebruiken.

Resourcegroep: synapse-link-rg

Azure Synapse Analytics Private Link-hubs zijn Azure-resources die uw beveiligde netwerk en de Azure Synapse Studio-webervaring verbinden. Met cloudanalyses wordt uw virtuele Azure-netwerk veilig verbonden met Azure Synapse Studio met behulp van privékoppelingen vanuit deze hubs.

Er zijn twee stappen om verbinding te maken met Azure Synapse Studio met behulp van privékoppelingen.

  1. Maak een Private Link-hubresource.
  2. Maak een privé-eindpunt van uw Virtuele Azure-netwerk naar die Private Link-hub.

U kunt vervolgens privé-eindpunten gebruiken om veilig te communiceren met Azure Synapse Studio. Integreer deze privé-eindpunten met uw DNS-oplossing, hetzij met uw on-premises oplossing of met Azure Privé-DNS.

Zie Verbinding maken met Azure Synapse Studio met behulp van privékoppelingen voor meer informatie.

Automation-interfaces (optioneel)

Uw organisatie kan besluiten om veel automatiseringsservices te maken om de mogelijkheden voor analyse op cloudschaal te verbeteren. Deze automatiseringsservices zorgen voor overeenstemming en onboardingoplossingen voor uw analysestatus.

Als u besluit om deze automatiseringsservices te bouwen, moet u een gebruikersinterface hebben die fungeert als zowel een gegevensmarktplaats als een bewerkingsconsole. Deze interface moet afhankelijk zijn van een onderliggend metagegevensarchief, zoals we eerder hebben besproken in metagegevensstandaarden.

Uw data marketplace of operations-console roept een middelste laag van microservices aan om onboarding, registratie van metagegevens, inrichting van beveiliging, gegevenslevenscyclus en waarneembaarheid mogelijk te maken.

U kunt de automationdb-rg-resourcegroep inrichten om uw metagegevensarchief te hosten.

Belangrijk

Geen van deze automatiseringsservices zijn producten en ze illustreren geen roadmapitem. Ze worden weergegeven om u te helpen bepalen welke items u mogelijk wilt automatiseren.

Services

Service Servicebereik
Inrichting van gegevenslandingszone Met deze service maakt u een nieuwe landingszone voor gegevens. Het is onwaarschijnlijk dat het een hoog gebruik heeft, maar is opgenomen voor de volledigheid van de end-to-end-onboardingoplossing. Zie De analyse op cloudschaal inrichten voor meer informatie
Onboarding van gegevensproduct Met deze service worden resourcegroepen gemaakt en gewijzigd die betrekking hebben op een onboarded tenant. Het bevat ook mogelijkheden voor het upgraden en degraderen van SKU's en het activeren en deactiveren van resourcegroepen voor elke onboarded tenant of service. Er wordt een nieuwe data landingszone DevOps gemaakt. Zie De analyse op cloudschaal inrichten voor meer informatie
Toegang tot inrichting Met deze service maakt u toegangspakketten, toegangsbeleid en goedkeuringsproces voor assettoegang (handmatig of automatisch) met behulp van SPN/UPN. Het kan ook een API beschikbaar maken om een lijst met abonnementsaanvragen (assets) te bieden die gebruikers de afgelopen 90 dagen hebben ingediend. Zie Data Access Management voor meer informatie
Gegevensagnostische opname Met deze microservice worden nieuwe gegevensbronnen gemaakt voor opname in uw gegevenslandingszones. Dit doet u door te communiceren met een Azure Data Factory SQL Database-metastore in elke datalandingszone. Zie Hoe geautomatiseerde opnameframeworks ondersteuning bieden voor analyses op cloudschaal in Azure voor meer informatie
Metagegevens Deze service wordt weergegeven en maakt metagegevens voor het platform. Zie Metagegevensstandaarden voor meer informatie
Levenscyclus van gegevens Deze service is verantwoordelijk voor het onderhouden van de levenscyclus van uw gegevens op basis van metagegevens. Dit onderhoud kan bestaan uit het verplaatsen van gegevens naar koude opslag en het verwijderen van records die niet meer hoeven te worden bewaard. Zie Gegevenslevenscyclusbeheer voor meer informatie
Onboarding van gegevensdomein ALLEEN VAN TOEPASSING OP DATA MESH. Met deze service worden metagegevens vastgelegd die betrekking hebben op nieuwe domeinen en worden de nieuwe domeinen indien nodig onboardd. Het kan ook een domein of servicelijn maken, bijwerken, activeren en deactiveren die u in een microservice kunt inbouwen. Zie De analyse op cloudschaal inrichten voor meer informatie

Gegevensstandaardisatie

Hoewel het geen specifieke functie of product van uw landingszone voor gegevensbeheer is, moet u de standaardisatie van gegevens in alle services aanroepen. Gegevensstandaardisatie definieert de indeling waarin uw gegevens moeten terechtkomen en moeten worden opgeslagen.

Tip

Gebruik waar mogelijk delta-lake-indeling als de defacto-standaard voor alle services en opslag.

Zie Gegevensstandaardisatie voor meer informatie.

Volgende stappen