Best practices voor Microsoft Purview-implementatie voor analyses op cloudschaal

De landingszone voor gegevensbeheer is verantwoordelijk voor het beheer van het analyseplatform op cloudschaal. Het is afhankelijk van Microsoft Purview om de meeste mogelijkheden voor gegevensbeheer te bieden.

Notitie

In deze richtlijnen in deze sectie worden configuraties uitgelegd die specifiek zijn voor analyses op cloudschaal. Het is een verzameling best practices voor Azure om uw gegevensbeheer te verbeteren met Behulp van Microsoft Purview. De richtlijnen zijn een aanvulling op de officiële Microsoft Purview-documentatie.

Overzicht

Microsoft Purview is een geïntegreerde service voor gegevensbeheer waarmee u uw on-premises, multicloud- en SaaS-gegevens (Software as a Service) kunt beheren en beheren. Maak een holistische, actuele kaart van uw gegevenslandschap met geautomatiseerde gegevensdetectie, classificatie van gevoelige gegevens en end-to-end gegevensherkomst. Schakel gegevenscuratoren in om uw gegevensdomein te beheren en te beveiligen. Zorg dat gebruikers de mogelijkheid hebben om waardevolle, betrouwbare gegevens te vinden.

Fooi

Het is raadzaam om hulpprogramma's van derden van uw keuze te gebruiken om de resterende mogelijkheden van de landingszone voor gegevensbeheer te integreren met Azure die momenteel niet worden ondersteund door Microsoft Purview.

Eén Microsoft Purview-account wordt geïmplementeerd in de landingszone voor gegevensbeheer, die fungeert als een gecentraliseerde gegevenscatalogus. Vanuit de landingszone voor gegevensbeheer kan Microsoft Purview communiceren met elke gegevenslandingszone via een privénetwerkconnectiviteit met behulp van VNet-peering voor gegevensbeheer, data landingszones en zelf-hostende Integration Runtimes. Detectie van gegevensproducten in on-premises gegevensarchieven en andere openbare clouds wordt bereikt door meer implementaties van zelf-hostende integratieruntimes.

Rekeninginstelling

De eerste stap is de implementatie van een Microsoft Purview-account. Tijdens de implementatie van de landingszone voor gegevensbeheer wordt één Microsoft Purview-account automatisch geïmplementeerd in het databeheerabonnement. Het doel is om de volledige gegevenstoewijzing te centraliseren in één Microsoft Purview-account voor alle datalandingszones. We raden u aan om één Microsoft Purview-account te overwegen binnen het abonnement voor de landingszone voor gegevensbeheer per omgevingstype.

Naast het Microsoft Purview-account wordt ook een beheerde resourcegroep geïmplementeerd. Een beheerd opslagaccount en een beheerde Event Hubs-naamruimte worden geïmplementeerd in deze resourcegroep en worden gebruikt voor het opnemen van metagegevens van gegevensassets via scans. Omdat deze resources worden gebruikt door de Microsoft Purview-catalogus, mogen ze niet worden verwijderd. Er wordt automatisch een RBAC-toewijzing voor op rollen gebaseerd toegangsbeheer van Azure toegevoegd voor alle principals op het niveau van de resourcegroep op het moment van implementatie.

Vereisten

Bekijk vóór de implementatie de volgende vereisten binnen uw abonnement voor de landingszone voor gegevensbeheer:

  • Beleidsuitzonderingen maken: als u een bestaande Azure Policy-toewijzing hebt waarmee beheerders of toepassingen geen Azure Storage-accounts, Azure Event Hubs-naamruimte, Microsoft Purview-accounts, Azure Privé-DNS-zones of privé-eindpunten van Azure kunnen maken, moet u Azure Policy-uitzonderingen toepassen. De uitzonderingen zijn vereist, zodat de benodigde resources kunnen worden geïmplementeerd in de landingszone voor gegevensbeheer, samen met de Implementatie van Microsoft Purview.
  • Resourceproviders registreren: zorg ervoor dat u de volgende Azure-resourceproviders registreert in het abonnement voor de landingszone voor gegevensbeheer:
    • Microsoft.EventHub
    • Microsoft.Purview
    • Microsoft.Storage

Belangrijk

Als u de landingszone voor gegevensbeheer met Microsoft Purview wilt implementeren, moet aan de vereisten worden voldaan. Zie Resourceproviders voor Azure-services voor meer informatie over het registreren van resourceproviders.

Netwerk- en naamomzetting

Analyse in de cloud maakt gebruik van een privé-eindpunt van Azure om beveiligde toegang tot de catalogus mogelijk te maken, mogelijk gemaakt door Azure Private Link. Het privé-eindpunt maakt gebruik van IP-adressen uit de VNet-adresruimte voor uw Microsoft Purview-account. Netwerkverkeer tussen de clients op het VNet en het Microsoft Purview-account gaat via het VNet en een Private Link in het Microsoft backbone-netwerk. Het VNet en Private Link elimineren blootstelling van het openbare internet. Als u netwerkisolatie wilt inschakelen voor end-to-end scanscenario's, worden er meer privé-eindpunten geïmplementeerd. Met de privé-eindpunten kunnen gegevensbronnen in Azure en on-premises bronnen worden verbonden via Azure Private Link.

Azure-privé-eindpuntimplementatie

Het Microsoft Purview-account wordt geïmplementeerd in het virtuele Azure-netwerk (VNet) binnen de landingszone voor gegevensbeheer met verschillende privé-eindpunten:

  • Account: Er wordt een privé-eindpunt gebruikt om alleen clientoproepen naar Microsoft Purview toe te staan die afkomstig zijn van het privénetwerk. Dit is vereist als een vereiste voor een privé-eindpunt van de portal .

  • Portal: Een privé-eindpunt is bedoeld om privéconnectiviteit te bieden met de Microsoft Purview-beheerportal. De Microsoft Purview-beheerportal is de gebruikersinterface voor beheer waarmee u Microsoft Purview vanuit een webbrowser kunt openen en beheren.

  • Opname van privé-eindpunten voor het scannen van Azure IaaS- en PaaS-gegevensbronnen in azure Virtual Network en on-premises gegevensbronnen via een privéverbinding. Dankzij deze methode wordt het netwerk geïsoleerd voor uw metagegevens die van de gegevensbronnen naar Microsoft Purview-gegevenstoewijzing stromen.

Diagram of Microsoft Purview Networking.

Belangrijk

Als u gegevensbronnen in Microsoft Purview wilt scannen, moet een zelf-hostende Integration Runtime worden geïmplementeerd in hetzelfde virtuele netwerk waarin privé-eindpunten van Microsoft Purview worden geïmplementeerd, die zich in de landingszone voor gegevensbeheer of in een datalandingszone kunnen bevinden.

Zie Het netwerk voor analyse op cloudschaal voor meer informatie over netwerken voor landingszones voor gegevensbeheer.

Zie Privé-eindpunten van Microsoft Purview gebruiken voor uw Microsoft Purview-account voor meer informatie over privé-eindpunten van Microsoft Purview.

Privé-eindpunt voor account en portal

Als u de gegevensinfrastructuur wilt beheren met Microsoft Purview en verbinding wilt maken met de Microsoft Purview-beheerportal, moet u privéconnectiviteit gebruiken. Openbare toegang is beperkt tot het Microsoft Purview-account dat is geïmplementeerd in de landingszone voor gegevensbeheer om meer beveiliging toe te voegen. Privé-eindpunten voor accounts en portals worden geïmplementeerd om privéconnectiviteit te bieden met uw Microsoft Purview-account en toegang tot de Microsoft Purview-beheerportal.

Toegang tot de Microsoft Purview-beheerportal

Als u het gebruik van de Microsoft Purview-portal wilt behouden via privéconnectiviteit, raden we u aan om openbare netwerktoegang in Microsoft Purview-instellingen te weigeren. Als u verbinding wilt maken met de Microsoft Purview-beheerportal, hebt u een jumpmachine of jumpbox nodig die in uw netwerk is geïmplementeerd. U kunt een machine uit het hybride netwerk of als een virtuele machine in de landingszone voor gegevensbeheer gebruiken. Een jumpmachine is een beveiligde RAS-server, die vaak gebruikmaakt van de SSH-software (Remote Desktop Services of Secure Shell) van Microsoft. Jumpcomputers fungeren als een stappunt voor beheerders die toegang hebben tot kritieke systemen met alle beheeracties die worden uitgevoerd vanaf de toegewezen host.

Gebruik een van deze opties om uw gegevens te beheren met Microsoft Purview via de Microsoft Purview-beheerportal:

  • Optie 1: Gebruik een jumpmachine die is verbonden met het bedrijfsnetwerk. Als u dit connectiviteitsmodel wilt gebruiken, moet u verbinding hebben tussen het VNet waar het privé-eindpunt van de Microsoft Purview-portal wordt gemaakt en uw bedrijfsnetwerk.

    Bekijk Cloud Adoption Framework-netwerken voor meer informatie over netwerktopologie en connectiviteitsoverzicht.

  • Optie 2: Als hybride connectiviteit niet beschikbaar is in uw organisatie, implementeert u een virtuele machine in de landingszone voor gegevensbeheer. Implementeer Azure Bastion om verbinding te maken met Microsoft Purview met behulp van een beveiligde verbinding.

Privé-eindpunten voor opname

Microsoft Purview kan gegevensbronnen scannen in Azure of on-premises omgevingen met behulp van privé- of openbare eindpunten. Het netwerk van een gegevenslandingszone wordt automatisch gekoppeld aan het VNet van de landingszone voor gegevensbeheer en het VNet van het connectiviteitsabonnement. De gegevensbronnen in datalandingszones kunnen dus worden gescand met behulp van privéconnectiviteit.

U wordt aangeraden privé-eindpunten in te schakelen voor andere gegevensbronnen in uw landingszones en gegevensbronnen te scannen met behulp van privéconnectiviteit.

Naamomzetting

DNS-omzetting voor privé-eindpunten moet worden verwerkt via centrale Azure Privé-DNS-zones. De volgende privé-DNS-zones worden automatisch geïmplementeerd in de Microsoft Purview-implementatie in de landingszone voor gegevensbeheer:

  • privatelink.purview.azure.com
  • privatelink.purviewstudio.azure.com
  • privatelink.blob.core.windows.net
  • privatelink.queue.core.windows.net
  • privatelink.servicebus.windows.net

Diagram of high Level name resolution architecture.

Als u een hybride cloud hebt en cross-premises naamomzetting is vereist, is het belangrijk dat u on-premises DNS-servers correct configureert om de juiste aanvragen door te sturen naar de aangepaste DNS-server in Azure.

  • Als u al aangepaste DNS in Azure hebt, moet u voorwaardelijke doorstuurservers instellen op uw on-premises DNS-server die ernaar verwijst.

  • Als u geen aangepaste DNS-VM in Azure hebt, kunt u de virtuele-machineschaalset van Azure implementeren die NGINX al heeft geconfigureerd voor het doorsturen van DNS-aanvragen naar door Azure verstrekte DNS-IP 168.63.129.16. Zie Virtuele-machineschaalset van een NGINX DNS-proxy implementeren in een bestaand virtueel netwerk voor meer informatie.

Fooi

Als u naamomzetting wilt toestaan tussen de landingszone voor gegevensbeheer en de landingszones voor gegevens, gebruikt u dezelfde privé-DNS-zones binnen {prefix}-global-dns de resourcegroep binnen de landingszone voor gegevensbeheer.

Zie Netwerken voor analyses op cloudschaal en naamomzetting voor meer informatie over cloudanalysenetwerken

Verificatie voor gegevensbronnen beheren in Microsoft Purview

Microsoft Purview vereist toegang tot het besturingsvlak en het gegevensvlak om gegevensbronnen te registreren en te scannen.

Gegevensbronnen registreren

Wanneer u het Microsoft Purview-account implementeert, wordt automatisch een door het systeem toegewezen beheerde identiteit gemaakt. Deze wordt gemaakt in de Microsoft Entra-tenant en toegewezen aan deze resource. Als u Azure-resources wilt lezen en weergeven onder een abonnement of resourcegroep bij het registreren van gegevensbronnen in Microsoft Purview, heeft de door Microsoft Purview beheerde identiteit de rol Azure RBAC Reader voor het bereik nodig.

Overweeg de rol Lezer toe te wijzen aan de door Microsoft Purview beheerde identiteit in elk abonnement op de gegevenslandingszone voordat u een van deze gegevensbronnen registreert bij Microsoft Purview:

  • Azure Blob Storage
  • Azure Data Lake Storage Gen1
  • Azure Data Lake Storage Gen2
  • Azure SQL Database
  • Azure SQL Managed Instance
  • Azure Synapse Analytics

Gegevensbronnen scannen

Voordat u nieuwe scans uitvoert, moet u ervoor zorgen dat u aan de volgende vereisten voldoet:

Zelf-hostende integratieruntimes implementeren en registreren

Implementeer en registreer zelf-hostende IR-VM's (Integration Runtime) voor elke gegevenslandingszone. Zelf-hostende IR's zijn vereist voor het scannen van gegevensbronnen, zoals Azure SQL Database of op VM's gebaseerde gegevensbronnen. Deze gegevensbronnen kunnen zich on-premises of in elk van de datalandingszones bevinden. Een zelf-hostende IR kan kopieeractiviteiten uitvoeren tussen een gegevensarchief in de cloud en een gegevensarchief in een particulier netwerk. De IR kan ook transformatieactiviteiten verzenden voor rekenbronnen in een on-premises netwerk of een virtueel Azure-netwerk. De installatie van een zelf-hostende IR heeft een on-premises machine of een virtuele machine in een particulier netwerk nodig.

Fooi

U wordt aangeraden een toegewezen computer te gebruiken om de IR te hosten. De computer moet gescheiden zijn van de server die als host fungeert voor het gegevensarchief. Het wordt ook ten zeerste aanbevolen om ten minste twee zelf-hostende IR-VM's te plannen in elke gegevenslandingszone of on-premises omgeving.

Als u on-premises gegevensbronnen wilt scannen, kunnen de zelf-hostende IRs worden geïmplementeerd in uw on-premises netwerk. Als u echter gegevensbronnen in Azure wilt scannen, moeten de zelf-hostende IRs worden geïmplementeerd in hetzelfde VNet als privé-eindpunten van Microsoft Purview. Het is raadzaam om nieuwe privé-eindpunten voor opname en nieuwe zelf-hostende IR's te implementeren per regio waar gegevensbronnen zich bevinden.

Mogelijk wilt u een toenemende gelijktijdige workload hosten. Of misschien wilt u betere prestaties bereiken op het niveau van uw huidige workload. U kunt de schaal van de verwerking verbeteren door een van de volgende methoden te gebruiken:

  • Omhoog schalen wanneer de processor en het geheugen van het knooppunt te weinig worden gebruikt
  • De zelf-hostende IR uitschalen door meer knooppunten of virtuele-machineschaalsets toe te voegen

Toegang tot het gegevensvlak toewijzen om gegevensbronnen te scannen

Als u toegang wilt bieden tot Microsoft Purview op het gegevensvlak en gegevensbronnen, zijn er meerdere opties om de verificatie in te stellen:

  • Optie 1: Beheerde identiteit
  • Optie 2: Accountsleutel of wachtwoorden die zijn opgeslagen in Azure Key Vault als geheim
  • Optie 3: Service-principal die is opgeslagen in Azure Key Vault als geheim

Belangrijk

Als u gegevensbronnen wilt scannen via Azure Private Link in Microsoft Purview, moet u een zelf-hostende Integration Runtime implementeren en accountsleutel/SQL-verificatie of service-principal gebruiken vanuit de opties voor verificatie naar gegevensbronnen.

Fooi

Wanneer een gegevensbron geen gebruik kan maken van Azure Private Link, raden we u aan om beheerde Identiteit van Microsoft Purview te gebruiken om gegevensbronnen te scannen. In dit geval moet u openbare toegang toestaan voor de firewallinstellingen van uw Microsoft Purview-account.

Geheimen opslaan in Azure Key Vault

Meerdere Azure Key Vault-resources worden geïmplementeerd in de landingszone voor gegevensbeheer en de abonnementen voor de gegevenslandingszone. In de Azure Key Vault-resources worden geheimen opgeslagen die betrekking hebben op metagegevensgegevensbronnen in de landingszone en gegevensbronnen voor gegevensbeheer. Een voorbeeld van een gegevensbron is Azure SQL Database die wordt gebruikt door Azure Data Factory. Of Azure Database for MySQL die worden gebruikt door Databricks-werkruimten in de gegevenslandingszone.

Verbinding maken azure-sleutelkluizen voor gegevenslandingszones naar uw Microsoft Purview-account

Microsoft Purview kan de geheimen en referenties gebruiken die zijn opgeslagen in Azure-sleutelkluizen. Ze kunnen alleen worden gebruikt als u de Azure Key Vault-verbinding binnen het Microsoft Purview-account maakt en het geheim is geregistreerd. Nadat u een nieuwe landingszone voor gegevens hebt toegevoegd, moet u een nieuwe Azure Key Vault-verbinding maken in het Microsoft Purview-account. De verbinding is een een-op-een-koppeling van de Azure Key Vault-resource met het Microsoft Purview-account. Hiermee kunt u referenties maken in het Microsoft Purview-account op basis van de geheimen die zijn opgeslagen in Azure Key Vault.

Zie Azure Key Vault-verbindingen maken in uw Microsoft Purview-account voor meer informatie.

Fooi

Verwijder ongebruikte Azure-sleutelkluizen om Key Vault-verbindingen te minimaliseren.

Referenties maken in Microsoft Purview

Mogelijk moet u een referentie instellen met behulp van een sleutelkluisgeheimvoor specifieke scenario's:

  • Als u gegevensbronnen wilt scannen waarbij door Microsoft Purview beheerde identiteit niet kan worden gebruikt als verificatiemethode.
  • Als u gegevensbronnen wilt scannen met behulp van een zelf-hostende Integration Runtime, moeten de ondersteunde verificatietypen, zoals accountsleutels, SQL-verificatie (wachtwoord) of service-principal worden opgeslagen in een referentie.
  • Gegevensbronnen scannen met behulp van een privé-eindpunt voor gegevensopname.
  • Gegevensbronnen scannen die zich in een virtuele machine of in een on-premises omgeving bevinden.

Voordat u referenties in Microsoft Purview maakt, moet uw Microsoft Purview-account toegang hebben tot Azure Key Vault-geheimen. Gebruik azure Key Vault-toegangsbeleid of op rollen gebaseerd toegangsbeheer (RBAC) om Microsoft Purview Managed Service Identity (MSI) de vereiste toegang te verlenen. Zie Referenties voor bronverificatie in Microsoft Purview in Microsoft Purview voor meer informatie over het verlenen van MSI-toegang tot Azure Key Vault en het maken van referenties in Microsoft Purview.

Rollen en toegangsbeheer van Microsoft Purview

Microsoft Purview heeft verschillende ingebouwde rollen, zoals Gegevenslezer, Gegevenscurator, Verzamelingsbeheerder, Gegevensbronbeheerder en Beleidsauteur voor het beheren van het gegevensvlak, dat kan worden gecombineerd om meer bevoegdheden te bieden. De rol Gegevenslezer is bijvoorbeeld bedoeld voor rollen zoals gegevensfunctionarissen, gegevensstewards en hoofdbeveiligingsmedewerkers die alleen-lezentoegang tot het gegevensdomein vereisen. De gegevensomgeving kan classificaties, herkomst via zoekopties en rapporten bevatten die beschikbaar zijn in Microsoft Purview.

Zodra de implementatie van de landingszone voor gegevensbeheer is voltooid, gebruikt u het model met minimale bevoegdheden om toegang te bieden tot het weergeven of beheren van metagegevens in Microsoft Purview.

Belangrijk

Microsoft Purview-gegevensvlakrollen moeten worden beheerd in de Microsoft Purview-beheerportal of rechtstreeks met behulp van de API.

Zie Toegangsbeheer in het gegevensvlak van Microsoft Purview voor meer informatie over Microsoft Purview-rollen

Bekijk de volgende lijst met persona's die betrokken zijn bij een cloudanalyse-implementatie. Wijs ze de relevante Microsoft Purview-rollen toe, zodat ze kunnen bijdragen aan het succes van de implementatie:

Persona - Rol Aanbevolen Microsoft Purview-rol
Producteigenaren Producteigenaren gebruiken Azure om uw oplossingen te transformeren, flexibiliteit te bieden voor het bedrijf en bedrijfsprocessen te optimaliseren. Gegevenslezer
Oplossingsarchitecten Definieer oplossingen voor het bereiken van de grenzen van het bedrijfsnetwerk. Meer informatie over het oplossen van diagnose, analyse, ontwerp, implementatie en integratie van Azure-services.
  • Gegevensbron Beheer
  • Gegevenscurator
  • Ontwikkelaars en DevOps-technici Ontwerp, bouw, implementeer, test en onderhoud continue integratie- en leveringsproces met Azure DevOps of GitHub. Niet van toepassing
    Beveiligingstechnici Stel uw teams in staat om een beveiligde infrastructuur in Azure te ontwerpen en te implementeren met behulp van best practices.
  • Verzameling Beheer
  • Gegevenslezer
  • Technische en bedrijfsmanagers Bouw een algemeen begrip van Azure-services. Beheer uw cloudkosten en optimaliseer uw activiteiten en de flexibiliteit van uw team. Niet van toepassing
    Besluitvormers en zakelijke gebruikers Gebruik Azure voor toegang tot bruikbare inzichten. Verwacht dat deze in de meest relevante vorm wordt geleverd. Ai gebruiken die is ingesloten in bestaande oplossingen om bedrijfsprocessen te optimaliseren. Gegevenslezer
    Gegevensbeheerders Verantwoordelijk voor het inrichten en beheren van toegang tot gegevensassets. Gegevenslezer of gegevenscurator
    Gegevensanalisten en prestatieanalisten Gebruik Azure om nieuwe inzichten te ontdekken en te delen op basis van bestaande gegevensassets of ad-hocgegevens . Maak ai-transformaties met één klik, verbruik vooraf gemaakte modellen en genereer eenvoudig machine learning-modellen.
  • Gegevensbron Beheer
  • Gegevenslezer
  • Gegevenstechnici Gebruik Azure om gegevens- en analyseproducten te bouwen, integreren en beheren. Maak toepassingen en oplossingen waarvoor AI is ingeschakeld, indien van toepassing.
  • Gegevensbron Beheer
  • Gegevenscurator
  • Gegevenswetenschappers van burgers Machine learning-modellen maken via krachtige visuals, slepen en neerzetten, hulpprogramma's zonder code, waar geen codering nodig is
  • Gegevensbron Beheer
  • Gegevenscurator
  • Gegevenswetenschappers Gebruik uw favoriete hulpprogramma's en machine learning-frameworks om schaalbare data science-oplossingen te bouwen. Versnel de end-to-end levenscyclus van machine learning.
  • Gegevensbron Beheer
  • Gegevenscurator
  • Machine learning-technici Schakel juiste processen en infrastructuur in voor eenvoudige modelimplementatie en modelbeheer.
  • Gegevensbron Beheer
  • Gegevenscurator
  • Zie Rollen en teams voor meer informatie over gegevensrollen.

    Volgende stappen

    Azure Machine Learning als gegevensproduct voor analyses op cloudschaal